Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models

向作者提问

NEW

简介

扩散模型代表了文本到图像生成的新范式。除了能够从文本提示中生成高质量的图像外，像稳定扩散这样的模型已经成功地扩展到了语义分割伪掩模的联合生成。然而，当前的扩展主要依赖于提取与用于图像合成的提示词相关的注意力。这种方法限制了从文本提示中不包含的单词令牌中派生分割掩模的生成。在这项工作中，我们介绍了一种名为开放词汇注意力图（OVAM）的训练免费方法，用于文本到图像扩散模型，可以生成任何单词的注意力图。此外，我们提出了一种基于OVAM的轻量级优化过程，用于查找为单个注释生成准确注意力图的标记。我们在现有的稳定扩散扩展中评估这些标记。最佳表现模型将其mIoU从52.1提高到86.6，用合成图像的伪掩模证明了我们优化的标记是一种有效的方法，可以在不进行架构更改或重新训练的情况下提高现有方法的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图解决在文本到图像生成中，当前扩展模型主要依赖于与图像合成相关的提示词的注意力提取，从而限制了来自文本提示中不包含的单词生成语义分割掩模的问题。
关键思路

该论文提出了一种名为“Open-Vocabulary Attention Maps（OVAM）”的新方法，为文本到图像扩散模型提供了一种无需训练的方式，可以生成任何单词的注意力图。通过使用OVAM进行轻量级优化，可以找到仅使用单个注释即可生成准确的对象类别的注意力图的标记。在现有的稳定扩散扩展中评估这些标记，最佳性能模型将其mIoU从52.1提高到86.6，证明了我们优化的标记是一种有效的方法，可以在无需架构更改或重新训练的情况下改善现有方法的性能。
其它亮点

论文的亮点包括提出了一种新的方法来解决文本到图像扩散模型中的限制问题，该方法无需训练即可生成任何单词的注意力图。此外，论文还提出了一种基于OVAM的轻量级优化过程，用于找到仅使用单个注释即可生成准确的对象类别的注意力图的标记。实验结果表明，该方法可以显著提高现有方法的性能。
相关研究

在文本到图像生成领域的相关研究包括：1.《Generative Adversarial Text-to-Image Synthesis: A Survey》；2.《Image Generation from Layout》；3.《Text-to-Image Generation Grounded by Fine-Grained User Attention》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问