Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

向作者提问

NEW

简介

文字到图像扩散模型具有生成多样化和高质量图像的前所未有的能力。然而，它们经常难以忠实地捕捉包含多个主题的复杂输入提示的预期语义。最近，引入了许多布局到图像的扩展来提高用户控制，旨在定位由特定标记表示的主题。然而，这些方法经常产生语义不准确的图像，特别是在处理多个语义或视觉上相似的主题时。在这项工作中，我们研究和分析了这些限制的原因。我们的探索揭示了主要问题源于去噪过程中主题之间的意外语义泄漏。这种泄漏归因于扩散模型的注意力层，倾向于混合不同主题的视觉特征。为了解决这些问题，我们介绍了有界注意力，这是一种无需训练的方法，用于限制采样过程中的信息流。有界注意力防止主题之间的有害泄漏，并使生成过程能够指导每个主题的个性化，即使在复杂的多主题条件下也是如此。通过广泛的实验，我们证明了我们的方法使生成的多个主题更符合给定的提示和布局。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本文旨在解决文本到图像扩散模型在处理包含多个主体的复杂输入提示时，难以忠实地捕捉所需语义的问题，以及现有的布局到图像扩展方法在处理多个语义或视觉相似的主体时，经常会产生语义不准确的图像。
关键思路

本文提出了一种新的方法——有界注意力（Bounded Attention），它是一种无需训练的方法，可以限制采样过程中信息流的范围，从而避免不良泄漏，并使生成过程更具指导性，促进每个主体的个性化，即使在复杂的多主体条件下也可以实现。
其它亮点

本文提出的有界注意力方法可以有效地解决多主体图像生成中的语义泄漏问题，并使生成的图像更符合给定的提示和布局。实验结果表明，该方法在多个数据集上的性能超过了现有方法，并且可以生成多个主体的高质量图像。此外，本文还提供了开源代码。
相关研究

在最近的相关研究中，也有一些关于多主体图像生成的研究，例如“Multi-Object Generation with Learned Implicit 3D Representations”和“Generative Modeling for Small-Data Object Detection”等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问