Training-free Composite Scene Generation for Layout-to-Image Synthesis

简介

最近，文本到图像扩散模型的突破显著推进了从文本描述生成高保真、照片般逼真的图像。然而，这些模型经常难以从文本中解释空间排列，从而影响了它们生成具有精确空间配置的图像的能力。为了弥合这一差距，布局到图像生成已经成为一个有前途的方向。然而，基于训练的方法受制于需要大量注释数据集的限制，导致数据采集成本高，概念范围受限。相反，基于训练的方法面临着在复杂构图中准确定位和生成语义相似对象的挑战。本文介绍了一种新颖的基于训练的方法，旨在在扩散调节阶段克服对抗性语义交叉。通过使用选择性采样来改进内部令牌损失，并使用注意力重新分配来增强扩散过程，我们提出了两个创新的约束条件：1）解决令牌冲突的令牌间约束，以确保准确的概念合成；2）自我注意力约束，以改善像素之间的关系。我们的评估证实了利用布局信息来指导扩散过程的有效性，生成具有增强保真度和复杂度的内容丰富的图像。代码可在https://github.com/Papple-F/csg.git上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决文本生成图像模型在处理空间排列时的困难，提出了一种基于布局生成图像的新方法。
关键思路

本文提出了一种新的无需训练的方法，通过选择性采样和注意力重分配来解决散播条件阶段的敌对语义交叉问题，进而提高像素之间的关系。
其它亮点

本文的亮点在于提出了两个创新的约束条件：解决标记冲突以确保准确的概念合成的标记间约束和提高像素间关系的自我注意力约束。实验结果表明，利用布局信息指导扩散过程可以生成内容丰富、质量和复杂度都得到提升的图像。研究使用了开源代码，代码可在https://github.com/Papple-F/csg.git中获取。
相关研究

近期的相关研究包括Text-to-Image生成模型和基于布局的图像生成方法，其中一些需要大量的标注数据，而另一些则面临着在复杂组合中准确定位和生成语义相似物体的挑战。

Training-free Composite Scene Generation for Layout-to-Image Synthesis

提问交流

提问交流