Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance

简介

分类器自由引导（CFG）已经被广泛应用于文本到图像扩散模型中，其中CFG比例被引入以控制文本引导对整个图像空间的影响力。然而，我们认为全局CFG比例会导致不同语义强度下的空间不一致性和次优的图像质量。为了解决这个问题，我们提出了一种新的方法——基于语义的分类器自由引导（S-CFG），以定制不同语义单元在文本到图像扩散模型中的引导程度。具体来说，我们首先设计了一种无需训练的语义分割方法，以在每个去噪步骤中将潜在图像划分为相对独立的语义区域。特别地，去噪U-net骨干网络中的交叉注意力映射被重新归一化，以将每个补丁分配给相应的标记，而自我注意力映射则用于完成语义区域。然后，为了平衡不同语义单元的放大，我们自适应地调整不同语义区域的CFG比例，将文本引导程度重新缩放到统一的水平。最后，广泛的实验表明，在各种文本到图像扩散模型中，S-CFG比原始CFG策略具有更好的性能，而且不需要任何额外的训练成本。我们的代码可在https://github.com/SmilesDZgk/S-CFG上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决文本到图像扩散模型中全局CFG比例带来的空间不一致和图像质量次优的问题，提出了一种语义感知分类器自由引导（S-CFG）的方法。
关键思路

S-CFG方法通过训练-free的语义分割方法将潜在图像分成相对独立的语义区域，并自适应地调整不同语义区域的CFG比例来重新调整文本引导的程度。
其它亮点

论文提出了一种新的方法S-CFG，相比原始CFG策略在各种文本到图像扩散模型上表现出更好的性能，而且不需要任何额外的训练成本。实验使用了多个数据集，代码已经开源。
相关研究

最近在这个领域中，还有一些相关的研究，例如《Generative Adversarial Text-to-Image Synthesis: A Review》和《Text-to-Image Generation: A Survey》等。

Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance

提问交流

提问交流