Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance

2024年04月08日
  • 简介
    分类器自由引导(CFG)已经被广泛应用于文本到图像扩散模型中,其中CFG比例被引入以控制文本引导对整个图像空间的影响力。然而,我们认为全局CFG比例会导致不同语义强度下的空间不一致性和次优的图像质量。为了解决这个问题,我们提出了一种新的方法——基于语义的分类器自由引导(S-CFG),以定制不同语义单元在文本到图像扩散模型中的引导程度。具体来说,我们首先设计了一种无需训练的语义分割方法,以在每个去噪步骤中将潜在图像划分为相对独立的语义区域。特别地,去噪U-net骨干网络中的交叉注意力映射被重新归一化,以将每个补丁分配给相应的标记,而自我注意力映射则用于完成语义区域。然后,为了平衡不同语义单元的放大,我们自适应地调整不同语义区域的CFG比例,将文本引导程度重新缩放到统一的水平。最后,广泛的实验表明,在各种文本到图像扩散模型中,S-CFG比原始CFG策略具有更好的性能,而且不需要任何额外的训练成本。我们的代码可在https://github.com/SmilesDZgk/S-CFG上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决文本到图像扩散模型中全局CFG比例带来的空间不一致和图像质量次优的问题,提出了一种语义感知分类器自由引导(S-CFG)的方法。
  • 关键思路
    S-CFG方法通过训练-free的语义分割方法将潜在图像分成相对独立的语义区域,并自适应地调整不同语义区域的CFG比例来重新调整文本引导的程度。
  • 其它亮点
    论文提出了一种新的方法S-CFG,相比原始CFG策略在各种文本到图像扩散模型上表现出更好的性能,而且不需要任何额外的训练成本。实验使用了多个数据集,代码已经开源。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Generative Adversarial Text-to-Image Synthesis: A Review》和《Text-to-Image Generation: A Survey》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问