Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance

2024年03月25日
  • 简介
    大规模文本到图像扩散模型已经在给定目标文本提示的情况下成功地合成了高质量和多样化的图像。尽管这种革命性的图像生成能力,但目前最先进的模型在许多情况下仍然难以准确处理多概念的生成。这种现象被称为“概念渗透”,表现为各种概念的意外重叠或合并。本文提出了一种通用方法,用于解决复杂场景中不同主题及其附件之间的相互干扰,以追求更好的文本-图像一致性。核心思想是隔离不同概念的合成过程。我们建议使用分裂文本提示将每个附件分别绑定到相应的主题上。此外,我们引入了一种修订方法来解决多主题综合中的概念渗透问题。我们首先依赖预先训练的目标检测和分割模型来获取主题的布局。然后我们使用相应的文本提示单独隔离和重新合成每个主题,以避免相互干扰。总的来说,我们实现了一种无需训练的策略,名为隔离扩散,以优化多概念文本到图像的合成。它与最新的稳定扩散XL(SDXL)和之前的稳定扩散(SD)模型兼容。我们使用各种多概念文本提示比较了我们的方法与替代方法,并通过用户研究证明了其有效性和在文本-图像一致性方面的明显优势。
  • 图表
  • 解决问题
    解决问题:论文提出了一个通用的方法来解决文本到图像扩散模型中的概念混合问题,以追求更好的文本-图像一致性。
  • 关键思路
    关键思路:文本提示被分成不同的子集,以隔离不同概念的合成过程,从而避免相互干扰。使用预先训练的物体检测和分割模型来获得主体的布局,并单独隔离和重新合成每个主体,以避免概念混合。
  • 其它亮点
    亮点:该方法是一种无需训练的策略,名为Isolated Diffusion,可优化多概念文本到图像合成,与最新的Stable Diffusion XL(SDXL)和Stable Diffusion(SD)模型兼容。使用多种多概念文本提示进行比较,并展示了在文本-图像一致性和用户研究方面的明显优势。
  • 相关研究
    相关研究:最近的相关研究包括:1)CLIP和DALL·E模型;2)图像生成模型中的多概念问题;3)基于分割的图像合成方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论