Controllable Generation with Text-to-Image Diffusion Models: A Survey

2024年03月07日
  • 简介
    在快速发展的视觉生成领域,扩散模型已经彻底改变了这一领域的面貌,其印象深刻的文本引导生成功能标志着能力的显著转变。然而,仅仅依赖文本来调节这些模型并不能完全满足不同应用和场景的各种复杂需求。为了解决这一缺陷,许多研究旨在控制预训练的文本到图像(T2I)模型以支持新的条件。在本综述中,我们对T2I扩散模型的可控生成文献进行了全面的回顾,涵盖了该领域中的理论基础和实际进展。我们的综述从介绍去噪扩散概率模型(DDPMs)和广泛使用的T2I扩散模型的基础知识开始。然后,我们揭示了扩散模型的控制机制,理论分析了如何将新的条件引入到去噪过程中进行条件生成。此外,我们还提供了该领域研究的详细概述,从条件角度将其分为不同的类别:具有特定条件的生成、具有多个条件的生成和通用可控生成。有关调查的可控生成文献的详尽列表,请参阅我们在\url{https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models}上整理的存储库。
  • 图表
  • 解决问题
    论文研究如何通过控制预训练的文本到图像模型实现条件生成,解决了现有模型只能通过文本来控制生成的局限性。
  • 关键思路
    通过扩展扰动扩散概率模型(DDPMs)的条件生成机制,实现对预训练文本到图像模型的控制,从而实现条件生成。
  • 其它亮点
    论文提供了一个详细的综述,介绍了从特定条件生成、多条件生成到通用可控制生成等不同方面的研究进展,还提供了一个相关文献的代码库。实验使用了多个数据集,包括COCO、FFHQ等,代码也有开源。
  • 相关研究
    相关研究包括:《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Controllable Text-to-Image Generation》、《Plug and Play Generative Networks: Conditional Iterative Generation of Images in Latent Space》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论