NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on Noise Cropping and Merging

2024年03月06日
  • 简介
    本文介绍了一种新的布局感知文本到图像扩散模型,名为NoiseCollage,用于生成反映布局条件和文本条件的多对象图像。目前的布局感知文本到图像扩散模型存在一些问题,包括文本和布局条件之间的不匹配以及生成图像质量的降低。NoiseCollage模型通过独立估计每个对象的噪声并将它们裁剪并合并成单个噪声,以避免条件不匹配。定性和定量评估表明,NoiseCollage优于几种最先进的模型。这些成功的结果表明,噪声的裁剪和合并操作是控制图像生成的合理策略。作者还展示了NoiseCollage可以与ControlNet集成,使用边缘、草图和姿势骨架作为附加条件,实验结果表明,这种集成提高了ControlNet的布局准确性。代码可在https://github.com/univ-esuty/noisecollage上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决布局感知的文本到图像生成中存在的文本和布局条件不匹配以及生成图像质量下降等问题。这是否是一个新问题?
  • 关键思路
    论文提出了一种新的布局感知的文本到图像扩散模型NoiseCollage,通过独立估计每个对象的噪声并将它们裁剪和合并成一个噪声,来避免条件不匹配,即将正确的对象放在正确的位置。相比当前领域的研究,这篇论文的思路有什么新意?
  • 其它亮点
    论文在定性和定量评估中表明,NoiseCollage优于几种最先进的模型。实验结果表明,NoiseCollage可以与ControlNet集成,使用边缘、草图和姿势骨架作为附加条件,提高ControlNet的布局准确性。代码可在https://github.com/univ-esuty/noisecollage中获得。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:1. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks;2. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks;3. DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问