Object-level Visual Prompts for Compositional Image Generation

2025年01月02日
  • 简介
    我们介绍了一种在文本到图像扩散模型中组合对象级视觉提示的方法。我们的方法旨在生成语义连贯的组合,这些组合能够跨越不同的场景和风格,类似于文本提示所提供的多样性和表现力。该任务的一个关键挑战是在保持输入视觉提示中所描绘对象身份的同时,生成跨不同图像的多样化组合。为了解决这一挑战,我们引入了一种新的KV混合交叉注意力机制,在这种机制中,键和值是从不同的视觉表示中学习而来的。键来自于具有小瓶颈的编码器,用于布局控制;而值则来自具有较大瓶颈的编码器,能够捕捉精细的外观细节。通过混合来自这些互补来源的键和值,我们的模型能够在支持灵活的对象排列、姿态和组合变化的同时,保持视觉提示的身份。在推理过程中,我们进一步提出了对象级组合引导,以改进方法的身份保持和布局准确性。实验结果表明,我们的技术可以生成多样化的场景组合,保留每个视觉提示的独特特征,从而扩展了文本到图像生成的创造性潜力。
  • 图表
  • 解决问题
    该论文旨在解决在文本到图像的生成模型中,如何在保持输入视觉提示对象身份的同时,生成语义连贯且多样化的场景和风格的问题。这是一个重要的挑战,因为现有的方法在多样化合成和保持对象身份之间难以取得平衡。
  • 关键思路
    论文提出了一种新的KV-mixed交叉注意力机制,通过将键(keys)和值(values)从不同的视觉表示中学习来解决问题。具体来说,键来源于一个带有小瓶颈的编码器以控制布局,而值则来自一个更大瓶颈的编码器以捕捉精细的外观细节。这种机制使得模型能够在保持视觉提示身份的同时,支持灵活的对象排列、姿态和组合变化。此外,在推理阶段引入了对象级别的组合引导,进一步提高了身份保留和布局正确性。
  • 其它亮点
    实验设计方面,作者展示了他们的技术可以产生多样化的场景组合,同时保持每个视觉提示的独特特征。这大大扩展了文本到图像生成的创造性潜力。论文使用了多个数据集进行验证,并且开源了代码,方便其他研究者复现结果并在此基础上继续研究。未来值得深入的研究方向包括但不限于:1) 更复杂的场景理解和生成;2) 跨模态提示的一致性和融合。
  • 相关研究
    近年来,在文本到图像生成领域,有不少相关研究。例如,《Text-to-Image Synthesis via Aesthetic Tuning》探讨了美学调优对生成效果的影响;《Composable Diffusion Models with Controllable Object Manipulation》关注于可控的对象操作;还有《Layout-Guided Text-to-Image Generation》提出了基于布局指导的生成方法。这些工作都为当前研究提供了宝贵的参考。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论