Training-free Regional Prompting for Diffusion Transformers

2024年11月04日
  • 简介
    扩散模型在文本到图像生成方面展示了出色的能力。它们的语义理解能力(即遵循提示的能力)也随着大型语言模型(如T5、Llama)的使用得到了显著提升。然而,现有的模型仍无法完美处理长且复杂的文本提示,尤其是在文本提示包含多种对象及其众多属性和相互关联的空间关系时。虽然已经有许多针对UNet架构模型(如SD1.5、SDXL)的区域提示方法被提出,但目前还没有基于最近的扩散变压器(DiT)架构(如SD3和FLUX.1)的实现。在本报告中,我们提出了基于注意力操控的FLUX.1区域提示方法,使DiT能够在无需训练的情况下具备细粒度的组合式文本到图像生成能力。代码可在以下地址获取:https://github.com/antonioo-c/Regional-Prompting-FLUX。
  • 图表
  • 解决问题
    论文试图解决的问题是现有扩散模型在处理长且复杂的文本提示时的不足,特别是当这些提示包含多个对象及其属性和复杂的空间关系时。这是一个具有挑战性的问题,因为现有的方法在这方面表现不佳。
  • 关键思路
    论文的关键思路是在基于扩散变换器(DiT)架构的FLUX.1模型上实现区域提示,通过注意力操纵来实现细粒度的组合式文本到图像生成能力,而无需重新训练模型。这一思路的新颖之处在于首次将区域提示技术应用于DiT架构,提高了模型对复杂文本提示的理解和生成能力。
  • 其它亮点
    论文的主要亮点包括:1) 成功地在FLUX.1模型上实现了区域提示技术;2) 实验设计合理,使用了多种复杂的文本提示进行测试;3) 提供了开源代码,方便其他研究人员复现和进一步研究。未来可以继续探索如何进一步优化注意力操纵机制,以提高模型的生成质量和效率。
  • 相关研究
    最近在这个领域中,相关的研究包括:1) 《Region Prompting for Text-to-Image Diffusion Models》——提出了一种针对UNet架构的区域提示方法;2) 《Compositional Text-to-Image Generation via Attention Manipulation》——探讨了通过注意力操纵实现组合式文本到图像生成的方法;3) 《Diffusion Transformers: A New Architecture for Text-to-Image Generation》——介绍了扩散变换器(DiT)架构及其在文本到图像生成中的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论