DreamSync: Aligning Text-to-Image Generation with Image Understanding Feedback

2023年11月29日
  • 简介
    尽管文本到图像模型(T2I)已经取得了广泛的成功,但它们仍然难以产生既美观又忠实于用户输入文本的图像。我们引入了DreamSync,这是一种无模型偏见的训练算法,旨在改进T2I模型以忠实于文本输入。DreamSync基于TIFA评估框架的最新见解构建,即大型视觉语言模型(VLM)可以有效地识别生成的图像与文本输入之间的细微差异。DreamSync利用这一见解,无需任何标记数据即可训练T2I模型;它使用自己的生成来改进T2I模型。首先,它提示模型为给定的输入文本生成多个候选图像。然后,它使用两个VLM来选择最佳的生成:一个视觉问答模型,用于测量生成的图像与文本的对齐程度;另一个用于测量生成的美学质量。选择后,我们使用LoRA来迭代地微调T2I模型,以引导其生成朝向所选的最佳生成。DreamSync不需要任何额外的人工注释、模型架构更改或强化学习。尽管它很简单,但DreamSync改进了两个基于扩散的T2I模型的语义对齐和美学吸引力,这在多个基准测试中得到了证明(TIFA上+1.7%,DSG1K上+2.9%,VILA美学上+3.4%),并经过人类评估。
  • 图表
  • 解决问题
    本论文旨在解决文本到图像(T2I)模型在生成的图像美观度和与文本输入的一致性之间的平衡问题。作者提出了一种无需标记数据的模型训练算法DreamSync,以改进T2I模型的生成结果。
  • 关键思路
    DreamSync算法利用大型视觉语言模型(VLM)的能力,通过自动生成图像并使用两个VLM来选择最佳生成图像的方法,迭代地微调T2I模型,以提高生成图像的语义对齐和美学吸引力。
  • 其它亮点
    论文使用了TIFA、DSG1K和VILA等多个基准测试数据集进行了实验评估,证明DreamSync算法可以显著提高T2I模型的性能。该算法不需要额外的标注数据、模型架构变化或强化学习。此外,论文还提供了开源代码。
  • 相关研究
    在相关研究方面,最近的一些研究包括《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Taming Transformers for High-Resolution Image Synthesis》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论