Rich Human Feedback for Text-to-Image Generation

2023年12月15日
  • 简介
    最近的文本到图像生成模型(T2I),如 Stable Diffusion 和 Imagen,已经在基于文本描述生成高分辨率图像方面取得了重大进展。然而,许多生成的图像仍然存在问题,如人工痕迹/不真实、与文本描述不匹配和美学质量低下。受到强化学习与人类反馈(RLHF)在大型语言模型中的成功启发,先前的研究收集了人类提供的生成图像的得分反馈,并训练了一个奖励模型来改进 T2I 生成。在本文中,我们通过(i)标记与文本不一致或不真实的图像区域,以及(ii)注释文本提示中哪些单词在图像上被错误地呈现或缺失,来丰富反馈信号。我们在 18K 个生成的图像上收集这样丰富的人类反馈,并训练了一个多模态变压器来自动预测丰富的反馈。我们表明,预测的丰富人类反馈可以用于改进图像生成,例如通过选择高质量的训练数据来微调和改进生成模型,或通过创建具有预测热图的掩模来修复问题区域。值得注意的是,这些改进适用于超出用于收集人类反馈数据的图像生成模型(Stable Diffusion 变体)的模型(Muse)。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图通过丰富人类反馈信号来改进文本到图像生成模型,解决生成图像中存在的问题,如不真实、与文本描述不符合、美学质量低等。
  • 关键思路
    本文提出了一种利用人类反馈信号来改善文本到图像生成模型的方法,包括标记不真实或不符合文本的图像区域,以及注明图像中被误解或缺失的文本提示。通过训练一个多模态Transformer来自动预测丰富的人类反馈信号,可以选择高质量的训练数据来微调和改进生成模型,或者创建带有预测热图的掩模来修复问题区域。
  • 其它亮点
    本文通过收集18K个生成图像的丰富人类反馈来训练多模态Transformer,证明预测的丰富人类反馈可以用于改善图像生成。实验结果表明,这种改进方法不仅适用于生成训练数据的模型,还适用于其他模型。值得注意的是,本文的方法可以处理不真实、与文本描述不符合、美学质量低等问题,而不仅仅是一些简单的问题。
  • 相关研究
    最近在这个领域中,也有一些与本文相关的研究,如Stable Diffusion和Imagen等最近的文本到图像生成模型,以及使用强化学习和人类反馈来改进自然语言处理模型的先前工作。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问