AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation

2024年03月20日
  • 简介
    文本到图像(T2I)扩散模型在图像生成方面取得了显著的成功。尽管它们有所进展,但在跟随提示的能力、图像质量和缺乏高质量数据集方面仍存在挑战,这些对于改进这些模型至关重要。由于获取标记数据的成本很高,我们引入了AGFSync框架,它通过完全基于AI的方法中的直接偏好优化(DPO)增强T2I扩散模型。AGFSync利用视觉语言模型(VLM)评估图像质量,包括风格、连贯性和美学,在AI驱动的循环中生成反馈数据。通过将AGFSync应用于领先的T2I模型,如SD v1.4、v1.5和SDXL,我们在TIFA数据集上进行了广泛的实验,证明了在VQA分数、美学评估和HPSv2基准测试性能方面的显着改进,始终优于基础模型。AGFSync改进T2I扩散模型的方法为可扩展的对齐技术铺平了道路。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在通过直接偏好优化(DPO)和视觉语言模型(VLM)来提高文本到图像(T2I)扩散模型的性能,以解决T2I模型在跟随提示、图像质量和缺乏高质量数据集方面面临的挑战。
  • 关键思路
    AGFSync框架利用VLM评估图像质量,通过AI驱动的循环生成反馈数据,提高T2I扩散模型的性能。
  • 其它亮点
    本文的亮点包括使用AGFSync框架对SD v1.4、v1.5和SDXL等领先的T2I模型进行改进,实验使用TIFA数据集,展示了在VQA分数、美学评估和HPSv2基准测试方面的显著提高。
  • 相关研究
    最近的相关研究包括Image GPT、CLIP和DALL-E等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问