AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation

简介

文本到图像（T2I）扩散模型在图像生成方面取得了显著的成功。尽管它们有所进展，但在跟随提示的能力、图像质量和缺乏高质量数据集方面仍存在挑战，这些对于改进这些模型至关重要。由于获取标记数据的成本很高，我们引入了AGFSync框架，它通过完全基于AI的方法中的直接偏好优化（DPO）增强T2I扩散模型。AGFSync利用视觉语言模型（VLM）评估图像质量，包括风格、连贯性和美学，在AI驱动的循环中生成反馈数据。通过将AGFSync应用于领先的T2I模型，如SD v1.4、v1.5和SDXL，我们在TIFA数据集上进行了广泛的实验，证明了在VQA分数、美学评估和HPSv2基准测试性能方面的显着改进，始终优于基础模型。AGFSync改进T2I扩散模型的方法为可扩展的对齐技术铺平了道路。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在通过直接偏好优化（DPO）和视觉语言模型（VLM）来提高文本到图像（T2I）扩散模型的性能，以解决T2I模型在跟随提示、图像质量和缺乏高质量数据集方面面临的挑战。
关键思路

AGFSync框架利用VLM评估图像质量，通过AI驱动的循环生成反馈数据，提高T2I扩散模型的性能。
其它亮点

本文的亮点包括使用AGFSync框架对SD v1.4、v1.5和SDXL等领先的T2I模型进行改进，实验使用TIFA数据集，展示了在VQA分数、美学评估和HPSv2基准测试方面的显著提高。
相关研究

最近的相关研究包括Image GPT、CLIP和DALL-E等。

AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation

提问交流

提问交流