Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

2024年05月30日
  • 简介
    通过文本到图像(T2I)方法生成高质量的人类图像是一项重要且具有挑战性的任务。与一般的图像生成不同,人类图像合成必须满足与人体姿势、解剖和与文本提示的对齐相关的严格标准,使得实现逼真的结果特别困难。基于扩散模型的T2I生成的最新进展显示出了希望,但是在满足人类特定偏好方面仍然存在挑战。在本文中,我们介绍了一种专门针对人类图像生成的新方法,利用直接偏好优化(DPO)。具体而言,我们介绍了一种有效的方法,用于构建专门的DPO数据集,以训练人类图像生成模型,而无需昂贵的人类反馈。我们还提出了一种修改后的损失函数,通过最小化伪影和提高图像保真度来增强DPO训练过程。我们的方法展示了其在生成人类图像方面的多功能性和有效性,包括个性化的文本到图像生成。通过全面的评估,我们展示了我们的方法在自然解剖、姿势和文本-图像对齐方面取得了卓越的结果,显著推进了人类图像生成的状态。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决通过文本生成高质量人类图像的问题,包括人体姿势、解剖和与文本提示的对齐等方面,这是一个具有挑战性的任务。
  • 关键思路
    本论文提出了一种基于直接偏好优化(DPO)的新方法,专门针对人类图像生成,包括构建专门的DPO数据集和修改损失函数等方面,以实现更高质量的人类图像生成。
  • 其它亮点
    本论文的亮点包括:提出了一种针对人类图像生成的新方法;提出了构建专门的DPO数据集的有效方法;提出了修改损失函数以提高图像质量的方法;实验结果表明,该方法在人体解剖、姿势和文本图像对齐方面均具有显著优势。
  • 相关研究
    在这个领域中,最近的相关研究包括:基于扩散模型的T2I生成方法;基于生成对抗网络(GAN)的图像生成方法;基于变分自编码器(VAE)的图像生成方法等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问