Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

简介

通过文本到图像(T2I)方法生成高质量的人类图像是一项重要且具有挑战性的任务。与一般的图像生成不同，人类图像合成必须满足与人体姿势、解剖和与文本提示的对齐相关的严格标准，使得实现逼真的结果特别困难。基于扩散模型的T2I生成的最新进展显示出了希望，但是在满足人类特定偏好方面仍然存在挑战。在本文中，我们介绍了一种专门针对人类图像生成的新方法，利用直接偏好优化(DPO)。具体而言，我们介绍了一种有效的方法，用于构建专门的DPO数据集，以训练人类图像生成模型，而无需昂贵的人类反馈。我们还提出了一种修改后的损失函数，通过最小化伪影和提高图像保真度来增强DPO训练过程。我们的方法展示了其在生成人类图像方面的多功能性和有效性，包括个性化的文本到图像生成。通过全面的评估，我们展示了我们的方法在自然解剖、姿势和文本-图像对齐方面取得了卓越的结果，显著推进了人类图像生成的状态。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决通过文本生成高质量人类图像的问题，包括人体姿势、解剖和与文本提示的对齐等方面，这是一个具有挑战性的任务。
关键思路

本论文提出了一种基于直接偏好优化（DPO）的新方法，专门针对人类图像生成，包括构建专门的DPO数据集和修改损失函数等方面，以实现更高质量的人类图像生成。
其它亮点

本论文的亮点包括：提出了一种针对人类图像生成的新方法；提出了构建专门的DPO数据集的有效方法；提出了修改损失函数以提高图像质量的方法；实验结果表明，该方法在人体解剖、姿势和文本图像对齐方面均具有显著优势。
相关研究

在这个领域中，最近的相关研究包括：基于扩散模型的T2I生成方法；基于生成对抗网络（GAN）的图像生成方法；基于变分自编码器（VAE）的图像生成方法等。

Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

提问交流

提问交流