- 简介通过文本到图像(T2I)方法生成高质量的人类图像是一项重要且具有挑战性的任务。与一般的图像生成不同,人类图像合成必须满足与人体姿势、解剖和与文本提示的对齐相关的严格标准,使得实现逼真的结果特别困难。基于扩散模型的T2I生成的最新进展显示出了希望,但是在满足人类特定偏好方面仍然存在挑战。在本文中,我们介绍了一种专门针对人类图像生成的新方法,利用直接偏好优化(DPO)。具体而言,我们介绍了一种有效的方法,用于构建专门的DPO数据集,以训练人类图像生成模型,而无需昂贵的人类反馈。我们还提出了一种修改后的损失函数,通过最小化伪影和提高图像保真度来增强DPO训练过程。我们的方法展示了其在生成人类图像方面的多功能性和有效性,包括个性化的文本到图像生成。通过全面的评估,我们展示了我们的方法在自然解剖、姿势和文本-图像对齐方面取得了卓越的结果,显著推进了人类图像生成的状态。
-
- 图表
- 解决问题本论文旨在解决通过文本生成高质量人类图像的问题,包括人体姿势、解剖和与文本提示的对齐等方面,这是一个具有挑战性的任务。
- 关键思路本论文提出了一种基于直接偏好优化(DPO)的新方法,专门针对人类图像生成,包括构建专门的DPO数据集和修改损失函数等方面,以实现更高质量的人类图像生成。
- 其它亮点本论文的亮点包括:提出了一种针对人类图像生成的新方法;提出了构建专门的DPO数据集的有效方法;提出了修改损失函数以提高图像质量的方法;实验结果表明,该方法在人体解剖、姿势和文本图像对齐方面均具有显著优势。
- 在这个领域中,最近的相关研究包括:基于扩散模型的T2I生成方法;基于生成对抗网络(GAN)的图像生成方法;基于变分自编码器(VAE)的图像生成方法等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流