MoDiPO: text-to-motion alignment via AI-feedback-driven Direct Preference Optimization

2024年05月06日
  • 简介
    扩散模型通过自然语言调节提供了优异的生成质量和精细的可控性,从而在人类运动生成领域引起了革命性的变革。它们固有的随机性,即从单个输入生成各种输出的能力,是它们成功的关键。然而,这种多样性不应是无限制的,因为它可能导致不太可能的生成结果。相反,它应该在文本对齐和真实生成的边界内进行限制。为了解决这个问题,我们提出了MoDiPO(运动扩散DPO),这是一种利用直接偏好优化(DPO)来对齐文本到运动模型的新方法。我们通过利用AI反馈来简化DPO中需要收集人类偏好的繁琐和昂贵的过程。这使我们能够尝试新的DPO策略,使用在线和离线生成的运动-偏好对。为了促进未来的研究,我们贡献了一个运动-偏好数据集,我们称之为Pick-a-Move。我们定性和定量地证明,我们提出的方法产生了显著更真实的运动。特别是,MoDiPO在保持相同的RPrecision和多模态性能的同时,显著提高了Frechet Inception Distance(FID)。
  • 图表
  • 解决问题
    MoDiPO旨在解决Diffusion Models生成的多样性过大的问题,通过Direct Preference Optimization(DPO)来限制生成结果,提高生成的逼真度。
  • 关键思路
    使用AI反馈来代替人类反馈,简化DPO需要的人类偏好收集过程,提出MoDiPO方法,通过在线和离线生成的运动-偏好对实验,优化DPO策略,实现对文本-运动模型的对齐。
  • 其它亮点
    论文提供了一个运动-偏好数据集Pick-a-Move,实验证明MoDiPO方法能够显著提高运动的逼真度,特别是在Frechet Inception Distance(FID)的表现。
  • 相关研究
    相关研究包括:1. Diffusion Models在人体运动生成方面的应用;2. 使用DPO进行模型对齐的研究;3. 运动生成领域的其他方法,如GAN等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论