Learning Generalizable Human Motion Generator with Reinforcement Learning

2024年05月24日
  • 简介
    最近,作为计算机辅助内容创作中至关重要的任务之一,基于文本生成人体运动的方法引起了越来越多的关注。虽然先驱性研究主要集中在提高给定数据集上的数值性能指标,但实际应用揭示了一个普遍的挑战:现有方法往往会过度拟合训练数据中特定的运动表达,从而阻碍它们适用于像未见过的运动组合这样的新颖描述。这种限制限制了它们的广泛适用性。我们认为,上述问题主要源于可用运动-文本对的稀缺性,这是由于基于文本生成运动的多对多特性所导致的。为了解决这个问题,我们将文本到运动生成形式化为马尔科夫决策过程,并提出了InstructMotion,它结合了强化学习中的试错范式,以实现可推广的人体运动生成。利用对比预训练的文本和运动编码器,我们深入优化奖励设计,使InstructMotion能够有效地在配对数据上运行,增强全局语义级别的文本-运动对齐,并在合成的仅文本数据上进行更好的泛化,从而无需地面真实运动监督。广泛的实验表明,所提出的InstructMotion在流行的基准测试和我们合成的非配对数据集上均取得了优异的定量和定性表现。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决文本驱动人体动作生成的通用性问题,即现有方法往往过度拟合于特定的训练数据,难以泛化到新的动作组合描述。作者认为这主要是由于可用运动-文本对的稀缺性导致的。
  • 关键思路
    论文提出了一种基于强化学习的文本到运动生成模型InstructMotion,将文本到运动生成视为马尔可夫决策过程,并利用对比预训练的文本和运动编码器进行优化奖励设计,从而提高InstructMotion在配对数据和合成文本数据上的表现。
  • 其它亮点
    论文通过在广泛的基准测试和自己合成的非配对数据集上进行实验,证明了InstructMotion在定量和定性上都具有出色的性能。此外,论文还开源了代码和数据集。
  • 相关研究
    在文本驱动人体动作生成领域,最近的相关研究包括:'Text2Gif: Generating Animated GIFs from Descriptive Text','Text2Action: Generative Adversarial Synthesis from Language to Action','Generative Adversarial Text-to-Image Synthesis'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问