Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer

2024年05月24日
  • 简介
    文本驱动的人类动作生成是动画和人形机器人设计中的新兴任务。现有算法直接生成完整序列,这在计算上很昂贵,并且容易出现错误,因为它没有特别关注关键姿势,这是动画的基石已经几十年了。我们提出了KeyMotion,通过首先生成关键帧,然后进行内插,生成与输入文本相对应的合理的人类动作序列。我们使用具有Kullback-Leibler正则化的变分自编码器(VAE)将关键帧投影到潜在空间中,以减少维度并进一步加速后续扩散过程。对于反向扩散,我们提出了一种新颖的并行跳跃变换器,它在关键帧潜变量和文本条件之间执行跨模态注意力。为了完成动作序列,我们提出了一种文本引导的变换器,旨在执行动作填充,确保保留人类动作的保真度和粘附力。实验表明,我们的方法在HumanML3D数据集上实现了最先进的结果,优于其他所有R-precision指标和多模态距离。KeyMotion在KIT数据集上也取得了竞争性的表现,在Top3 R-precision、FID和多样性度量方面取得了最佳结果。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决文本驱动的人体动作生成问题,提出了一种生成人体动作序列的算法,该算法通过生成关键帧并进行填充的方式,生成与输入文本相对应的合理人体动作序列,避免了直接生成整个序列的计算负担和误差问题。
  • 关键思路
    本文的关键思路是使用变分自编码器(VAE)将关键帧投影到潜变量空间中,以减少维度并进一步加速扩散过程,并提出了一种新颖的并行跳跃变压器(Parallel Skip Transformer)来进行反向扩散,在关键帧潜变量和文本条件之间执行跨模态注意力。为了完成动作序列,提出了一种文本引导的变压器(Text-guided Transformer),设计用于执行运动填充,确保保留人体运动的保真度和粘附力。
  • 其它亮点
    本文的亮点在于提出了一种新的算法KeyMotion,该算法在HumanML3D数据集上取得了最先进的结果,在所有R-precision指标和MultiModal Distance上均优于其他算法。KeyMotion在KIT数据集上也取得了竞争性的表现,其中在Top3 R-precision,FID和Diversity指标上取得了最佳结果。此外,实验结果表明,KeyMotion生成的动作序列保留了人体运动的物理约束,同时保证了保真度和粘附力。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:1)Text2Gif:2)Text2Video:3)Text-driven Animation等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问