Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer

向作者提问

NEW

简介

文本驱动的人类动作生成是动画和人形机器人设计中的新兴任务。现有算法直接生成完整序列，这在计算上很昂贵，并且容易出现错误，因为它没有特别关注关键姿势，这是动画的基石已经几十年了。我们提出了KeyMotion，通过首先生成关键帧，然后进行内插，生成与输入文本相对应的合理的人类动作序列。我们使用具有Kullback-Leibler正则化的变分自编码器（VAE）将关键帧投影到潜在空间中，以减少维度并进一步加速后续扩散过程。对于反向扩散，我们提出了一种新颖的并行跳跃变换器，它在关键帧潜变量和文本条件之间执行跨模态注意力。为了完成动作序列，我们提出了一种文本引导的变换器，旨在执行动作填充，确保保留人类动作的保真度和粘附力。实验表明，我们的方法在HumanML3D数据集上实现了最先进的结果，优于其他所有R-precision指标和多模态距离。KeyMotion在KIT数据集上也取得了竞争性的表现，在Top3 R-precision、FID和多样性度量方面取得了最佳结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决文本驱动的人体动作生成问题，提出了一种生成人体动作序列的算法，该算法通过生成关键帧并进行填充的方式，生成与输入文本相对应的合理人体动作序列，避免了直接生成整个序列的计算负担和误差问题。
关键思路

本文的关键思路是使用变分自编码器(VAE)将关键帧投影到潜变量空间中，以减少维度并进一步加速扩散过程，并提出了一种新颖的并行跳跃变压器(Parallel Skip Transformer)来进行反向扩散，在关键帧潜变量和文本条件之间执行跨模态注意力。为了完成动作序列，提出了一种文本引导的变压器(Text-guided Transformer)，设计用于执行运动填充，确保保留人体运动的保真度和粘附力。
其它亮点

本文的亮点在于提出了一种新的算法KeyMotion，该算法在HumanML3D数据集上取得了最先进的结果，在所有R-precision指标和MultiModal Distance上均优于其他算法。KeyMotion在KIT数据集上也取得了竞争性的表现，其中在Top3 R-precision，FID和Diversity指标上取得了最佳结果。此外，实验结果表明，KeyMotion生成的动作序列保留了人体运动的物理约束，同时保证了保真度和粘附力。
相关研究

最近在这个领域中，还有一些相关的研究，如：1）Text2Gif：2）Text2Video：3）Text-driven Animation等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问