- 简介本文探讨了从文本生成三维交互式人体动作的问题。给定描述身体不同部位与物体接触的文本描述,我们合成了视觉上自然且物理上合理的三维身体姿势序列。然而,这项任务面临着重大挑战,因为在运动和文本描述中不充分考虑物理接触的交互作用,导致产生不自然和不合理的序列。为了解决这个挑战,我们创建了一个名为RICH-CAT的新型数据集,表示从RICH数据集构建的“接触感知文本”。RICH-CAT包括高质量的动作、准确的人体-物体接触标签和详细的文本描述,涵盖26个室内/室外动作的8500多个运动-文本对。利用RICH-CAT,我们提出了一种名为CATMO的新方法,用于驱动基于文本的交互式人体动作合成,该方法明确地将人体接触作为证据集成。我们采用两个VQ-VAE模型将运动和身体接触序列编码为不同但互补的潜在空间,并使用交织的GPT以相互条件的方式生成人体动作和接触。此外,我们引入了一个预训练的文本编码器,以学习更好地区分各种接触类型的文本嵌入,从而更精确地控制合成运动和接触。我们的实验证明了我们的方法相对于现有的文本到运动方法的卓越性能,产生了稳定的、接触感知的运动序列。代码和数据将可用于研究目的。
- 图表
- 解决问题本文试图解决从文本生成3D交互式人体动作的问题,其中考虑了身体和物体之间的物理接触。
- 关键思路本文提出了一种名为CATMO的新方法,通过将人体接触作为证据明确地集成到文本驱动的交互式人体动作合成中。该方法使用两个VQ-VAE模型将动作和身体接触序列编码为不同但互补的潜在空间,并使用相互条件的GPT生成人体动作和接触。
- 其它亮点本文创建了一个名为RICH-CAT的新数据集,包括高质量的运动数据、准确的人体-物体接触标签和详细的文本描述,涵盖了26个室内/室外动作的超过8,500个运动-文本对。此外,本文还介绍了一个预训练的文本编码器,以学习更好地区分各种接触类型的文本嵌入,从而更精确地控制合成的动作和接触。实验结果表明,与现有的文本到动作方法相比,CATMO方法具有更好的性能,能够产生稳定的、接触感知的运动序列。
- 最近在这个领域中,还有一些相关的研究,如《Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills》、《Learning to Navigate the Energy Landscape》等。
沙发等你来抢
去评论
评论
沙发等你来抢