Shape Conditioned Human Motion Generation with Diffusion Model

2024年05月10日
  • 简介
    人类动作合成是计算机图形学和计算机视觉中的重要任务。大多数现有的方法注重各种条件信号,如文本、动作类别或音频来指导生成过程,但它们大多使用基于骨骼的姿势表示,需要额外的皮肤绑定才能产生可渲染的网格。鉴于人类运动是骨骼、关节和肌肉的复杂相互作用,仅考虑骨骼生成可能会忽略它们固有的相互依赖性,从而限制生成结果的可变性和精度。为了解决这个问题,我们提出了一个形状条件的运动扩散模型(SMD),它可以直接以网格格式生成运动序列,并以特定目标网格为条件。在SMD中,输入网格使用图拉普拉斯变换转换为谱系数,以有效地表示网格。随后,我们提出了一种谱时自编码器(STAE),以利用谱域内的跨时依赖关系。广泛的实验评估表明,与最先进的方法相比,SMD不仅产生了生动逼真的动作,而且在文本到运动和动作到运动任务中也取得了竞争性的性能。
  • 图表
  • 解决问题
    本论文旨在解决计算机图形学和计算机视觉中的人类运动合成问题,尤其是如何在不需要额外的皮肤绑定的情况下,直接在网格格式中生成运动序列。
  • 关键思路
    本论文提出了一种基于形状条件的运动扩散模型(SMD),可以直接在网格格式中生成运动序列,而不需要额外的皮肤绑定。SMD将输入网格转换为谱系数,使用图拉普拉斯来高效地表示网格,然后利用谱-时间自编码器(STAE)来利用谱域内的跨时间依赖性。
  • 其它亮点
    本论文的实验结果表明,SMD不仅可以产生生动逼真的运动,而且在文本到运动和动作到运动的任务中,与最先进的方法相比,也能够取得竞争性的性能。此外,论文还使用了多个数据集进行了广泛的实验评估,并且开源了代码。
  • 相关研究
    在这个领域中,还有一些相关的研究,例如:《DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills》、《Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论