MCM: Multi-condition Motion Synthesis Framework

International Joint Conference on Artificial Intelligence 2024
2024年04月19日
  • 简介
    本文介绍了一种名为多条件人体运动合成(MCM)的框架,旨在生成符合特定条件的人体运动序列。文本和音频是作为控制条件的两种主要模态。虽然现有研究主要集中在单一条件上,但多条件人体运动合成仍未得到充分探索。本文提出了一种基于双分支结构的MCM框架,由主分支和控制分支组成。该框架有效地将最初仅基于文本条件的扩散模型的适用性扩展到音频条件。这种扩展包括音乐与舞蹈和共同语音人体运动合成,同时保留了原始模型固有的运动本质质量和语义关联能力。此外,我们提出了一种基于Transformer的扩散模型MWNet作为主分支。该模型通过集成多智能自注意力模块,熟练地理解运动序列中固有的空间复杂性和关节间的相关性。大量实验证明,我们的方法在单一条件和多条件人体运动合成任务中均取得了有竞争力的结果。
  • 作者讲解
  • 图表
  • 解决问题
    论文的问题是如何扩展人类运动合成的条件,使其适用于多个控制条件,包括文本和音频。这是一个新问题。
  • 关键思路
    论文提出了一种名为MCM的多条件HMS框架,它由主分支和控制分支组成。主分支使用基于Transformer的扩散模型MWNet,控制分支扩展了初始仅基于文本条件的扩散模型以适用于音频条件。这个框架能够有效地捕捉运动序列中的空间细节和关节间的相关性,并在单条件和多条件HMS任务中实现了竞争性的结果。
  • 其它亮点
    论文使用了Transformer-based扩散模型MWNet作为主分支来处理运动序列的空间细节和关节间的相关性。此外,论文还扩展了初始仅基于文本条件的扩散模型以适用于音频条件。实验结果表明,该方法在单条件和多条件HMS任务中均取得了竞争性的结果。
  • 相关研究
    最近的相关研究包括单条件HMS和基于文本条件的HMS。其中一些论文包括《Conditional Human Motion Synthesis with a Predictive Encoder-Decoder Network》和《Text2Gestures: A Cross-modal Generative Network for Gesture Generation from Natural Language》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问