MMoFusion: Multi-modal Co-Speech Motion Generation with Diffusion Model

2024年03月05日
  • 简介
    身体运动伴随着言语有助于演讲者表达他们的想法。共同言语运动生成是合成逼真化身的重要方法之一。由于言语和运动之间的复杂对应关系,生成逼真和多样化的运动是一项具有挑战性的任务。在本文中,我们提出了MMoFusion,一种基于扩散模型的多模态共同言语运动生成框架,以确保生成的运动的真实性和多样性。我们提出了一种渐进融合策略,以增强跨模态和内部模态之间的交互,高效地整合多模态信息。具体而言,我们采用基于情感和身份信息的掩蔽样式矩阵来控制不同运动风格的生成。言语和运动的时间建模被分为风格引导的特定特征编码和共享特征编码,旨在学习跨模态和内部模态特征。此外,我们提出了一种几何损失,以强制帧之间的关节速度和加速度的一致性。我们的框架通过输入言语和编辑身份和情感,生成任意长度的生动,多样化和风格可控的运动。广泛的实验表明,我们的方法优于当前的共同言语运动生成方法,包括上半身和具有挑战性的全身。
  • 图表
  • 解决问题
    本论文旨在解决多模态语音运动生成的真实性和多样性问题,提出了MMoFusion框架。
  • 关键思路
    该框架基于扩散模型,采用渐进融合策略,通过控制情感和身份信息的蒙版样式矩阵来生成不同运动风格,同时利用共享特征编码和特定特征编码来学习模态内部和模态间的特征,并使用几何损失来保证帧之间的关节速度和加速度的连贯性。
  • 其它亮点
    该框架生成的运动具有生动、多样和可控的特点,可以通过输入语音和编辑身份和情感来生成任意长度的运动。实验结果表明,该方法在上半身和全身运动生成方面优于当前的多模态语音运动生成方法。
  • 相关研究
    近期的相关研究包括:“End-to-End Multimodal Emotion Recognition using Deep Neural Networks”、“Deep Learning for Co-Speech Gesture Generation”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论