MotionGPT3: Human Motion as a Second Modality

2025年06月30日
  • 简介
    尽管多模态模型的最新进展在统一理解和生成方面展现了强大的能力与前景,但统一的动作-语言模型的发展仍鲜有探索。为了使这类模型具备高质量的人体动作生成能力,必须解决两个核心挑战:第一是连续动作模态与自回归方式下的离散表示之间的重建差距;第二是在统一训练过程中语言智能的退化问题。受专家混合机制的启发,我们提出了MotionGPT3,这是一种双模态的动作-语言模型,将人体动作视为第二种模态,通过独立的模型参数解耦动作建模,从而实现高效的跨模态交互和有效的多模态扩展训练。为了保留语言智能,文本分支保持预训练语言模型原有的结构和参数,而新的动作分支则通过共享注意力机制进行整合,实现两种模态之间的双向信息流动。我们首先使用动作变分自编码器(VAE)将原始人体动作编码为潜在表示。基于这一连续的潜在空间,动作分支通过扩散头结构直接从中间隐藏状态预测动作潜在表示,绕过了离散的token化过程。大量实验表明,我们的方法在动作理解和生成任务上均取得了具有竞争力的性能,同时保持了强大的语言能力,从而建立了一个以自回归方式进行的统一双模态动作扩散框架。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决统一的运动-语言建模问题,特别是如何在保持高质量语言理解能力的同时,实现高保真人体运动生成。这是一个相对较新的研究方向,目前相关工作较少。
  • 关键思路
    受‘专家混合’启发,论文提出MotionGPT3,将人体运动视为第二模态,通过分离模型参数进行解耦运动建模,并引入共享注意力机制实现双向跨模态交互。文本分支保留预训练语言模型结构和参数,而运动分支则通过扩散头直接预测连续潜在空间中的运动表示,避免离散化瓶颈。
  • 其它亮点
    1. 首次尝试在自回归框架下构建统一的运动-语言模型 2. 采用运动VAE将原始运动数据编码为连续潜在表示 3. 通过扩散头直接预测运动潜变量,绕过传统离散token化 4. 实验验证了该方法在运动理解和生成任务上的有效性 5. 成功保持语言分支的语言智能能力
  • 相关研究
    1. VideoGPT: Video Generation using Discrete Variational Auto-Encoders (Wang et al., 2021) 2. DALL-E: Creating Images from Text (Ramesh et al., 2021) 3. Make-A-Video: Generating Videos from Natural Language (Singer et al., 2022) 4. Perceiver: General Perception with Iterative Attention (Jaegle et al., 2021) 5. Mixture of Experts: A Survey on a Promising Model Design for Deep Learning (Shazeer et al., 2017)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问