MotionLLM: Multimodal Motion-Language Learning with Large Language Models

2024年05月27日
  • 简介
    最近,多模态大型语言模型(MM-LLMs)的进展已经展示了在应用于不同模态时具有广泛适用性和鲁棒性的良好潜力。虽然先前的研究已经使用各种方法,包括语言建模,实现了3D人体运动生成,但它们大多是经过精心设计使用专业架构,并且仅限于单人运动生成。受到MM-LLMs的成功启发,我们提出了MotionLLM,这是一个简单而通用的框架,可以通过微调预训练的LLMs实现单人、多人运动生成和运动字幕生成。具体来说,我们将运动编码和量化为离散的LLM可理解的标记,这导致一个统一的词汇表,包含运动和文本标记。仅使用1-3%的LLMs参数通过使用适配器进行训练,我们的单人运动生成达到了与扩散模型和其他从头开始训练的基于变压器的模型相当的结果。此外,我们展示了我们的方法是可扩展和灵活的,通过单人运动的自回归生成,可以轻松扩展到多人运动生成。项目页面:https://knoxzhao.github.io/MotionLLM。
  • 作者讲解
  • 图表
  • 解决问题
    MotionLLM试图解决单人、多人运动生成和运动字幕生成的问题。此前的研究大多是针对单人运动生成,而且使用了专门设计的体系结构,限制了其扩展性。
  • 关键思路
    MotionLLM采用了简单通用的框架,通过微调预训练的LLMs将运动编码和量化为离散的LLM可理解的标记,并创建了一个包含运动和文本标记的统一词汇表。使用适配器训练的LLMs的参数仅占总参数的1-3%,单人运动生成的结果与扩散模型和其他基于Transformer的模型相当。
  • 其它亮点
    该论文的亮点包括:1. 提出了一个简单通用的框架,可以实现单人、多人运动生成和运动字幕生成;2. 通过微调预训练的LLMs将运动编码和量化为离散的LLM可理解的标记,并创建了一个包含运动和文本标记的统一词汇表;3. 采用适配器训练的LLMs的参数仅占总参数的1-3%,单人运动生成的结果与扩散模型和其他基于Transformer的模型相当;4. 实验结果表明,该方法具有可扩展性和灵活性,可以轻松扩展到多人运动生成。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,包括:1. Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks;2. Neural Kinematic Networks for Unsupervised Motion Retargetting;3. Learning to Dress 3D People in Generative Clothing;4. DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问