- 简介本文介绍了大型运动模型(LMM),这是一个以运动为中心的多模态框架,将主流的运动生成任务统一到一个通用模型中。统一的运动模型具有很强的吸引力,因为它可以利用广泛的运动数据来实现超越单一任务的广泛泛化。但是,由于运动数据和任务的异质性,实现这一目标也具有挑战性。LMM从三个方面解决了这些挑战:1)数据:我们将具有不同模态、格式和任务的数据集整合到一个全面而统一的运动生成数据集MotionVerse中,包括10个任务、16个数据集、总共320k个序列和1亿帧。2)架构:我们设计了一个关节式注意机制ArtAttention,将身体部位感知建模融入扩散变压器骨干网络中。3)预训练:我们提出了一种新颖的LMM预训练策略,采用可变帧率和掩蔽形式,以更好地利用来自不同训练数据的知识。广泛的实验表明,我们的通用LMM在各种标准运动生成任务上实现了与最先进的专业模型竞争的性能。值得注意的是,LMM在许多未见过的任务中展现出强大的泛化能力和新兴性质。此外,我们的消融研究揭示了关于训练和扩展大型运动模型的有价值的见解,为未来的研究提供了启示。
-
- 图表
- 解决问题本论文旨在解决动作生成领域中专门模型无法扩展的问题,提出了一种多模态框架LMM,将主流动作生成任务统一到一个通用模型中。
- 关键思路LMM框架包含三个方面:数据、架构和预训练。数据方面,论文将不同模态、格式和任务的数据集整合成一个包含10个任务、16个数据集、320k序列和1亿帧的统一动作生成数据集MotionVerse;架构方面,论文设计了一种关节注意机制ArtAttention,将身体部位感知建模融入扩散Transformer骨干网络中;预训练方面,论文提出了一种新的预训练策略,利用可变帧率和掩码形式更好地利用多样化的训练数据。相比现有的专门模型,LMM具有更广泛的泛化能力和更好的性能。
- 其它亮点论文的实验设计充分,使用了多个数据集进行测试,并公开了代码。LMM表现出了强大的泛化能力和新颖的性质,是一个可扩展的通用模型。此外,论文的研究还揭示了大型动作模型训练和扩展的有价值的见解。
- 在此领域中,最近的相关研究包括:'Dance Revolution: Long-Term Dance Generation with Music via Curriculum Learning'、'Text2Gif: Generating Animated GIFs from Text'、'MotionGAN: Generating Motion Vectors for Game Characters from Single-View RGB-D Images'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流