MotionChain: Conversational Motion Controllers via Multimodal Prompts

向作者提问

NEW

简介

最近语言模型的进展展示了它们在进行多轮对话和保留对话上下文方面的熟练能力。然而，这种熟练程度在其他多模式生成模型中，特别是在人体运动模型中，仍然很少被探索。通过在控制连续虚拟人类运动中整合多轮对话，生成人体运动模型可以实现人类任务执行的直观和逐步过程，适用于人形机器人、游戏代理或其他具体化系统。在这项工作中，我们提出了MotionChain，一种对话式人体运动控制器，通过多模态提示生成连续和长期的人体运动。具体而言，MotionChain包括多模态分词器，将各种数据类型（如文本、图像和动作）转换为离散标记，以及一个视觉-运动感知语言模型。通过利用大规模的语言、视觉-语言和视觉-运动数据来协助运动相关的生成任务，MotionChain可以理解多轮对话中的每个指令，并根据这些提示生成人体运动。广泛的实验验证了MotionChain的有效性，展示了在对话式运动生成方面的最先进性能，以及更直观的控制和与虚拟人类交互的方式。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

MotionChain试图将多轮对话引入控制连续虚拟人类运动的生成模型中，以实现更直观、逐步的人类任务执行过程。这是一个新问题。
关键思路

MotionChain包括多模态分词器和Vision-Motion-aware语言模型，可以将文本、图像和动作等多种数据类型转换为离散标记，生成连续的人类运动。通过利用大规模的语言、视觉-语言和视觉-动作数据来辅助生成任务，MotionChain可以理解多轮对话中的每个指令并生成相应的人类运动。
其它亮点

论文在多个数据集上进行了实验，证明了MotionChain在对话式运动生成方面的卓越性能，以及更直观的控制和与虚拟人类交互的方式。论文提供了开源代码。值得进一步研究的领域包括如何在更复杂的场景中应用MotionChain，以及如何将MotionChain与其他智能系统集成。
相关研究

最近的相关研究包括：1.《Dance Revolution: Long-Term Dance Generation with Music via Curriculum Learning》；2.《Dance Dance Convolution: Spatiotemporal Music Analysis and Generation with Three-dimensional Convolutional Neural Networks》；3.《Learning to Dance with a Teacher: Body Pose and Music Alignment in Latin Dance》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问