MotionChain: Conversational Motion Controllers via Multimodal Prompts

2024年04月02日
  • 简介
    最近语言模型的进展已经展示了它们在进行多轮对话和保持对话上下文方面的熟练程度。然而,这种熟练程度在其他多模态生成模型中仍然很少被探索,特别是在人体运动模型中。通过将多轮对话集成到控制连续虚拟人类运动中,生成人体运动模型可以实现对人形机器人、游戏代理或其他具体化系统进行直观的逐步人类任务执行过程。在这项工作中,我们提出了MotionChain,一种对话式人体运动控制器,通过多模态提示生成连续和长期的人体运动。具体而言,MotionChain由多模态分词器组成,将各种数据类型(如文本、图像和动作)转换为离散标记,结合视觉-动作感知语言模型。通过利用大规模的语言、视觉-语言和视觉-动作数据来辅助与运动相关的生成任务,MotionChain可以理解多轮对话中的每个指令,并按照这些提示生成人体运动。广泛的实验验证了MotionChain的有效性,展示了在对话式运动生成方面的最新成果,以及更直观的控制和与虚拟人类交互方式。
  • 图表
  • 解决问题
    MotionChain旨在将多轮对话与人类动作模型相结合,以生成连续和长期的人类动作,从而实现对虚拟人类的直观控制和交互。
  • 关键思路
    MotionChain包含多模态标记器和Vision-Motion-aware语言模型,利用大规模的语言、视觉-语言和视觉-动作数据,生成与对话相关的人类动作。
  • 其它亮点
    论文通过实验验证了MotionChain的有效性和优越性,并展示了其在控制虚拟人类方面的潜在应用。论文还提供了数据集和源代码供研究者使用。
  • 相关研究
    最近的相关研究包括:《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《Language Models as Knowledge Bases?》、《Transformers for Abstractive Summarization》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论