PRIMAL: Physically Reactive and Interactive Motor Model for Avatar Learning

2025年03月21日
  • 简介
    为了构建互动虚拟角色的运动系统,关键在于开发一种生成式运动模型,该模型能够以持续、真实、可控且响应迅速的方式驱动身体在三维空间中移动。尽管运动生成已经得到了广泛的研究,但大多数方法由于其离线设置、速度较慢、运动长度有限或动作不自然,并不支持“具身智能”。为了解决这些限制,我们提出了PRIMAL,这是一种基于自回归扩散模型的方法,采用两阶段学习范式,灵感来源于近期基础模型的进展。在预训练阶段,模型从大量亚秒级的运动片段中学习运动动态,提供构建更复杂动作所需的“运动原语”。在适应阶段,我们使用类似于ControlNet的适配器来微调运动控制,以实现语义动作生成和空间目标到达。实验表明,物理效应可以从我们的训练中显现出来。给定一个单帧初始状态,我们的模型不仅能够生成无限、真实且可控的运动,还能使虚拟角色实时响应诱导的冲量。此外,我们可以高效地将基础模型适应于少量样本的个性化动作和空间控制任务。评估结果显示,我们提出的方法优于现有的最先进基线方法。我们将该模型应用于Unreal Engine中,创建了一个高度响应且自然的实时角色动画系统。代码、模型和更多结果可在此获取:https://yz-cnsdqz.github.io/eigenmotion/PRIMAL
  • 图表
  • 解决问题
    论文试图解决生成交互式虚拟角色运动的问题,特别是如何构建一个能够实时生成无界、真实且可控运动的系统。当前方法因离线设置、速度慢、运动长度有限或动作不自然而难以支持‘具身智能’,因此这是一个需要创新解决方案的新问题。
  • 关键思路
    论文提出PRIMAL模型,这是一种基于两阶段学习范式的自回归扩散模型。第一阶段通过大量短时间运动片段预训练以学习基本运动模式(motor primitives),第二阶段利用类似ControlNet的适配器进行微调以实现语义动作生成和空间目标定位。这种方法结合了基础模型的优势,能够在单帧初始状态下生成无限长的逼真运动,并实现实时响应外部冲动的能力。
  • 其它亮点
    实验设计包括验证物理效果是否能从训练中自然涌现,以及评估模型在个性化动作和空间控制任务中的适应能力。论文使用了大规模运动数据集,并开源了代码和模型(https://yz-cnsdqz.github.io/eigenmotion/PRIMAL)。此外,该模型已集成到Unreal Engine中,用于创建实时响应的动画系统。未来值得深入研究的方向包括更复杂的多模态输入和跨领域应用。
  • 相关研究
    近期相关研究包括:1) 自回归扩散模型在图像生成领域的应用(如DALL·E系列);2) 动作生成中的强化学习方法(如Motion Diffusion Models, MoDI);3) 基础模型在具身智能中的探索(如OpenAI的GPT-4V和DeepMind的MuSSP)。具体论文可参考《Motion Diffusion Models》、《Learning to Simulate Realistic Human Motions with Diffusion Probabilistic Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论