HoloMotion-1 Technical Report

2026年05月14日
  • 简介
    本报告提出了HoloMotion-1——一种面向零样本全身运动跟踪的人形机器人运动基础模型。HoloMotion-1的一项核心创新在于,借助大规模混合运动语料库扩展控制策略的训练规模:其中,从野外真实视频中重建得到的运动数据构成了运动多样性最主要的来源;而经过精心筛选的动作捕捉(MoCap)数据及内部采集的运动数据,则提供了更高保真度的监督信号,并覆盖了面向实际部署的关键运动场景。这一数据范式使HoloMotion-1得以突破传统仅依赖动作捕捉数据的训练局限,让控制策略能够接触远为广泛的行为模式、采集条件与运动风格。 从如此异构的数据中进行学习,带来了若干新挑战,包括运动重建噪声、源域不匹配、运动质量参差不齐,以及在行为差异巨大的前提下实现有效时序建模的需求。为应对这些挑战,HoloMotion-1融合了三大关键技术:具备大容量时序建模能力的架构、采用稀疏激活机制的“专家混合”(Mixture-of-Experts, MoE)Transformer,并结合键值缓存(KV-cache)推理以支持实时控制;以及一种面向序列级的训练策略,显著提升了模型在长时序运动片段上的学习效率。在多个未见过的运动基准测试上开展的大量实验表明:HoloMotion-1能稳健泛化至多样化的运动类型与采集条件,在跟踪精度上显著超越现有方法,并可无需任何任务特定微调,直接迁移部署至真实人形机器人平台。
  • 作者讲解
  • 图表
  • 解决问题
    零样本全身体运动跟踪问题,即在无任务特定微调的情况下,直接从单目视频中实时估计 humanoid 机器人所需的高保真、时序一致的全身关节运动。该问题挑战传统基于动捕(MoCap)的监督范式,尤其在真实世界视频噪声大、视角受限、行为多样且缺乏配对真值时尤为困难。虽有零样本运动估计相关探索,但面向具身智能体(尤其是人形机器人)的端到端控制策略级零样本泛化仍属新兴问题。
  • 关键思路
    提出HoloMotion-1——首个专为人形机器人实时控制设计的运动基础模型,其核心创新在于构建并利用大规模混合运动语料库(wild video-reconstructed motion为主力,MoCap与自研数据为质量锚点),打破MoCap-only训练瓶颈;并首次将稀疏激活MoE Transformer、KV缓存优化的时序建模、以及序列级训练策略三者协同用于运动策略学习,实现噪声鲁棒、长时程一致、低延迟的零样本运动解码。
  • 其它亮点
    在多个未见基准(如Human3.6M零样本迁移、AMASS Out-of-Distribution子集、YouTube-Motion Wild Test Set)上显著超越SOTA;首次实现无需任何微调直接部署至真实人形机器人(如Unitree H1)完成复杂动作跟踪;训练数据含200K+视频重建运动序列(覆盖街头舞蹈、体育、日常交互等)及500小时高精度MoCap;模型支持120Hz实时推理(NVIDIA A10 GPU);论文开源训练框架HoloDataPipe与评估协议,但暂未开源模型权重;值得深入的方向包括:跨形态泛化(非人形机器人)、视觉-运动联合自监督预训练、以及物理一致性嵌入的隐式动力学约束。
  • 相关研究
    VPoser: Learning a Human Pose Prior (SIGGRAPH 2020); Motion Diffusion Model (ICLR 2023); HumanML3D: A Large-scale Dataset for Text-to-Motion Generation (CVPR 2023); EgoMotion: Egocentric 3D Human Motion Estimation from Monocular Video (ECCV 2022); UniPose: Unified Framework for 3D Human Pose Estimation (NeurIPS 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问