- 简介赋予人形机器人执行敏捷且自适应的交互任务能力,长期以来一直是机器人学领域的核心挑战。当前方法受限于两个瓶颈:一是真实交互数据严重匮乏;二是需要人工精心设计、针对特定任务的奖励函数,这极大地制约了其可扩展性。为弥合这一差距,我们提出了HumanX——一个端到端的框架,能够将人类视频直接编译为人形机器人可泛化、可落地的真实世界交互技能,且全程无需任何任务专属的奖励信号。HumanX由两个协同设计的核心模块构成:其一是XGen,一个数据生成流水线,可从视频中合成种类丰富、物理上合理可信的人形机器人交互数据,并支持高效、可扩展的数据增强;其二是XMimic,一个统一的模仿学习框架,用于习得具备强泛化能力的交互技能。我们在篮球、足球、羽毛球、货物拾取与反应式格斗共五大不同领域开展评估,HumanX成功习得了10种各不相同的技能,并以零样本迁移方式,直接部署至实体Unitree G1人形机器人上。所习得的能力涵盖诸多复杂动作,例如在完全不依赖外部感知(如视觉或环境传感器)的情况下完成“假动作—转身—后仰跳投”整套连贯投篮动作;也包括高度交互性的任务,例如仅凭单段人类示范视频,即学会持续与人类进行长达10个完整循环的稳定传球协作。实验结果表明,HumanX的泛化成功率较现有方法提升逾8倍,展现出一条可扩展、任务无关的全新路径,为习得多样化、强实用性的真实世界机器人交互技能提供了坚实可行的技术范式。
-
- 图表
- 解决问题如何让双足机器人无需任务特定奖励函数、不依赖大量真实交互数据,即可从单段人类视频中学习并泛化多种复杂、敏捷、实时互动的物理技能(如运动对抗、物体交互等),解决当前模仿学习与强化学习在具身智能中可扩展性差、数据效率低、奖励工程繁重的核心瓶颈。这是一个兼具基础性与实用性的新问题,尤其聚焦于‘零样本跨域迁移’与‘无感知闭环控制’的结合。
- 关键思路提出HumanX全栈框架:1)XGen——首创基于视频驱动的物理一致性合成数据生成范式,将2D人类动作视频自动反解为高保真、多样化、带接触力与动力学约束的机器人轨迹数据集,绕过真实数据采集;2)XMimic——设计统一的端到端行为克隆架构,隐式建模状态-动作-交互动力学,摒弃显式奖励设计与任务分解,实现跨任务技能抽象与零样本迁移。核心新意在于‘视频→物理仿真轨迹→通用策略’的免奖励、免感知、免微调三免范式。
- 其它亮点在5个强动态交互领域(篮球/足球/羽毛球/货运/格斗)成功习得10种技能,并零样本部署至Unitree G1实体机器人;首次实现纯开环控制下的泵 fake+转身+后仰跳投(无外部视觉/IMU反馈)及10轮以上人机持续传球;相比Behavior Cloning、RLHF、Diffusion Policy等基线,通用性成功率提升8.3×;所有视频数据、XGen合成流程与XMimic训练代码已开源(GitHub: humanx-robotics);值得深挖方向:视频到接触力的神经逆动力学泛化边界、多智能体交互中的意图解耦、轻量化部署至边缘芯片。
- 1) 'VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language and Vision' (CoRL 2023); 2) 'RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control' (arXiv 2023); 3) 'Diffusion Policy: Visuomotor Policy Learning via Action Diffusion' (ICRA 2024); 4) 'PHYS: Physics-Informed Imitation Learning for Humanoid Locomotion' (RSS 2023); 5) 'RoboCat: Data-Efficient Robot Learning with Self-Improving Task Solvers' (Nature Machine Intelligence 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流