HDMI: Learning Interactive Humanoid Whole-Body Control from Human Videos

2025年09月20日
  • 简介
    由于动作数据稀缺以及人形机器人与物体交互过程中涉及大量接触,实现稳健的全身人形机器人-物体交互(HOI)仍然具有挑战性。本文提出了HDMI(用于交互的人形机器人模仿框架),这是一个简单且通用的框架,能够直接从单目RGB视频中学习全身人形机器人-物体交互技能。我们的方法流程包含三个步骤:(i)从无约束条件的视频中提取并重定向人体和物体的运动轨迹,以构建结构化的动作数据集;(ii)训练一个强化学习(RL)策略,用于协同追踪机器人和物体的状态,该策略包含三个关键设计:统一的物体表征、残差动作空间以及通用的交互奖励函数;(iii)将训练好的强化学习策略零样本部署到真实的人形机器人上。我们在Unitree G1人形机器人上进行了大量从仿真到现实的实验,验证了本方法的鲁棒性和通用性:HDMI成功实现了连续67次开门通过,并在真实世界中完成了6种不同的移动操作任务,在仿真环境中完成了14项任务。实验结果表明,HDMI是一个从人类视频中获取交互式人形机器人技能的简单而通用的有效框架。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决人形机器人与物体交互(HOI)中由于动作数据稀缺和接触复杂性导致的全身体交互技能学习困难的问题。现有的方法通常依赖于大量高质量的运动捕捉数据,难以扩展到真实场景中的多样化交互任务。这是一个具有挑战性的新问题,尤其是在从单目RGB视频中直接学习并实现真实机器人上的零样本迁移方面。
  • 关键思路
    提出HDMI框架,通过从无约束的单目RGB视频中提取并重定向人类和物体轨迹来构建结构化运动数据集;设计基于强化学习的策略,采用统一的物体表示、残差动作空间和通用交互奖励,实现机器人与物体状态的协同跟踪;该方法无需真实机器人数据训练,即可实现零样本部署到实体人形机器人上,显著降低了对专用硬件和标注数据的依赖。
  • 其它亮点
    在仿真和真实环境(Unitree G1人形机器人)中验证了方法的鲁棒性和泛化能力,实现了67次连续开门穿越和6项不同的移动操作任务(真实世界)以及14项仿真任务;整个流程无需微调即可零样本部署;使用了从互联网视频中提取的数据,具备低成本扩展潜力;代码与数据集尚未明确开源,但实验设计充分体现了sim-to-real的有效性,未来可探索更多复杂交互场景及多物体协作任务。
  • 相关研究
    1. Learning Dexterous In-Hand Manipulation 2. End-to-End Robotic Reinforcement Learning with Aerial Imagery 3. Video PreTraining (VPT): Learning to Act by Watching Unlabeled Videos 4. Actionable Models: Unifying Representation Learning and Reinforcement Learning for Vision-Based Control 5. Contact-Rich Manipulation with Zero-Shot Sim-to-Real Transfer
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问