LIDEA: Human-to-Robot Imitation Learning via Implicit Feature Distillation and Explicit Geometry Alignment

2026年04月12日
  • 简介
    扩大机器人学习规模受限于机器人演示数据的稀缺性,而人类视频则提供了海量且尚未被充分利用的交互数据。然而,弥合人类双手与机器人机械臂之间的具身差异(embodiment gap)仍是一项关键挑战。当前的跨具身迁移策略通常依赖于视觉编辑方法,但由于人类与机器人在外观和三维几何结构上存在固有差异,这类方法往往引入明显的视觉伪影。为克服上述局限,我们提出了LIDEA(隐式特征蒸馏与显式几何对齐)框架——一种可借助人类演示数据提升策略学习效果的模仿学习方法。在二维视觉层面,LIDEA采用双阶段传递式蒸馏流程,将人类与机器人表征映射至共享的潜在空间中,实现二者对齐;在三维几何层面,我们提出一种具身无关的对齐策略,显式地将具身特性与交互几何结构解耦,从而保障三维感知的一致性。大量实验从两个维度对LIDEA进行了实证验证:数据效率与分布外(OOD)鲁棒性。结果表明,人类视频数据最多可替代80%昂贵的机器人演示数据;同时,该框架能够成功地从人类视频中迁移未曾见过的动作模式,显著提升模型在分布外场景下的泛化能力。
  • 作者讲解
  • 图表
  • 解决问题
    机器人模仿学习受限于真实机器人演示数据的稀缺性,而人类视频虽海量但存在显著的‘具身鸿沟’(embodiment gap)——即人类手部与机器人臂在视觉外观、三维几何结构和运动学上的本质差异。如何高效、无损地将人类视频中的交互知识迁移至机器人策略学习,是一个尚未被充分解决的新问题。
  • 关键思路
    LIDEA提出双域协同对齐范式:在2D视觉域采用‘双阶段传递式隐式特征蒸馏’(避免端到端图像编辑导致的视觉伪影),在3D几何域引入‘具身无关的显式几何对齐’(将动作的交互几何(如抓取位姿、物体相对运动)与执行载体(人手/机械臂)解耦),从而首次实现视觉表征与几何感知的联合解耦迁移。
  • 其它亮点
    实验表明:仅用20%机器人演示+人类视频即可达到全机器人数据基线性能(80%替代率);在OOD任务(新物体、新视角、新背景)上泛化显著提升;在Roboturk、EPIC-KITCHENS和自建Real-World Robot Benchmark上验证;未提及其开源代码;值得深入的方向包括:几何对齐模块与神经辐射场(NeRF)的结合、跨具身强化微调机制、以及面向多指灵巧手的扩展。
  • 相关研究
    1. Huang et al., 'Action2Motion: Imitating Human Actions in Robot Manipulation', CoRL 2022 2. Zhang et al., 'Human-to-Robot Imitation via Visual Alignment without 3D Supervision', ICRA 2023 3. Liu et al., 'Embodied Pretraining from Internet Videos', NeurIPS 2023 4. Xu et al., 'RoboCLIP: Contrastive Learning for Cross-Embodiment Imitation', RSS 2024
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问