LIDEA: Human-to-Robot Imitation Learning via Implicit Feature Distillation and Explicit Geometry Alignment

向作者提问

NEW

简介

扩大机器人学习规模受限于机器人演示数据的稀缺性，而人类视频则提供了海量且尚未被充分利用的交互数据。然而，弥合人类双手与机器人机械臂之间的具身差异（embodiment gap）仍是一项关键挑战。当前的跨具身迁移策略通常依赖于视觉编辑方法，但由于人类与机器人在外观和三维几何结构上存在固有差异，这类方法往往引入明显的视觉伪影。为克服上述局限，我们提出了LIDEA（隐式特征蒸馏与显式几何对齐）框架——一种可借助人类演示数据提升策略学习效果的模仿学习方法。在二维视觉层面，LIDEA采用双阶段传递式蒸馏流程，将人类与机器人表征映射至共享的潜在空间中，实现二者对齐；在三维几何层面，我们提出一种具身无关的对齐策略，显式地将具身特性与交互几何结构解耦，从而保障三维感知的一致性。大量实验从两个维度对LIDEA进行了实证验证：数据效率与分布外（OOD）鲁棒性。结果表明，人类视频数据最多可替代80%昂贵的机器人演示数据；同时，该框架能够成功地从人类视频中迁移未曾见过的动作模式，显著提升模型在分布外场景下的泛化能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

机器人模仿学习受限于真实机器人演示数据的稀缺性，而人类视频虽海量但存在显著的‘具身鸿沟’（embodiment gap）——即人类手部与机器人臂在视觉外观、三维几何结构和运动学上的本质差异。如何高效、无损地将人类视频中的交互知识迁移至机器人策略学习，是一个尚未被充分解决的新问题。
关键思路

LIDEA提出双域协同对齐范式：在2D视觉域采用‘双阶段传递式隐式特征蒸馏’（避免端到端图像编辑导致的视觉伪影），在3D几何域引入‘具身无关的显式几何对齐’（将动作的交互几何（如抓取位姿、物体相对运动）与执行载体（人手/机械臂）解耦），从而首次实现视觉表征与几何感知的联合解耦迁移。
其它亮点

实验表明：仅用20%机器人演示+人类视频即可达到全机器人数据基线性能（80%替代率）；在OOD任务（新物体、新视角、新背景）上泛化显著提升；在Roboturk、EPIC-KITCHENS和自建Real-World Robot Benchmark上验证；未提及其开源代码；值得深入的方向包括：几何对齐模块与神经辐射场（NeRF）的结合、跨具身强化微调机制、以及面向多指灵巧手的扩展。
相关研究

1. Huang et al., 'Action2Motion: Imitating Human Actions in Robot Manipulation', CoRL 2022 2. Zhang et al., 'Human-to-Robot Imitation via Visual Alignment without 3D Supervision', ICRA 2023 3. Liu et al., 'Embodied Pretraining from Internet Videos', NeurIPS 2023 4. Xu et al., 'RoboCLIP: Contrastive Learning for Cross-Embodiment Imitation', RSS 2024

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问