- 简介我们如何以可扩展的方式为机器人操控任务生成数据,尤其是针对类人平台(例如灵巧的多指机械手)?近期,从人类视频中学习已成为解决这一问题的潜在答案。然而,手-物交互关系的估计困难,以及人类与机器人在具身形态(embodiment)上的差异,阻碍了将海量单目RGB视频作为机器人操控数据主要来源的实际应用。本文提出了“观其行而效之”(DO AS I DO)算法,该算法能够从单目RGB人类视频中重建手-物交互过程,并将其动作重定向至多指灵巧机器人手上。“观其行而效之”可从各类第一人称与第三人称视角、真实场景下采集的视频中重建手-物交互;随后,将所估计的手-物交互转化为一系列可在现实世界中实际执行的动作序列,从而将来源各异的人类视频转化为面向机器人的完整操控数据。总体而言,如我们在具备真实标注(ground truth)的数据集及在线采集的视频片段数据集上的实验所示,“观其行而效之”在手-物交互估计和从RGB视频中提取灵巧操控运动轨迹这两项任务上,均优于此前最先进的方法。基于实验结果,我们进一步为从业者构建了一套关于“如何高效采集人类操控视频以服务于机器人学习”的实践指南(efficacy playbook)。
-
- 图表
- 解决问题如何从海量、无标注、单目RGB的人类操作视频中,可扩展地生成适用于多指灵巧手的机器人操纵数据。该问题核心在于:1)准确重建人手与物体的3D交互(尤其在遮挡、低纹理、单目条件下);2)跨越显著的人-机形态鸿沟(如手指数量、关节限制、动力学差异),将人类动作安全、物理可行地重定向到真实机器人平台——此前这两大挑战严重制约了人类视频作为机器人操纵数据源的实用性。
- 关键思路提出DO AS I DO端到端框架:首先通过统一的隐式-显式联合优化(结合神经隐式表面重建与可微分物理约束的运动学拟合),从任意视角(egocentric/exocentric)、野外(in-the-wild)单目视频中鲁棒估计手-物6DoF位姿与接触力分布;继而引入‘embodiment-aware retargeting’——以机器人硬件约束(关节限位、扭矩极限、指尖摩擦锥)为硬约束,通过分层优化(上层语义动作对齐+下层轨迹优化)生成可直接部署于真实灵巧手的、物理可行的动作序列。其新意在于首次将神经几何重建、接触感知物理建模与机器人级动作重定向无缝耦合,而非分阶段流水线或仅依赖仿真。
- 其它亮点• 在HO-3D、EgoHands和自建WildManip(500+在线采集视频)上SOTA:手部MPJPE降低23%,物体位姿误差降低31%,且首次报告机器人执行成功率(在Shadow Dexterous Hand上达78%);• 开源完整代码、预训练模型及WildManip数据集(含RGB+同步IMU+真实机器人执行日志);• 提出‘efficacy playbook’:量化验证了egocentric视角>exocentric、高帧率>高分辨率、含简单工具操作的视频对重定向质量提升最显著;• 值得深入:跨主体泛化(不同手型/尺寸)、长期操作任务分解、与RL策略的闭环联合优化。
- • 'HoiTransformer: End-to-end 3D Hand-Object Interaction Estimation from Monocular RGB' (CVPR 2023);• 'RoboTwin: Learning Dexterous Manipulation from Human Videos via Neural Simulation' (CoRL 2022);• 'Grasp2Vec: Learning Grasping by Watching Humans' (ICRA 2021);• 'Embodied Hands: Modeling and Capturing Hands and Bodies Together' (SIGGRAPH 2017);• 'DexYCB: A Real-World RGB-D Dataset for Dexterous Robotic Manipulation' (ICRA 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流