EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

2025年05月16日
  • 简介
    模仿学习在操作任务中存在一个众所周知的数据稀缺问题。与自然语言和二维计算机视觉不同,灵巧操作并没有大规模的互联网级数据集。一种有吸引力的选择是使用以自我为中心视角的人类视频,这是一种被动可扩展的数据来源。然而,现有的大规模数据集(例如 Ego4D)没有提供手部姿态的标注,也不专注于物体操作。为此,我们利用 Apple Vision Pro 收集了 EgoDex 数据集,这是迄今为止规模最大、多样性最高的灵巧人类操作数据集。EgoDex 包含 829 小时的以自我为中心视角的视频,同时记录了配对的 3D 手部和手指追踪数据,其中多个校准摄像头和设备上的 SLAM 技术可以精确跟踪每只手每个关节的姿态。该数据集涵盖了广泛的多样化操作行为,涉及 194 种不同的桌面任务中的日常家用物品,从系鞋带到叠衣服等。此外,我们在该数据集上训练并系统评估了用于手部轨迹预测的模仿学习策略,引入了指标和基准来衡量这一日益重要领域的进展。通过发布这一大规模数据集,我们希望推动机器人技术、计算机视觉和基础模型的前沿发展。
  • 图表
  • 解决问题
    论文试图解决机器人领域中模仿学习的数据稀缺问题,尤其是与灵巧操作相关的高质量数据不足的问题。这是一个长期存在的挑战,但通过利用大规模的被动数据源(如第一视角人类视频)来缓解这一问题,属于对现有研究的进一步探索。
  • 关键思路
    关键思路是利用Apple Vision Pro设备收集EgoDex数据集,这是目前最大、最多样化的灵巧操作数据集。该数据集不仅包含829小时的第一视角视频,还通过多摄像头校准和设备内置SLAM技术提供了实时的3D手部和手指姿态跟踪数据。相比现有研究,这种方法能够更精确地捕捉手部关节的运动,并覆盖了194种不同的日常任务,从而为模仿学习提供了丰富的训练资源。
  • 其它亮点
    亮点包括:1) 数据集规模大且多样性高,涵盖了从系鞋带到叠衣服等多种复杂任务;2) 提供了精确的3D手部姿态注释,解决了传统数据集中标注不足的问题;3) 引入了新的评估指标和基准测试方法,用于衡量手部轨迹预测模型的表现;4) 数据集已公开发布,为未来研究奠定了基础。此外,论文还提出了值得进一步研究的方向,例如如何结合语言指令或强化学习提升政策泛化能力。
  • 相关研究
    近期相关研究包括:1) Ego4D项目,虽然提供了大量第一视角视频,但缺乏手部姿态注释;2) DexYCB数据集,专注于物体与手部交互的精细标注,但规模较小;3) 使用合成数据生成手部姿态的研究,如FreiHand和HO3D;4) 基于模仿学习的机器人操作研究,例如OpenAI的Dactyl项目和Google的Manipulation Transformer。这些工作共同推动了灵巧操作领域的进展,而本论文则通过更大规模的真实世界数据进一步扩展了研究边界。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论