Human Universal Grasping

2026年06月15日
  • 简介
    人类能够轻松自如地抓取物体,而多指机器人距离这种通用性还相去甚远。我们认为,机器人抓取数据最自然的来源正是人类——人类每天都会拾取成千上万个物体。为此,我们提出了HUG(Human-Grasp Generation,人类抓取生成)模型,这是一种基于流匹配(flow-matching)的生成模型,仅需单张由双目相机采集的RGB-D图像,即可为任意用户指定的物体生成丰富多样的人类抓取姿态。我们借助智能眼镜,首先构建了“1M-HUGs”数据集:这是一个以第一人称视角采集的人类抓取数据集,涵盖100万帧视频(总计27.8小时)、分布于41栋建筑中的6,707个真实物体实例。接着,为建模自然人类抓取姿态的分布规律,我们设计了一种新颖的流匹配模型,该模型深度融合RGB图像与深度信息,直接输出参数化的抓取姿态,其参数包括手腕平移、手腕旋转以及MANO手部模型的姿态。所预测的抓取姿态可无缝迁移至多种机器人手部结构,从而实现面向日常场景的零样本抓取。为统一评估标准,我们构建了一个全新的仿真基准测试集——HUG-Bench:其中包含来自五类几何形状、尺寸各异的90个未见物体,所有物体均配有真实尺度的三维网格模型。我们在真实世界中,针对HUG-Bench测试集中的30个物体,在多种双目相机配置、不同机器人本体构型及多样化的家庭环境中开展了全面评测。实验结果表明,HUG在这一极具挑战性的物体集合上,性能显著超越当前最先进的抓取基线方法,分别提升23%和34%。代码、数据集、基准测试集、预训练模型权重以及交互式演示均已开源发布,详见项目网站:https://grasping.io/
  • 作者讲解
  • 图表
  • 解决问题
    如何让多指机器人在真实家庭场景中实现泛化性强、零样本的自然抓取,而非依赖大量机器人自身采集的抓取数据——这是一个长期存在的挑战性新问题,尤其强调从人类抓取行为中直接学习先验。
  • 关键思路
    提出HUG(Human-grasp-guided)流匹配生成模型,首次将人类自然抓取建模为条件概率分布的连续流,直接从单帧RGB-D图像(egocentric视角)联合建模手腕位姿与MANO手部姿态;核心创新在于以人类抓取为唯一数据源,通过流匹配实现跨对象、跨视角、跨手型的零样本抓取生成,并支持机器人手部姿态重定向。
  • 其它亮点
    构建首个大规模、真实世界、egocentric人类抓取视频数据集1M-HUGs(100万帧,6707个物体实例,41栋建筑);发布HUG-Bench——首个面向人类抓取迁移的仿真+真实双模态基准(90个未见物体,5类几何形状,带metric-scale 3D网格);在30个真实测试物体上跨相机、跨机器人平台(包括Shadow Hand、Allegro、Franka)和多家庭环境验证,相对SOTA提升+23%~+34%;全部代码、数据集、预训练模型、交互式Demo已开源。
  • 相关研究
    GraspNet (2021), GQ-CNN (2018), Dex-Net (2017), Contact-GraspNet (2022), H4D (2023), HO-3D (2020), InterHand2.6M (2021)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问