Human Universal Grasping - 智源社区论文

向作者提问

NEW

简介

人类能够轻松自如地抓取物体，而多指机器人距离这种通用性还相去甚远。我们认为，机器人抓取数据最自然的来源正是人类——人类每天都会拾取成千上万个物体。为此，我们提出了HUG（Human-Grasp Generation，人类抓取生成）模型，这是一种基于流匹配（flow-matching）的生成模型，仅需单张由双目相机采集的RGB-D图像，即可为任意用户指定的物体生成丰富多样的人类抓取姿态。我们借助智能眼镜，首先构建了“1M-HUGs”数据集：这是一个以第一人称视角采集的人类抓取数据集，涵盖100万帧视频（总计27.8小时）、分布于41栋建筑中的6,707个真实物体实例。接着，为建模自然人类抓取姿态的分布规律，我们设计了一种新颖的流匹配模型，该模型深度融合RGB图像与深度信息，直接输出参数化的抓取姿态，其参数包括手腕平移、手腕旋转以及MANO手部模型的姿态。所预测的抓取姿态可无缝迁移至多种机器人手部结构，从而实现面向日常场景的零样本抓取。为统一评估标准，我们构建了一个全新的仿真基准测试集——HUG-Bench：其中包含来自五类几何形状、尺寸各异的90个未见物体，所有物体均配有真实尺度的三维网格模型。我们在真实世界中，针对HUG-Bench测试集中的30个物体，在多种双目相机配置、不同机器人本体构型及多样化的家庭环境中开展了全面评测。实验结果表明，HUG在这一极具挑战性的物体集合上，性能显著超越当前最先进的抓取基线方法，分别提升23%和34%。代码、数据集、基准测试集、预训练模型权重以及交互式演示均已开源发布，详见项目网站：https://grasping.io/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何让多指机器人在真实家庭场景中实现泛化性强、零样本的自然抓取，而非依赖大量机器人自身采集的抓取数据——这是一个长期存在的挑战性新问题，尤其强调从人类抓取行为中直接学习先验。
关键思路

提出HUG（Human-grasp-guided）流匹配生成模型，首次将人类自然抓取建模为条件概率分布的连续流，直接从单帧RGB-D图像（egocentric视角）联合建模手腕位姿与MANO手部姿态；核心创新在于以人类抓取为唯一数据源，通过流匹配实现跨对象、跨视角、跨手型的零样本抓取生成，并支持机器人手部姿态重定向。
其它亮点

构建首个大规模、真实世界、egocentric人类抓取视频数据集1M-HUGs（100万帧，6707个物体实例，41栋建筑）；发布HUG-Bench——首个面向人类抓取迁移的仿真+真实双模态基准（90个未见物体，5类几何形状，带metric-scale 3D网格）；在30个真实测试物体上跨相机、跨机器人平台（包括Shadow Hand、Allegro、Franka）和多家庭环境验证，相对SOTA提升+23%~+34%；全部代码、数据集、预训练模型、交互式Demo已开源。
相关研究

GraspNet (2021), GQ-CNN (2018), Dex-Net (2017), Contact-GraspNet (2022), H4D (2023), HO-3D (2020), InterHand2.6M (2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问