Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance

简介

本文提出了一种新的方法，用于在杂乱的点云中进行基于语言的6自由度抓取检测。在此之前，先前的工作主要关注于确保抓取的稳定性，但往往没有考虑通过自然语言传达的人类意图，从而阻碍了机器人和用户在复杂的三维环境中进行有效的协作。我们首先介绍了Grasp-Anything-6D，这是一个大规模的数据集，用于语言驱动的6自由度抓取检测任务，包含100万个点云场景和超过2亿个与语言相关的3D抓取姿势。我们进一步引入了一种新颖的扩散模型，其中包含一种新的负提示引导学习策略。所提出的负提示策略在给定语言输入的情况下，将检测过程引导到所需对象，并远离不需要的对象。我们的方法实现了一个端到端的框架，使人类可以使用自然语言命令机器人在杂乱的场景中抓取所需的对象。大量的实验结果表明，我们的方法在基准实验和实际场景中都非常有效，超过了其他基线。此外，我们展示了我们的方法在实际的机器人应用中的实用性。我们的项目可在https://airvlab.github.io/grasp-anything 上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决语言驱动下的6-DoF抓取检测问题，以实现人机协作，这是一个新的问题。
关键思路

论文提出了一种新的扩散模型，结合负面提示策略，实现了基于语言驱动的6-DoF抓取检测。该方法可以通过自然语言指令，使机器人在杂乱的场景中抓取所需的物品。
其它亮点

论文提出了Grasp-Anything-6D数据集，包含100万个点云场景和超过2亿个与语言相关的3D抓取姿势，同时开发了端到端框架，实现了人机协作。实验结果表明，该方法在基准实验和真实场景中的效果均优于其他基线方法。论文还提供了开源代码。
相关研究

与该论文相关的研究包括：Learning to Grasp from Vision and Tactile Sensing，Grasp Pose Detection in Point Clouds，GraspNet: A Cloud-Based Deep Learning Approach for Grasp Planning in Cluttered Scenes等。

Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance

提问交流

提问交流