- 简介生成自然的人类抓握需要考虑的不仅仅是物体的几何形状,还需要考虑语义信息。仅仅依赖于物体的形状来生成抓握姿势会限制先前方法在下游任务中的应用。本文提出了一种新的基于语义的抓握生成方法,称为SemGrasp,它通过将语义信息纳入抓握表示中生成静态的人类抓握姿势。我们引入了一种离散表示,将抓握空间与语义空间对齐,从而能够根据语言指令生成抓握姿势。随后,我们对多模态大语言模型(MLLM)进行微调,将物体、抓握和语言融合到一个统一的语义空间中。为了便于SemGrasp的训练,我们编制了一个大规模的抓握文本对齐数据集,名为CapGrasp,其中包含约26万个详细的标题和50万个不同的抓握。实验结果表明,SemGrasp能够高效地生成符合语言意图的自然人类抓握。我们的代码、模型和数据集可在以下网址公开获取:https://kailinli.github.io/SemGrasp。
-
- 图表
- 解决问题本论文旨在解决仅考虑物体几何形状而不考虑语义信息的抓取生成方法在下游任务中应用受限的问题。论文提出了一种基于语义的抓取生成方法,即SemGrasp,将语义信息融入抓取表示中,以生成静态的人类抓取姿态。
- 关键思路SemGrasp通过引入一个离散表示,将抓取空间与语义空间对齐,从而使得可以根据语言指令生成抓取姿势。接着,利用一个多模态大语言模型(MLLM)进行微调,将对象、抓取和语言融合在一个统一的语义空间中。
- 其它亮点论文编制了一个大规模的抓取-文本对齐数据集CapGrasp,其中包含约260k个详细的标题和50k个不同的抓取。实验结果表明,SemGrasp可以有效地生成符合语言意图的自然人类抓取。论文提供了代码、模型和数据集的公开链接。
- 在这个领域中,最近还有一些相关的研究,如基于视觉-语言表示学习的抓取生成方法、基于深度学习的抓取生成方法等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流