Towards Open-World Grasping with Large Vision-Language Models

2024年06月26日
  • 简介
    这篇文章讨论了在机器人领域中,从自然语言指令中抓取物体的能力是一个基本的挑战。一个开放世界的抓取系统应该能够结合高级语境和低级物理几何推理,以便在任意场景中应用。最近的研究利用大型语言模型(LLMs)中固有的网络规模知识来规划和推理机器人上下文,但依赖于外部视觉和动作模型来将这些知识落实到环境中并参数化执行。这种设置存在两个主要瓶颈:a)LLM的推理能力受到视觉落地质量的限制,b)LLM不包含世界的低级空间理解,这对于在接触丰富的情况下抓取是必不可少的。在这项工作中,我们证明了现代视觉语言模型(VLMs)能够解决这些限制,因为它们是隐式落地的,可以共同推理语义和几何。我们提出了OWG,一个开放世界的抓取管道,它将VLMs与分割和抓取综合模型相结合,以解锁三个阶段的落实世界理解:开放式指称分割、基于接触推理的落实抓取规划和抓取排名,所有这些都可以通过适当的视觉提示机制进行零次应用。我们在杂乱的室内场景数据集中进行了广泛的评估,展示了OWG在从开放式语言中落实的稳健性,以及在模拟和硬件上进行的开放世界机器人抓取实验中,与以前的监督和零次LLM方法相比表现出更优越的性能。
  • 图表
  • 解决问题
    解决问题:论文试图解决从自然语言指令中抓取物体的问题,提出了一种结合视觉语言模型和分割抓取合成模型的开放世界抓取流水线,旨在实现零样本学习。
  • 关键思路
    关键思路:论文提出了一种利用视觉语言模型和分割抓取合成模型结合的方法,通过三个步骤实现开放世界抓取:开放式指代分割、基于接触推理的接地抓取规划和抓取排名。这种方法不需要外部视觉和行为模型的支持,具有更好的性能。
  • 其它亮点
    其他亮点:论文在杂乱的室内场景数据集中展示了OWG的鲁棒性,并在模拟和硬件实验中展示了与先前监督和零样本LLM方法相比的优越性能。
  • 相关研究
    相关研究:最近的相关研究包括基于大型语言模型的计划和推理,但需要外部视觉和行为模型的支持。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论