OVAL-Prompt: Open-Vocabulary Affordance Localization for Robot Manipulation through LLM Affordance-Grounding

向作者提问

NEW

简介

为了让机器人有效地与物体互动，它们必须理解它们遇到的每个物体的形式和功能。实际上，机器人需要理解每个物体提供的哪些动作，以及这些动作可以在哪里实施。机器人最终预计将在非结构化的人类环境中运行，在这种情况下，机器人在部署之前不知道物体和可用性的集合（即开放词汇设置）。在这项工作中，我们介绍了OVAL-Prompt，一种基于提示的方法，用于在RGB-D图像中进行开放词汇可用性定位。通过利用视觉语言模型（VLM）进行开放词汇对象部分分割，并使用大型语言模型（LLM）来确定每个部分分割可用性，OVAL-Prompt展示了对新颖对象实例、类别和可用性的通用性，而无需进行领域特定的微调。定量实验表明，没有任何微调，OVAL-Prompt的定位精度与监督基准模型相当。此外，定性实验表明，OVAL-Prompt使得基于可用性的机器人操作开放词汇对象实例和类别成为可能。项目页面：https://ekjt.github.io/OVAL-Prompt/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决机器人在未知物体场景下的开放式动作感知问题，即如何使机器人能够理解每个物体的功能和形式，以便有效地与之交互。
关键思路

本文提出了一种基于提示的方法，即OVAL-Prompt，用于在RGB-D图像中进行开放式动作感知。该方法利用视觉语言模型（VLM）进行开放式物体部分分割，利用大型语言模型（LLM）将每个部分分割的动作感知与之关联，从而实现对新物体实例、类别和动作感知的泛化。
其它亮点

本文的实验结果表明，OVAL-Prompt在没有任何领域特定的微调的情况下，就可以达到与有监督基线模型相当的定位精度。此外，本文还展示了OVAL-Prompt使机器人能够针对开放式物体实例和类别进行动作感知操作的能力。本文的项目页面提供了数据集和代码。
相关研究

在相关研究方面，最近的一些研究包括：1.基于深度学习的物体检测和识别方法；2.基于提示的物体部分分割方法；3.利用语言模型进行视觉推理的方法。相关论文包括：1. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks；2. Mask R-CNN；3. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问