- 简介为了让机器人有效地与物体互动,它们必须理解它们遇到的每个物体的形式和功能。实际上,机器人需要理解每个物体提供的哪些动作,以及这些动作可以在哪里实施。机器人最终预计将在非结构化的人类环境中运行,在这种情况下,机器人在部署之前不知道物体和可用性的集合(即开放词汇设置)。在这项工作中,我们介绍了OVAL-Prompt,一种基于提示的方法,用于在RGB-D图像中进行开放词汇可用性定位。通过利用视觉语言模型(VLM)进行开放词汇对象部分分割,并使用大型语言模型(LLM)来确定每个部分分割可用性,OVAL-Prompt展示了对新颖对象实例、类别和可用性的通用性,而无需进行领域特定的微调。定量实验表明,没有任何微调,OVAL-Prompt的定位精度与监督基准模型相当。此外,定性实验表明,OVAL-Prompt使得基于可用性的机器人操作开放词汇对象实例和类别成为可能。项目页面:https://ekjt.github.io/OVAL-Prompt/
-
- 图表
- 解决问题本文旨在解决机器人在未知物体场景下的开放式动作感知问题,即如何使机器人能够理解每个物体的功能和形式,以便有效地与之交互。
- 关键思路本文提出了一种基于提示的方法,即OVAL-Prompt,用于在RGB-D图像中进行开放式动作感知。该方法利用视觉语言模型(VLM)进行开放式物体部分分割,利用大型语言模型(LLM)将每个部分分割的动作感知与之关联,从而实现对新物体实例、类别和动作感知的泛化。
- 其它亮点本文的实验结果表明,OVAL-Prompt在没有任何领域特定的微调的情况下,就可以达到与有监督基线模型相当的定位精度。此外,本文还展示了OVAL-Prompt使机器人能够针对开放式物体实例和类别进行动作感知操作的能力。本文的项目页面提供了数据集和代码。
- 在相关研究方面,最近的一些研究包括:1.基于深度学习的物体检测和识别方法;2.基于提示的物体部分分割方法;3.利用语言模型进行视觉推理的方法。相关论文包括:1. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks;2. Mask R-CNN;3. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流