Affordance Perception by a Knowledge-Guided Vision-Language Model with Efficient Error Correction

简介

移动机器人平台将越来越多地承担在开放世界环境中抓取和操作物体的任务。可承认性理解为机器人提供了实现其目标和执行其任务的手段，例如在未知建筑物中实现自主导航，需要找到门和打开这些门的方法。为了获得可操作的建议，机器人需要能够区分物体之间的微小差异，因为它们可能会导致不同的操作序列：门把手需要抓住并旋转，而手柄需要抓住并推动。在本文中，我们改进了机器人在开放世界环境中的可承认性感知。我们的贡献有三个方面：（1）我们提供了一个具有精确，可操作的可承认性表示；（2）我们将这个知识库连接到基础视觉语言模型（VLM）上，并提示VLM寻找更多新的和未见过的物体；（3）我们应用了人类参与来纠正VLM的输出。可承认性表示、图像检测和人类参与相结合，对于机器人搜索物体以实现其目标是有效的。我们已经在寻找各种门和许多不同的打开方式的情景中证明了这一点。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高机器人在开放世界环境中的抓取和操作物体的能力，实现自主导航和执行任务的目标。
关键思路

提供精确可行的物体感知表示，将其与图像检测和人类纠错相结合，以帮助机器人搜索物体并实现目标。
其它亮点

论文提出了一种可行的物体感知表示方法，并将其与基础的视觉语言模型相连接，使用人类纠错进行改进。实验展示了在寻找不同门以及打开它们的多种方式的场景中，这种方法的有效性。
相关研究

最近的相关研究包括AffordanceNet、Visual Genome和Neural Baby Talk等。

Affordance Perception by a Knowledge-Guided Vision-Language Model with Efficient Error Correction

提问交流

提问交流