PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

简介

视觉语言模型（VLM）在各种任务中展现出了惊人的能力，从逻辑推理到视觉理解。这为更丰富的与世界互动，例如机器人控制，打开了大门。然而，VLM仅产生文本输出，而机器人控制和其他空间任务需要输出连续的坐标、动作或轨迹。我们如何使VLM能够处理这些设置，而不需要在任务特定数据上进行微调？在本文中，我们提出了一种新颖的VLM视觉提示方法，称为Prompting with Iterative Visual Optimization（PIVOT），它将任务描述为迭代的视觉问答。在每次迭代中，图像都会用VLM可以引用的建议的视觉表示进行注释（例如，候选机器人动作、本地化或轨迹）。然后，VLM选择最佳任务建议。这些建议会进行迭代优化，从而使VLM最终聚焦于最佳可用答案。我们在真实世界的机器人导航、从图像中进行真实世界的操作、模拟中的指令遵循以及其他空间推理任务（例如本地化）中研究了PIVOT。我们发现，也许令人惊讶的是，我们的方法使得零样本控制机器人系统成为可能，而无需任何机器人训练数据，在各种环境中实现导航以及其他能力。虽然当前的性能还远非完美，但我们的工作突显了这种新体制的潜力和局限性，并展示了一种在机器人和空间推理领域中具有前途的方法。网站：pivot-prompt.github.io和HuggingFace：https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo。

图表

解决问题

如何让视觉语言模型（VLMs）在机器人控制等空间任务中输出连续坐标、动作或轨迹等连续型输出？

关键思路

提出了一种名为PIVOT的视觉提示方法，将任务转化为迭代的视觉问答，通过迭代地对候选动作、定位或轨迹等进行优化，让VLMs能够选择最佳的答案。

其它亮点

通过实验验证了PIVOT在机器人导航、真实世界图像操作、模拟中的指令跟随和定位等空间推理任务中的应用，实现了零样本控制机器人系统的能力。论文提供了网站和开源代码。

PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

评论