- 简介视觉语言模型(VLM)在各种任务中展现出了惊人的能力,从逻辑推理到视觉理解。这为更丰富的与世界互动,例如机器人控制,打开了大门。然而,VLM仅产生文本输出,而机器人控制和其他空间任务需要输出连续的坐标、动作或轨迹。我们如何使VLM能够处理这些设置,而不需要在任务特定数据上进行微调? 在本文中,我们提出了一种新颖的VLM视觉提示方法,称为Prompting with Iterative Visual Optimization(PIVOT),它将任务描述为迭代的视觉问答。在每次迭代中,图像都会用VLM可以引用的建议的视觉表示进行注释(例如,候选机器人动作、本地化或轨迹)。然后,VLM选择最佳任务建议。这些建议会进行迭代优化,从而使VLM最终聚焦于最佳可用答案。我们在真实世界的机器人导航、从图像中进行真实世界的操作、模拟中的指令遵循以及其他空间推理任务(例如本地化)中研究了PIVOT。我们发现,也许令人惊讶的是,我们的方法使得零样本控制机器人系统成为可能,而无需任何机器人训练数据,在各种环境中实现导航以及其他能力。虽然当前的性能还远非完美,但我们的工作突显了这种新体制的潜力和局限性,并展示了一种在机器人和空间推理领域中具有前途的方法。网站:pivot-prompt.github.io和HuggingFace:https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo。
- 图表
- 解决问题如何让视觉语言模型(VLMs)在机器人控制等空间任务中输出连续坐标、动作或轨迹等连续型输出?
- 关键思路提出了一种名为PIVOT的视觉提示方法,将任务转化为迭代的视觉问答,通过迭代地对候选动作、定位或轨迹等进行优化,让VLMs能够选择最佳的答案。
- 其它亮点通过实验验证了PIVOT在机器人导航、真实世界图像操作、模拟中的指令跟随和定位等空间推理任务中的应用,实现了零样本控制机器人系统的能力。论文提供了网站和开源代码。
- 近期的相关研究包括视觉语言模型(VLMs)在各个领域的应用,如图像处理、自然语言处理、机器人控制等。
沙发等你来抢
去评论
评论
沙发等你来抢