PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Peng Xu ,
Soroush Nasiriany ,
Fei Xia ,
Wenhao Yu ,
Ted Xiao ,
Jacky Liang ,
Ishita Dasgupta ,
Annie Xie ,
Danny Driess ,
Ayzaan Wahid ,
Zhuo Xu ,
Quan Vuong ,
Tingnan Zhang ,
Tsang-Wei Edward Lee ,
Kuang-Huei Lee ,
Sean Kirmani ,
Yuke Zhu ,
Andy Zeng ,
Karol Hausman ,
Nicolas Heess ,
Chelsea Finn ,
Sergey Levine ,
Brian Ichter
2024年02月12日
  • 简介
    视觉语言模型(VLM)在各种任务中展现出了惊人的能力,从逻辑推理到视觉理解。这为更丰富的与世界互动,例如机器人控制,打开了大门。然而,VLM仅产生文本输出,而机器人控制和其他空间任务需要输出连续的坐标、动作或轨迹。我们如何使VLM能够处理这些设置,而不需要在任务特定数据上进行微调? 在本文中,我们提出了一种新颖的VLM视觉提示方法,称为Prompting with Iterative Visual Optimization(PIVOT),它将任务描述为迭代的视觉问答。在每次迭代中,图像都会用VLM可以引用的建议的视觉表示进行注释(例如,候选机器人动作、本地化或轨迹)。然后,VLM选择最佳任务建议。这些建议会进行迭代优化,从而使VLM最终聚焦于最佳可用答案。我们在真实世界的机器人导航、从图像中进行真实世界的操作、模拟中的指令遵循以及其他空间推理任务(例如本地化)中研究了PIVOT。我们发现,也许令人惊讶的是,我们的方法使得零样本控制机器人系统成为可能,而无需任何机器人训练数据,在各种环境中实现导航以及其他能力。虽然当前的性能还远非完美,但我们的工作突显了这种新体制的潜力和局限性,并展示了一种在机器人和空间推理领域中具有前途的方法。网站:pivot-prompt.github.io和HuggingFace:https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo。
  • 图表
  • 解决问题
    如何让视觉语言模型(VLMs)在机器人控制等空间任务中输出连续坐标、动作或轨迹等连续型输出?
  • 关键思路
    提出了一种名为PIVOT的视觉提示方法,将任务转化为迭代的视觉问答,通过迭代地对候选动作、定位或轨迹等进行优化,让VLMs能够选择最佳的答案。
  • 其它亮点
    通过实验验证了PIVOT在机器人导航、真实世界图像操作、模拟中的指令跟随和定位等空间推理任务中的应用,实现了零样本控制机器人系统的能力。论文提供了网站和开源代码。
  • 相关研究
    近期的相关研究包括视觉语言模型(VLMs)在各个领域的应用,如图像处理、自然语言处理、机器人控制等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论