Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation

2024年07月08日
  • 简介
    LLM-based agents在视觉语言导航(VLN)任务中展现出了令人印象深刻的零样本性能。然而,这些零样本方法仅关注于通过在预定义的导航图中选择节点来解决高级任务规划,而忽略了在现实导航场景中的低级控制。为了弥合这一差距,我们提出了AO-Planner,这是一个新颖的面向能力的规划框架,用于连续的VLN任务。我们的AO-Planner集成了各种基础模型,以实现面向能力的运动规划和动作决策,两者都以零样本的方式执行。具体而言,我们采用了一种视觉能力提示(VAP)方法,其中利用SAM对可见地面进行分割,提供导航能力,基于此,LLM选择潜在的下一个航点,并生成朝向所选航点的低级路径规划。我们还引入了一个高级代理,PathAgent,来识别最可能的基于像素的路径,并将其转换为3D坐标以实现低级运动。在具有挑战性的R2R-CE基准测试上的实验结果表明,AO-Planner实现了最先进的零样本性能(SPL提高了5.5%)。我们的方法在LLM和3D世界之间建立了有效的连接,从而避免了直接预测世界坐标的困难,为在低级运动控制中使用基础模型提供了新的前景。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决现有的零样本方法在视觉-语言导航任务中只解决高级任务规划,而忽略了现实导航场景中的低级控制问题的缺陷。
  • 关键思路
    本文提出了AO-Planner,一种新颖的面向可供性的规划框架,用于连续的视觉-语言导航任务。AO-Planner将各种基础模型集成在一起,以实现面向可供性的运动规划和动作决策,两者都以零样本方式执行。
  • 其它亮点
    本文采用了视觉可供性提示(VAP)方法,利用SAM对可见地面进行分割,提供导航可供性,基于此,LLM选择潜在的下一个航点,并生成通往所选航点的低级路径规划。本文还引入了高级代理PathAgent,以识别最可能的基于像素的路径,并将其转换为3D坐标以实现低级运动。实验结果表明,AO-Planner在具有挑战性的R2R-CE基准测试中实现了最先进的零样本性能(SPL提高了5.5%)。
  • 相关研究
    近期的相关研究包括《Learning to Navigate in Cities Without a Map》、《Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问