PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation

2024年07月16日
  • 简介
    视觉和语言导航是需要智能体根据自然语言指令进行导航的任务。最近的方法在每一步预测构建拓扑地图上的子目标,以实现长期行动规划。然而,当使用类似GCN的模型来支持这种高级预测时,它们会遭受高计算成本的困扰。在这项工作中,我们提出了一种替代方法,通过考虑指令和有向保真轨迹之间的对齐来促进导航规划。有向保真轨迹是指从初始节点到有向图上候选位置的路径,不经过绕路。这种规划策略可以实现高效的模型,并取得强大的性能。具体而言,我们引入了一个有向图来说明环境中探索的区域,强调方向性。然后,我们首先将轨迹表示定义为有向边特征的序列,这些特征是根据相应的方向从全景图中提取的。最后,我们在导航过程中评估和比较指令和不同轨迹之间的对齐,以确定下一个导航目标。我们的方法在RxR数据集上优于之前的SOTA方法BEVBert,并且在R2R数据集上具有可比性,同时大大降低了计算成本。代码可在https://github.com/iSEE-Laboratory/VLN-PRET获得。
  • 作者讲解
  • 图表
  • 解决问题
    本文研究的问题是如何在自然语言指令下进行视觉和语言导航,解决现有方法在高级预测方面的计算成本高的问题。
  • 关键思路
    本文提出了一种新的导航规划策略,通过考虑指令和有向保真轨迹之间的对齐来实现导航规划,从而实现高效的模型和强大的性能。
  • 其它亮点
    本文的实验表明,该方法在RxR数据集上优于先前的SOTA方法BEVBert,并且在R2R数据集上与其相当,同时大大降低了计算成本。作者还开源了代码。值得进一步研究的是如何将该方法应用于其他领域。
  • 相关研究
    在这个领域中,最近的相关研究包括:Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout (ICCV 2019),Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments (CVPR 2018)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问