PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation

简介

视觉和语言导航是需要智能体根据自然语言指令进行导航的任务。最近的方法在每一步预测构建拓扑地图上的子目标，以实现长期行动规划。然而，当使用类似GCN的模型来支持这种高级预测时，它们会遭受高计算成本的困扰。在这项工作中，我们提出了一种替代方法，通过考虑指令和有向保真轨迹之间的对齐来促进导航规划。有向保真轨迹是指从初始节点到有向图上候选位置的路径，不经过绕路。这种规划策略可以实现高效的模型，并取得强大的性能。具体而言，我们引入了一个有向图来说明环境中探索的区域，强调方向性。然后，我们首先将轨迹表示定义为有向边特征的序列，这些特征是根据相应的方向从全景图中提取的。最后，我们在导航过程中评估和比较指令和不同轨迹之间的对齐，以确定下一个导航目标。我们的方法在RxR数据集上优于之前的SOTA方法BEVBert，并且在R2R数据集上具有可比性，同时大大降低了计算成本。代码可在https://github.com/iSEE-Laboratory/VLN-PRET获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文研究的问题是如何在自然语言指令下进行视觉和语言导航，解决现有方法在高级预测方面的计算成本高的问题。
关键思路

本文提出了一种新的导航规划策略，通过考虑指令和有向保真轨迹之间的对齐来实现导航规划，从而实现高效的模型和强大的性能。
其它亮点

本文的实验表明，该方法在RxR数据集上优于先前的SOTA方法BEVBert，并且在R2R数据集上与其相当，同时大大降低了计算成本。作者还开源了代码。值得进一步研究的是如何将该方法应用于其他领域。
相关研究

在这个领域中，最近的相关研究包括：Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout (ICCV 2019)，Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments (CVPR 2018)等。

PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation

提问交流

提问交流