- 简介大多数视觉语言导航算法往往会出现决策错误,主要是由于缺乏视觉常识和不足的推理能力。为了解决这个问题,本文提出了一种分层空间接近性推理(HSPR)模型。首先,我们设计了一个场景理解辅助任务(SUAT),以帮助代理构建分层空间接近性的知识库,以进行推理导航。具体来说,该任务利用全景视图和对象特征来识别导航环境中的区域,并揭示区域、对象和区域对象对之间的相邻关系。其次,我们通过代理-环境交互动态构建语义拓扑地图,并提出了一种基于该地图的多步推理导航算法(MRNA)。该算法利用构建的接近性知识库不断规划从一个区域到另一个区域的各种可行路径,实现更高效的探索。此外,我们引入了接近性自适应注意力模块(PAAM)和残差融合方法(RFM),使模型能够获得更准确的导航决策信心。最后,我们在公开可用的数据集(包括REVERIE、SOON、R2R和R4R)上进行实验,验证了所提出方法的有效性。
- 图表
- 解决问题本论文旨在解决Vision-and-Language Navigation(VLN)算法中存在的决策错误问题,提出了一种基于Hierarchical Spatial Proximity Reasoning(HSPR)模型的解决方案。
- 关键思路该论文提出了一种场景理解辅助任务(Scene Understanding Auxiliary Task,SUAT),通过利用全景视图和物体特征来识别导航环境中的区域,并揭示区域、物体和区域-物体对之间的邻接关系,从而构建了一个层次空间接近度的知识库,以进行导航推理。
- 其它亮点该论文还引入了Proximity Adaptive Attention Module(PAAM)和Residual Fusion Method(RFM),以提高模型的导航决策置信度。实验结果表明,该方法在公开数据集上取得了良好的性能,并且开源了代码。
- 在该领域的相关研究包括:REVERIE、SOON、R2R和R4R等数据集,以及使用深度学习方法的其他导航算法,如Seq2Seq、Transformer等。
沙发等你来抢
去评论
评论
沙发等你来抢