- 简介这篇文章讨论了Vision-Language Navigation(VLN)的问题,即如何通过遵循语言指令到达目标位置。成功的导航关键在于将指令中的地标与不同的视觉观察相对齐。然而,之前的VLN代理在准确的模态对齐方面表现不佳,尤其是在未知场景中,因为它们从有限的导航数据中学习,并缺乏足够的开放世界对齐知识。因此,本文提出了一种新的VLN范式,称为COrrectable LaNdmark DiScOvery via Large ModEls(CONSOLE)。在CONSOLE中,作者将VLN视为一个开放世界的序列地标发现问题,并引入了一种基于两个大型模型ChatGPT和CLIP的新颖可纠正的地标发现方案。具体来说,作者使用ChatGPT提供丰富的开放世界地标共现常识,并基于这些常识先验进行CLIP驱动的地标发现。为了减轻由于缺乏视觉约束而导致的先验噪声,作者引入了一个可学习的共现评分模块,根据实际观察纠正每个共现的重要性,以实现准确的地标发现。作者还为我们的框架与不同的VLN代理进行了优雅的结合,设计了一种观察增强策略,利用纠正后的地标特征获取增强的观察特征以进行动作决策。在多个流行的VLN基准测试(R2R、REVERIE、R4R、RxR)上进行了广泛的实验,结果表明CONSOLE比强基线方法具有显著的优越性。特别是,在R2R和R4R的未见场景中,CONSOLE建立了新的最先进的结果。代码可在https://github.com/expectorlin/CONSOLE上获得。
- 图表
- 解决问题本文旨在解决Vision-Language Navigation (VLN)中的一个重要问题,即在未知场景下,如何准确地将语言指令中的地标与视觉观察对齐。
- 关键思路本文提出了一种新的VLN范式,称为COrrectable LaNdmark DiScOvery via Large ModEls (CONSOLE),将VLN视为一个开放式的序列地标发现问题。该方法基于ChatGPT和CLIP这两个大型模型,提供丰富的开放式地标共现常识,并基于这些常识进行CLIP驱动的地标发现。为了准确地发现地标,本文引入了一个可学习的共现评分模块,根据实际观察纠正每个共现的重要性。同时,还设计了一种观察增强策略,将该框架与不同的VLN代理进行优雅的组合,利用纠正后的地标特征获取增强的观察特征进行动作决策。
- 其它亮点本文在多个流行的VLN基准测试中进行了广泛的实验,展示了CONSOLE相对于强基线的显著优越性。特别地,在未知场景下,CONSOLE在R2R和R4R上建立了新的最先进结果。此外,本文还提供了开源代码。
- 近期在这个领域中,还有一些相关的研究,例如:Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout;Learning to Navigate in Cities Without a Map;Embodied Vision-and-Language Navigation with Dynamic Convolutional Filters。
沙发等你来抢
去评论
评论
沙发等你来抢