MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains

2024年05月17日
  • 简介
    在“视觉语言导航(VLN)”任务中,智能体需要按照自然语言指令导航到目的地。虽然基于学习的方法是该任务的主要解决方案,但它们存在高训练成本和缺乏可解释性的问题。最近,大型语言模型(LLM)由于其强大的泛化能力,已成为VLN的有前途的工具。然而,现有的基于LLM的方法在记忆构建和导航策略的多样性方面存在局限性。为了解决这些挑战,我们提出了一系列技术。首先,我们引入了一种方法来维护一个拓扑地图,其中存储了导航历史记录,保留了关于视点、物体及其空间关系的信息。该地图也作为全局动作空间。此外,我们提出了“思维导航链”模块,利用人类导航示例来丰富导航策略的多样性。最后,我们建立了一个流水线,将导航记忆和策略与感知和行动预测模块相结合。在REVERIE和R2R数据集上的实验结果表明,我们的方法有效地增强了LLM的导航能力,并提高了导航推理的可解释性。
  • 图表
  • 解决问题
    本论文旨在解决Vision-and-Language Navigation (VLN)任务中,学习成本高、可解释性差的问题,提出一种基于Large Language Models (LLMs)的解决方案。同时,针对LLM方法中存在的记忆构建和导航策略多样性不足的问题进行优化。
  • 关键思路
    论文提出了一种维护拓扑地图的方法,存储导航历史信息,包括视角、物体及它们之间的空间关系,作为全局行动空间。此外,引入Navigation Chain of Thoughts模块,利用人类导航示例丰富导航策略多样性。最后,将导航记忆和策略与感知和动作预测模块相结合,形成一个完整的管道。
  • 其它亮点
    论文在REVERIE和R2R数据集上进行了实验,结果表明该方法有效提高了LLM的导航能力,并提高了导航推理的可解释性。值得关注的是,本文提出的Navigation Chain of Thoughts模块可以增加导航策略的多样性,对于VNL任务有一定的启示意义。
  • 相关研究
    近期在这个领域中,还有一些相关研究,如《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《Embodied Vision-and-Language Navigation with Dynamic Convolutional Filters》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论