NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning

简介

本文介绍了一种名为Navigational Chain-of-Thought（NavCoT）的新策略，旨在通过实现参数高效的域内训练，使自主导航决策成为可能，从而在成本效益方面显著缓解VLN任务和LLM训练语料库之间的领域差距。具体而言，在每个时间步骤中，LLM被提示通过以下方式预测导航思路链：1）作为世界模型，根据指令想象下一个观察结果，2）选择与想象最匹配的候选观察结果，3）基于前几步的推理确定行动。通过为训练构建正式标签，LLM可以学习生成期望和合理的思路链输出，以改善行动决策。在各种训练设置和流行的VLN基准测试（例如Room-to-Room（R2R），Room-across-Room（RxR），Room-for-Room（R4R））上的实验结果表明，NavCoT明显优于直接行动预测变体。通过简单的参数高效微调，我们的NavCoT在R2R数据集上的相对改进率约为7％，超过了最近基于GPT4的方法。我们相信，NavCoT将有助于解锁更多任务自适应和可扩展的LLM-based embodied agents，这对于开发实际的机器人应用程序非常有帮助。代码可在https://github.com/expectorlin/NavCoT上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决视觉语言导航（VLN）中的域差问题，通过提出一种新的策略NavCoT，实现参数高效的领域内训练，使得大型语言模型（LLMs）能够自主导航。
关键思路

NavCoT的关键思路是通过每个时间步骤，让LLM预测导航思维链，即通过想象下一个观察结果、选择最佳观察结果、根据前面的推理确定动作，从而实现自主导航决策。
其它亮点

该方法在多个数据集和VLN基准测试中均取得了显著的优势，相比直接动作预测方法，NavCoT通过简单的参数微调，在R2R数据集上相对提高了7%的性能。此外，该论文还开源了代码。
相关研究

近期的相关研究包括：《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《Reverie: Remote Embodied Visual Referring Expression in Real Indoor Environments》等。

NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning

提问交流

提问交流