- 简介本文介绍了一种名为Navigational Chain-of-Thought(NavCoT)的新策略,旨在通过实现参数高效的域内训练,使自主导航决策成为可能,从而在成本效益方面显著缓解VLN任务和LLM训练语料库之间的领域差距。具体而言,在每个时间步骤中,LLM被提示通过以下方式预测导航思路链:1)作为世界模型,根据指令想象下一个观察结果,2)选择与想象最匹配的候选观察结果,3)基于前几步的推理确定行动。通过为训练构建正式标签,LLM可以学习生成期望和合理的思路链输出,以改善行动决策。在各种训练设置和流行的VLN基准测试(例如Room-to-Room(R2R),Room-across-Room(RxR),Room-for-Room(R4R))上的实验结果表明,NavCoT明显优于直接行动预测变体。通过简单的参数高效微调,我们的NavCoT在R2R数据集上的相对改进率约为7%,超过了最近基于GPT4的方法。我们相信,NavCoT将有助于解锁更多任务自适应和可扩展的LLM-based embodied agents,这对于开发实际的机器人应用程序非常有帮助。代码可在https://github.com/expectorlin/NavCoT上获得。
-
- 图表
- 解决问题本文旨在解决视觉语言导航(VLN)中的域差问题,通过提出一种新的策略NavCoT,实现参数高效的领域内训练,使得大型语言模型(LLMs)能够自主导航。
- 关键思路NavCoT的关键思路是通过每个时间步骤,让LLM预测导航思维链,即通过想象下一个观察结果、选择最佳观察结果、根据前面的推理确定动作,从而实现自主导航决策。
- 其它亮点该方法在多个数据集和VLN基准测试中均取得了显著的优势,相比直接动作预测方法,NavCoT通过简单的参数微调,在R2R数据集上相对提高了7%的性能。此外,该论文还开源了代码。
- 近期的相关研究包括:《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《Reverie: Remote Embodied Visual Referring Expression in Real Indoor Environments》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流