Navigation Instruction Generation with BEV Perception and Large Language Models

2024年07月21日
  • 简介
    导航指令生成需要具有体现的代理来描述导航路线,因此在机器人技术和人机交互领域一直备受关注。现有研究直接将2D透视观察序列映射到路线描述中,虽然简单,但忽略了3D环境的几何信息和物体语义。为解决这些挑战,本文提出了BEVInstructor,将鸟瞰图(BEV)特征融入多模态大语言模型(MLLMs)中进行指令生成。具体而言,BEVInstructor构建了一个PerspectiveBEVVisual编码器,通过融合BEV和透视特征来理解3D环境。为了利用MLLMs的强大语言能力,将融合的表示用作MLLMs的视觉提示,并提出了透视-BEV提示调整以进行参数高效更新。基于透视-BEV提示,BEVInstructor进一步采用实例引导的迭代细化管道,以逐步改进指令。BEVInstructor在各种数据集(即R2R,REVERIE和UrbanWalk)上取得了令人印象深刻的表现。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决导航指令生成中忽略三维环境几何信息和对象语义的问题。当前的研究直接将二维视角观察序列映射到路线描述中,忽略了三维环境的信息。
  • 关键思路
    本论文提出了BEVInstructor,将Bird's Eye View(BEV)特征与多模式大语言模型(MLLMs)相结合,用于指令生成。BEVInstructor构建了一个PerspectiveBEVVisual编码器,通过融合BEV和视角特征来理解三维环境。利用MLLMs强大的语言能力,将融合表示用作MLLMs的视觉提示,并提出了透视-BEV提示调整以进行参数有效更新。基于透视-BEV提示,BEVInstructor进一步采用实例引导的迭代细化管道,以逐步改进指令。
  • 其它亮点
    论文在多个数据集(R2R,REVERIE和UrbanWalk)上取得了卓越的性能。实验设计详细,使用的数据集广泛,代码已开源。透视-BEV提示调整和实例引导的迭代细化管道是本论文的创新点。
  • 相关研究
    最近的相关研究包括:Vision-and-Language Navigation(VLN)和Embodied Question Answering(EQA)。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问