Volumetric Environment Representation for Vision-Language Navigation

2024年03月21日
  • 简介
    本文讨论了视觉语言导航(VLN),需要代理根据视觉观察和自然语言指令在3D环境中导航。成功导航的关键在于全面的场景理解。以往的VLN代理使用单眼框架直接提取透视视图的2D特征。虽然简单,但难以捕捉3D几何和语义,导致环境表示不完整。为了实现具有细粒度细节的全面3D表示,我们引入了体积环境表示(VER),将物理世界体素化为结构化的3D单元格。对于每个单元格,VER通过2D-3D采样将多视角2D特征聚合到统一的3D空间中。通过粗到细的特征提取和VER的多任务学习,我们的代理共同预测3D占用、3D房间布局和3D边界框。基于在线收集的VER,我们的代理执行体积状态估计并建立情节性记忆以预测下一步。实验结果表明,我们的多任务学习环境表示在VLN上带来明显的性能提升。我们的模型在VLN基准测试(R2R、REVERIE和R4R)中实现了最先进的性能。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决视觉语言导航(VLN)中的环境表示问题,提出了一种体积环境表示(VER)的方法,以实现对3D环境的全面理解。
  • 关键思路
    本文提出了一种新颖的方法——体积环境表示(VER),通过对物理世界进行体素化,将多视角2D特征聚合到统一的3D空间中,从而实现对3D环境的全面表示。
  • 其它亮点
    本文提出的VER方法通过多任务学习,联合预测3D占用、3D房间布局和3D边界框,从而实现了对3D环境的全面理解。实验结果表明,该方法在VLN基准测试上取得了最先进的性能。本文使用了R2R、REVERIE和R4R数据集,并提供了开源代码。
  • 相关研究
    最近在这个领域中,一些相关的研究包括:Learning to Explore using Active Neural SLAM、Neural SLAM: Learning to Explore with External Memory和ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to Objects。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问