Volumetric Environment Representation for Vision-Language Navigation

简介

本文讨论了视觉语言导航（VLN），需要代理根据视觉观察和自然语言指令在3D环境中导航。成功导航的关键在于全面的场景理解。以往的VLN代理使用单眼框架直接提取透视视图的2D特征。虽然简单，但难以捕捉3D几何和语义，导致环境表示不完整。为了实现具有细粒度细节的全面3D表示，我们引入了体积环境表示（VER），将物理世界体素化为结构化的3D单元格。对于每个单元格，VER通过2D-3D采样将多视角2D特征聚合到统一的3D空间中。通过粗到细的特征提取和VER的多任务学习，我们的代理共同预测3D占用、3D房间布局和3D边界框。基于在线收集的VER，我们的代理执行体积状态估计并建立情节性记忆以预测下一步。实验结果表明，我们的多任务学习环境表示在VLN上带来明显的性能提升。我们的模型在VLN基准测试（R2R、REVERIE和R4R）中实现了最先进的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决视觉语言导航（VLN）中的环境表示问题，提出了一种体积环境表示（VER）的方法，以实现对3D环境的全面理解。
关键思路

本文提出了一种新颖的方法——体积环境表示（VER），通过对物理世界进行体素化，将多视角2D特征聚合到统一的3D空间中，从而实现对3D环境的全面表示。
其它亮点

本文提出的VER方法通过多任务学习，联合预测3D占用、3D房间布局和3D边界框，从而实现了对3D环境的全面理解。实验结果表明，该方法在VLN基准测试上取得了最先进的性能。本文使用了R2R、REVERIE和R4R数据集，并提供了开源代码。
相关研究

最近在这个领域中，一些相关的研究包括：Learning to Explore using Active Neural SLAM、Neural SLAM: Learning to Explore with External Memory和ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to Objects。

Volumetric Environment Representation for Vision-Language Navigation

提问交流

提问交流