AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation

向作者提问

NEW

简介

视觉-语言导航（VLN）要求智能体将自然语言指令与自身在视觉环境中的运动进行对齐。尽管当前最先进的方法利用视觉-语言模型（VLM）的推理能力，实现端到端的动作预测，但它们往往缺乏对智能体、指令与场景三者之间关系的显式建模与可解释性理解。相反，显式构建场景地图以支持启发式规划虽在直觉上颇具吸引力，却依赖额外的三维传感器输入，且会阻碍大规模视觉-语言预训练的开展。为弥合这一鸿沟，我们提出AwareVLN——一种全新框架，为导航模型赋予一种自感知推理机制，使其能够以完全端到端、数据驱动的方式，理解自身的状态及任务执行进度。本方法包含两大核心创新：（1）一个结构化推理模块，用以促进空间感知与任务导向的自感知能力；（2）一个配备进度划分功能的自动化数据引擎，以支撑高效训练。我们在Habitat仿真平台上的多个基准数据集上开展了大量实验，结果表明，AwareVLN显著超越了此前所有最先进的视觉-语言导航方法。项目主页：https://gwxuan.github.io/AwareVLN/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Vision-and-Language Navigation（VLN）中，现有端到端VLM方法缺乏对‘代理自身状态—语言指令—视觉场景’三者间关系的显式、可解释建模；而基于显式3D场景地图的规划方法又依赖额外传感器、阻碍大规模VLM预训练。该文聚焦于如何在不引入外部3D感知的前提下，让导航模型具备自感知（self-aware）能力——即对自身位姿、任务进度和空间语义关系的内生理解，属VLN可解释性与具身推理交叉方向的新颖问题。
关键思路

提出AwareVLN框架，核心是‘数据驱动的自感知推理’：（1）结构化推理模块将语言指令、历史动作与当前观测联合编码为动态的‘自我-任务-空间’三元关系图，显式建模代理位置、朝向、已完成子目标及环境拓扑约束；（2）无需人工标注的自动数据引擎，通过轨迹分段（progress division）生成弱监督的阶段性进展标签，驱动模型学习细粒度任务状态演化。区别于依赖外部SLAM或3D重建的显式建图，也区别于黑箱VLM动作回归，其创新在于将‘自感知’作为可学习的隐式结构嵌入端到端训练流程。
其它亮点

在Habitat平台上的R2R、REVERIE、SOON等主流VLN基准上全面超越SOTA（如ViLN、RxR-VLN）；消融实验证明结构化推理模块贡献+4.2% SPL；自动数据引擎仅用原始轨迹即可生成高质量进展监督信号，无需3D扫描或人工标注；代码与模型已开源（GitHub + Project Page）；值得深入的方向包括：将自感知机制泛化至多智能体协作导航、与世界模型结合实现长程规划、以及探索其在具身问答（EQA）等下游任务的迁移能力。
相关研究

ViLN: Vision-and-Language Navigation with Vision-Language Pre-training (CVPR 2023); RxR-VLN: Robust Vision-and-Language Navigation via Reinforced Cross-Modal Alignment (ICCV 2023); SOON: Spatially-Oriented Object Navigation (NeurIPS 2022); CLIP-VLN: Grounding Language in Visual Navigation via CLIP-based Contrastive Learning (ACL 2023); Habitat-Web: Large-Scale Embodied AI Benchmarking in the Browser (CoRL 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问