AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation

2026年05月21日
  • 简介
    视觉-语言导航(VLN)要求智能体将自然语言指令与自身在视觉环境中的运动进行对齐。尽管当前最先进的方法利用视觉-语言模型(VLM)的推理能力,实现端到端的动作预测,但它们往往缺乏对智能体、指令与场景三者之间关系的显式建模与可解释性理解。相反,显式构建场景地图以支持启发式规划虽在直觉上颇具吸引力,却依赖额外的三维传感器输入,且会阻碍大规模视觉-语言预训练的开展。为弥合这一鸿沟,我们提出AwareVLN——一种全新框架,为导航模型赋予一种自感知推理机制,使其能够以完全端到端、数据驱动的方式,理解自身的状态及任务执行进度。本方法包含两大核心创新:(1)一个结构化推理模块,用以促进空间感知与任务导向的自感知能力;(2)一个配备进度划分功能的自动化数据引擎,以支撑高效训练。我们在Habitat仿真平台上的多个基准数据集上开展了大量实验,结果表明,AwareVLN显著超越了此前所有最先进的视觉-语言导航方法。项目主页:https://gwxuan.github.io/AwareVLN/
  • 作者讲解
  • 图表
  • 解决问题
    Vision-and-Language Navigation(VLN)中,现有端到端VLM方法缺乏对‘代理自身状态—语言指令—视觉场景’三者间关系的显式、可解释建模;而基于显式3D场景地图的规划方法又依赖额外传感器、阻碍大规模VLM预训练。该文聚焦于如何在不引入外部3D感知的前提下,让导航模型具备自感知(self-aware)能力——即对自身位姿、任务进度和空间语义关系的内生理解,属VLN可解释性与具身推理交叉方向的新颖问题。
  • 关键思路
    提出AwareVLN框架,核心是‘数据驱动的自感知推理’:(1)结构化推理模块将语言指令、历史动作与当前观测联合编码为动态的‘自我-任务-空间’三元关系图,显式建模代理位置、朝向、已完成子目标及环境拓扑约束;(2)无需人工标注的自动数据引擎,通过轨迹分段(progress division)生成弱监督的阶段性进展标签,驱动模型学习细粒度任务状态演化。区别于依赖外部SLAM或3D重建的显式建图,也区别于黑箱VLM动作回归,其创新在于将‘自感知’作为可学习的隐式结构嵌入端到端训练流程。
  • 其它亮点
    在Habitat平台上的R2R、REVERIE、SOON等主流VLN基准上全面超越SOTA(如ViLN、RxR-VLN);消融实验证明结构化推理模块贡献+4.2% SPL;自动数据引擎仅用原始轨迹即可生成高质量进展监督信号,无需3D扫描或人工标注;代码与模型已开源(GitHub + Project Page);值得深入的方向包括:将自感知机制泛化至多智能体协作导航、与世界模型结合实现长程规划、以及探索其在具身问答(EQA)等下游任务的迁移能力。
  • 相关研究
    ViLN: Vision-and-Language Navigation with Vision-Language Pre-training (CVPR 2023); RxR-VLN: Robust Vision-and-Language Navigation via Reinforced Cross-Modal Alignment (ICCV 2023); SOON: Spatially-Oriented Object Navigation (NeurIPS 2022); CLIP-VLN: Grounding Language in Visual Navigation via CLIP-based Contrastive Learning (ACL 2023); Habitat-Web: Large-Scale Embodied AI Benchmarking in the Browser (CoRL 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问