OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation

向作者提问

NEW

简介

最近迭代视觉语言导航（IVLN）的进展引入了一种更有意义和实用的VLN范例，通过在场景巡回之间保持代理的记忆。虽然长期记忆更符合VLN任务的持久性质，但如何利用高度非结构化的导航记忆和极度稀疏的监督提出了更多挑战。为此，我们提出了OVER-NAV，旨在超越当前IVLN技术的艺术。特别是，我们提出了将LLM和开放词汇探测器结合起来以提取关键信息并建立多模态信号之间的对应关系。这种机制引入了可靠的跨模态监督，并使得能够在不需要额外注释和重新训练的情况下对未见过的场景进行即时推广。为了充分利用解释的导航数据，我们进一步引入了一种结构化表示形式，编码的Omnigraph，以有效地沿着巡回路线整合多模态信息。伴随着一种新颖的Omnigraph融合机制，OVER-NAV能够从Omnigraph中提取最相关的知识，以进行更准确的导航行动。此外，OVER-NAV无缝支持离散和连续环境，在一个统一的框架下。我们通过广泛的实验证明了OVER-NAV的优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

OVER-NAV论文试图解决如何在Iterative Vision-and-Language Navigation（IVLN）中利用高度非结构化的导航记忆，并实现跨模态监督和对未见过场景的即时泛化的问题。
关键思路

OVER-NAV提出了使用LLMs和开放式词汇探测器来提取关键信息，并建立多模态信号之间的对应关系。同时，OVER-NAV使用编码的Omnigraph来有效地集成多模态信息，并提出了Omnigraph融合机制。此外，OVER-NAV支持离散和连续环境，并在统一框架下进行。
其它亮点

论文的亮点包括使用LLMs和开放式词汇探测器进行跨模态监督，提出了编码的Omnigraph来有效地集成多模态信息，并提出了Omnigraph融合机制。实验使用了多个数据集，并在广泛的实验中证明了OVER-NAV的优越性。
相关研究

最近的相关研究包括：Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout (CVPR 2021)、Vision-and-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks (CVPR 2021)、Learning to Navigate in Complex Environments (ICLR 2021)等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问