Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts

2024年06月04日
  • 简介
    当前的视觉语言导航(VLN)任务主要采用文本指令来指导代理。然而,由于本质上是抽象的,同一文本指令可能与不同的视觉信号相关联,导致严重的歧义,并限制了从用户到代理的视觉领域的先前知识的转移。为了填补这一空白,我们提出了一种新颖的任务——多模态提示的视觉语言导航(VLN-MP),它通过将自然语言和图像集成到指令中来增强传统的VLN。VLN-MP不仅通过有效处理仅文本提示来保持向后兼容性,而且在不同数量和相关性的视觉提示方面始终显示出优势。可能的视觉提示形式包括精确和相似的对象图像,提供了适应性和多样性,适用于不同的导航场景。为了在统一的框架下评估VLN-MP,我们实现了一个新的基准,它提供了:(1)一个无需训练的流水线,将文本指令转换为具有地标图像的多模态形式;(2)不同下游任务的多模态指令的多样数据集;(3)一个新颖的模块,用于处理各种图像提示,以便与最先进的VLN模型无缝集成。对四个VLN基准(R2R、RxR、REVERIE、CVDN)的广泛实验表明,引入视觉提示显著提高了导航性能。在保持仅文本提示的效率的同时,VLN-MP使代理能够在预先探索的环境中导航,并且胜过基于文本的模型,显示了它的广泛适用性。
  • 图表
  • 解决问题
    本文旨在解决现有的视觉语言导航任务中存在的指令抽象性问题,提出了一种结合自然语言和图像的多模态提示的视觉语言导航任务(VLN-MP)。该任务不仅可以有效处理仅包含文本提示的情况,还可以通过不同形式的视觉提示提高导航性能。
  • 关键思路
    本文提出了一种新的多模态提示的视觉语言导航任务(VLN-MP),通过在指令中加入图像提示来提高导航性能。该任务通过多模态形式的指令提供了更多的导航信息,同时保持了与传统任务的兼容性。
  • 其它亮点
    本文提出了一种新的视觉语言导航任务(VLN-MP),并提供了一个新的基准数据集,包含了多模态指令的多个下游任务。实验表明,与传统的文本导航模型相比,加入图像提示可以显著提高导航性能。此外,本文还提供了一个处理不同形式的图像提示的模块,并开源了代码。
  • 相关研究
    在相关研究方面,最近的一些研究主要集中在视觉语言导航任务的模型设计和数据集构建方面。例如,论文《R2R: A Vision-and-Language Navigation Task》提出了一个新的视觉语言导航任务,并提供了一个基准数据集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论