论文分享 | ACL 2022 & CVPR 2022 | 逐步语言指导和导航指令生成

本次 Fudan DISC 小编分享的三篇论文从不同的角度研究了视觉语言导航领域。第一篇工作主要是综述前人的工作，希望对视觉语言导航的目前进展做出一个归纳整理，无论是对刚入门的人，还是对在这个领域略有心得的人，都是一个不错的参考启发资料。第二篇工作主要是意识到了导航代理在把握任务进程方面的难处，并提出了一种可行的进程监督方式。第三篇工作在语言指令生成方面做出了突破性进展，通过精简视觉输入的信息，仅利用关键性地标和方向动作来生成语言指令，实验结果达到了SOTA结果。

1.视觉语言导航：任务、方法和未来方向的综述（Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions）

本文从任务、评价指标、方法等方面回顾了当前视觉语言导航研究的进展，并介绍了当前VLN研究的局限性和未来工作的机会。视觉语言导航有很多任务集，难度和任务设定各异，视觉语言导航也涉及许多机器学习相关的模型方法，本文对当前的一些VLN数据集和经典方法作了分类介绍。通过阅读本文，可以对视觉语言导航领域有一个总体的了解。

论文地址：https://aclanthology.org/2022.acl-long.524.pdf

2.一次一步：拥有里程碑的长视界视觉语言导航（One Step at a Time: Long-Horizon Vision-and-Language Navigation with Milestones）

当面对长视界视觉语言导航任务时，代理很容易忽视部分指令或者困在一个长指令的中间部分。为了解决上述问题，本文设计了一个模型无关的基于里程碑（milestone）的任务跟踪器（milestone-based task tracker，M-TRACK）来指引代理并模拟其进程。任务跟踪器包含里程碑生成器（milestone builder）和里程碑检查器（milestone tracker）。在ALFRED数据集上，本文的M-TRACK方法应用在两个经典模型上分别提升了33%和52%的未知环境中成功率。

论文地址：https://arxiv.org/abs/2202.07028

3.少即是多：从地标生成对齐的语言指令（Less is More: Generating Grounded Navigation Instructions from Landmarks）

本文研究了从360°室内全景图自动生成导航指令。现存的语言指令生成器往往拥有较差的视觉对齐，这导致了生成指令的过程主要依赖于语言先验和虚幻的物体。本文提出的MARKY-MT5系统利用视线中的地标来解决这个问题，该系统包含地标检测器和指令生成器两个部分。在R2R数据集上，人类寻路员根据人类标注指令寻找导航路径的成功率为75%，而根据MARKY-MT5生成的指令寻找导航路径的成功率仍然有71%，且该指标远高于根据其它生成器生成的指令寻找导航路径的成功率。

论文地址：https://arxiv.org/abs/2111.12872

内容中包含的图片若涉及版权问题，请及时与我们联系删除

论文分享 | ACL 2022 & CVPR 2022 | 逐步语言指导和导航指令生成

1.视觉语言导航：任务、方法和未来方向的综述（Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions）

2.一次一步：拥有里程碑的长视界视觉语言导航（One Step at a Time: Long-Horizon Vision-and-Language Navigation with Milestones）

3.少即是多：从地标生成对齐的语言指令（Less is More: Generating Grounded Navigation Instructions from Landmarks）

评论列表

评论