本次 Fudan DISC 小编分享的三篇论文从不同的角度研究了视觉语言导航领域。第一篇工作主要是综述前人的工作,希望对视觉语言导航的目前进展做出一个归纳整理,无论是对刚入门的人,还是对在这个领域略有心得的人,都是一个不错的参考启发资料。第二篇工作主要是意识到了导航代理在把握任务进程方面的难处,并提出了一种可行的进程监督方式。第三篇工作在语言指令生成方面做出了突破性进展,通过精简视觉输入的信息,仅利用关键性地标和方向动作来生成语言指令,实验结果达到了SOTA结果。
1.视觉语言导航:任务、方法和未来方向的综述(Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions)
本文从任务、评价指标、方法等方面回顾了当前视觉语言导航研究的进展,并介绍了当前VLN研究的局限性和未来工作的机会。视觉语言导航有很多任务集,难度和任务设定各异,视觉语言导航也涉及许多机器学习相关的模型方法,本文对当前的一些VLN数据集和经典方法作了分类介绍。通过阅读本文,可以对视觉语言导航领域有一个总体的了解。
论文地址:https://aclanthology.org/2022.acl-long.524.pdf
2.一次一步:拥有里程碑的长视界视觉语言导航(One Step at a Time: Long-Horizon Vision-and-Language Navigation with Milestones)
当面对长视界视觉语言导航任务时,代理很容易忽视部分指令或者困在一个长指令的中间部分。为了解决上述问题,本文设计了一个模型无关的基于里程碑(milestone)的任务跟踪器(milestone-based task tracker,M-TRACK)来指引代理并模拟其进程。任务跟踪器包含里程碑生成器(milestone builder)和里程碑检查器(milestone tracker)。在ALFRED数据集上,本文的M-TRACK方法应用在两个经典模型上分别提升了33%和52%的未知环境中成功率。
论文地址:https://arxiv.org/abs/2202.07028
3.少即是多:从地标生成对齐的语言指令(Less is More: Generating Grounded Navigation Instructions from Landmarks)
本文研究了从360°室内全景图自动生成导航指令。现存的语言指令生成器往往拥有较差的视觉对齐,这导致了生成指令的过程主要依赖于语言先验和虚幻的物体。本文提出的MARKY-MT5系统利用视线中的地标来解决这个问题,该系统包含地标检测器和指令生成器两个部分。在R2R数据集上,人类寻路员根据人类标注指令寻找导航路径的成功率为75%,而根据MARKY-MT5生成的指令寻找导航路径的成功率仍然有71%,且该指标远高于根据其它生成器生成的指令寻找导航路径的成功率。
论文地址:https://arxiv.org/abs/2111.12872
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢