视觉语言导航(VLN)是一个新兴的研究领域,旨在构建一种可以用自然语言与人类交流并在真实的3D环境中导航的具身代理,与计算机视觉、自然语言处理和机器人等研究领域紧密关联。视觉语言导航任务要求构建的具身代理能够根据语言指令推理出导航路径,然而,稀疏的语言指令数据集限制着导航模型的性能,研究者们又提出了一些能够根据导航路径输出接近于人类标注质量的语言指令的模型。
本次DISC小编将分享ACL2022和CVPR2022的三篇论文,第一篇论文是一篇综述,第二篇论文提出了一种监督把控当前导航进程的方法,第三篇文章提出了一套根据导航路径自动生成描述这条路径的语言指令的方法。
文章概览
1.视觉语言导航:任务、方法和未来方向的综述(Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions)
本文从任务、评价指标、方法等方面回顾了当前视觉语言导航研究的进展,并介绍了当前VLN研究的局限性和未来工作的机会。视觉语言导航有很多任务集,难度和任务设定各异,视觉语言导航也涉及许多机器学习相关的模型方法,本文对当前的一些VLN数据集和经典方法作了分类介绍。通过阅读本文,可以对视觉语言导航领域有一个总体的了解。
论文地址:https://aclanthology.org/2022.acl-long.524.pdf
2.一次一步:拥有里程碑的长视界视觉语言导航(One Step at a Time: Long-Horizon Vision-and-Language Navigation with Milestones)
当面对长视界视觉语言导航任务时,代理很容易忽视部分指令或者困在一个长指令的中间部分。为了解决上述问题,本文设计了一个模型无关的基于里程碑(milestone)的任务跟踪器(milestone-based task tracker,M-TRACK)来指引代理并模拟其进程。任务跟踪器包含里程碑生成器(milestone builder)和里程碑检查器(milestone tracker)。在ALFRED数据集上,本文的M-TRACK方法应用在两个经典模型上分别提升了33%和52%的未知环境中成功率。
论文地址:https://arxiv.org/abs/2202.07028
3.少即是多:从地标生成对齐的语言指令(Less is More: Generating Grounded Navigation Instructions from Landmarks)
本文研究了从360°室内全景图自动生成导航指令。现存的语言指令生成器往往拥有较差的视觉对齐,这导致了生成指令的过程主要依赖于语言先验和虚幻的物体。本文提出的MARKY-MT5系统利用视线中的地标来解决这个问题,该系统包含地标检测器和指令生成器两个部分。在R2R数据集上,人类寻路员根据人类标注指令寻找导航路径的成功率为75%,而根据MARKY-MT5生成的指令寻找导航路径的成功率仍然有71%,且该指标远高于根据其它生成器生成的指令寻找导航路径的成功率。
论文地址:https://arxiv.org/abs/2111.12872
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢