【标题】Reinforced Structured State-Evolution for Vision-Language Navigation

【作者团队】Jinyu Chen, Chen Gao, Erli Meng, Qiong Zhang, Si Liu

【发表日期】2022.5.26

【论文链接】https://arxiv.org/pdf/2204.09280v2.pdf

【推荐理由】视觉和语言导航(VLN)任务要求具体化的代理按照自然语言指令导航到远程位置。先前的方法通常采用序列模型(例如Transformer和LSTM)作为导航器。在这样的范例中,序列模型通过保持的导航状态预测每一步的动作,导航状态通常表示为一维向量。然而,由于所维护的向量基本上是非结构化的,因此对于具体导航任务的关键导航线索(即,对象级环境布局)被丢弃。本文提出了一种新的结构化状态演化(SEvol)模型,以有效地维护VLN的环境布局线索,使用基于图形的特征来表示导航状态,而不是基于向量的状态。因此,设计了一个强化布局线索挖掘器(RLM),通过定制的强化学习策略挖掘和检测用于长期导航的最关键的布局图。此外,提出了结构化演化模块(SEM)以在导航期间保持基于结构化图的状态,其中状态被逐渐演化以学习对象级时空关系。在R2R和R4R数据集上的实验表明,所提出的SEvol模型通过大幅度提高了VLN模型的性能,例如,在R2R测试集上,NvEM的SPL绝对精度为+3%,EnvDrop的SPL精度为+8%。