在视觉语言导航(VLN)任务中,需要智能体感知自身的朝向和环境中的视觉信息,遵循给出的语言指令完成导航任务。在经典的模型方法中,朝向特征往往被编码为一个向量与视觉图像向量合并后视作一种特征信息用于后续推理。本次分享COLING2022和ECCV2022的两篇论文,这两篇论文都意识到了将朝向和图像向量拼接处理的简单操作是不足够的,它们都提出了解耦方法,但它们使用了不同的方法分别提高朝向(orientation)和视觉(vision)分支的性能。
文章概览
1.视觉语言导航中学习方向和视觉信号(LOViS: Learning Orientation and Visual Signals for Vision and Language Navigation)
本文设计了一个拥有显式方向模块和视觉模块的智能体,这些模块学习将语言指令中提及的空间信息、地标(landmark)信息与视觉环境对齐。另外,为了加强智能体的空间推理能力和视觉感知能力,本文设计了特定的预训练任务去提升每个模块的性能。本文在R2R和R4R数据集上评测了提出的方法,并在两个数据集上都达到了SoTA效果。
论文地址:https://arxiv.org/pdf/2209.12723.pdf
2.视觉语言中根据解耦标签学习解纠缠(Learning Disentanglement with Decoupled Labels for Vision-Language Navigation )
本文首先人工补充了R2R数据集的地标和动作感知标签,以期提供每个视点更细粒度的信息。另外,本文提出了一种解耦标签生成模块来为增广数据训练和强化学习阶段提供伪标签。而为了利用人工标注的每视点的地标和动作标签,本文设计了一个解耦解码模块来处理不同种类的特征并帮助对齐多模态。本文将提出的方法应用在LSTM基底和Transformer基底的基准模型上,在R2R和R4R数据集上的实验结果达到了SoTA效果。
论文地址:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136960305.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢