Vision-and-Language Navigation Generative Pretrained Transformer

简介

在“视觉与语言导航（VLN）”领域中，智能体被赋予通过语言指令导航真实场景的任务。使智能体在整个导航过程中遵循指令是VLN领域内的一项重大挑战。为了解决这一挑战，常见的方法通常依赖于编码器来明确记录过去的位置和动作，这增加了模型的复杂性和资源消耗。我们提出的“视觉与语言导航生成预训练变换器（VLN-GPT）”采用变换器解码器模型（GPT2）来建模轨迹序列依赖关系，从而避免了历史编码模块的需求。这种方法通过轨迹序列允许直接访问历史信息，提高了效率。此外，我们的模型将训练过程分为离线预训练和模仿学习以及在线微调和强化学习。这种区分允许更专注的训练目标和更好的性能。在VLN数据集上进行的性能评估表明，VLN-GPT超越了复杂的基于编码器的最新模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决Vision-and-Language Navigation (VLN)领域中，代理人在遵循语言指令的过程中需要记录历史位置和动作，从而增加模型复杂度和资源消耗的问题。
关键思路

采用transformer decoder模型(GPT2)来建模轨迹序列依赖关系，避免使用历史编码模块，直接通过轨迹序列访问历史信息，提高效率。此外，将训练过程分为离线预训练和在线微调两个阶段，以获得更专注的训练目标和更好的性能。
其它亮点

实验表明，与复杂的基于编码器的模型相比，VLN-GPT在VLN数据集上表现更好。此外，该论文的模型设计和训练过程值得关注，同时也提供了开源代码。
相关研究

在VLN领域中，最近的相关研究包括：Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout (ICLR 2021)、Object-Oriented Navigation Using Natural Language Instructions with Graph-Based Exploration (AAAI 2021)等。

Vision-and-Language Navigation Generative Pretrained Transformer

提问交流

提问交流