Transformers for Image-Goal Navigation

简介

视觉感知和导航已成为体现人工智能领域的主要关注点。我们考虑图像目标导航任务，其中代理人的任务是仅依靠来自机载摄像头的图像，导航到由图像指定的目标。由于这项任务要求具有强大的场景理解、目标导向的规划和长期导航能力，因此特别具有挑战性。大多数现有方法通常学习依赖于通过在线强化学习训练的递归神经网络的导航策略。然而，训练这些策略需要大量的计算资源和时间，并且这些模型的性能在长期导航上并不可靠。在这项工作中，我们提出了一种基于生成变压器的模型，该模型联合建模图像目标、摄像头观察和机器人过去的动作，以预测未来的动作。我们使用最先进的感知模型和导航策略来学习强大的目标条件策略，而无需与环境进行实时交互。我们的模型展示了在长时间范围内捕捉和关联视觉信息的能力，有助于有效的导航。注意：这项工作是作为硕士研究课程的一部分提交的，必须视为此类工作。这仍然是一个早期的正在进行的工作，而不是最终版本。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文旨在解决图像目标导航中长时间跨度导航的问题，提出了一种基于生成Transformer的模型，可以在不需要实时交互的情况下学习鲁棒的目标导航策略。
关键思路

关键思路：论文提出了一种基于生成Transformer的模型，通过联合建模图像目标、相机观察和机器人的过去行动来预测未来行动，从而实现目标导航。该模型能够捕捉和关联长时间跨度的视觉信息，有助于有效的导航。
其它亮点

其他亮点：论文使用最先进的感知模型和导航策略来学习鲁棒的目标条件策略，无需与环境实时交互。实验表明，该模型能够有效地解决长时间跨度导航问题。这是一篇毕业论文，仍处于早期阶段，没有开源代码。
相关研究

相关研究：最近的相关研究包括基于强化学习的循环神经网络导航模型，如PPO、A3C等。此外，还有一些基于视觉和语义信息的导航模型，如VLN、R2R等。

Transformers for Image-Goal Navigation

提问交流

提问交流