谷歌、佐治亚理工学院 | Transformer-based Localization from Embodied Dialog with Large-scale Pre-training（经Embodied Dialog大规模预训练的、基于Transformer的位置定位技术）

作者：Meera Hahn，James M. Rehg

简介：本文通过Embodied Dialog的位置定位技术 (LED) 解决了具有挑战性任务。给定来自两个代理的对话，一个在未知环境中导航的观察者和一个试图识别观察者位置的定位器，目标是预测观察者在地图中的最终位置。作者开发了一种新颖的 LED-Bert 架构并提出了一种有效的预训练策略。作者演示了LED泊位的预训练方案，该方案利用大规模网络数据以及其他多模态包含的AI任务数据来学习成功定位LED所需的视觉基础。实验表明：基于图形的场景表示比先前作品中使用的自上而下的 2D 地图更有效，LED Bert不仅实现了SOTA性能、而且显著优于其他学习基线。