GOMAA-Geo: GOal Modality Agnostic Active Geo-localization

简介

我们考虑了主动地理定位（AGL）的任务，其中代理使用在空中导航期间观察到的一系列视觉线索来查找通过多个可能的模态指定的目标。这可以模拟参与搜索和救援操作的无人机在区域内导航，随着其前进观察到一系列空中图像。AGL任务涉及两个重要的挑战。首先，代理必须处理一个目标规范的多个模态（例如，通过自然语言描述），而搜索线索是以其他模态（空中图像）提供的。第二个挑战是有限的定位时间（例如，有限的电池寿命，紧急情况），因此必须尽可能有效地定位目标，即代理必须在搜索目标时有效地利用其连续观察到的空中视图。为了解决这些挑战，我们提出了GOMAA-Geo——一个目标模态不可知的主动地理定位代理——用于不同目标模态之间的零样本泛化。我们的方法结合了跨模态对比学习，以对齐跨模态的表示，以及基于监督的基础模型预训练和强化学习，以获得高度有效的导航和定位策略。通过广泛的评估，我们表明GOMAA-Geo优于其他可学习方法，并且它可以在数据集之间进行泛化，例如，到没有在训练期间看到任何灾难情景的灾难区域，以及目标模态，例如，到地面级别的图像或文本描述，尽管它只是被训练为将目标指定为空中视图。代码和模型可在https://github.com/mvrl/GOMAA-Geo/tree/main上公开获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决AGL任务中的两个挑战：多模态目标定位和有限的定位时间。并且提出了GOMAA-Geo方法，旨在实现不同目标模态之间的零样本泛化。
关键思路

论文提出了一种结合跨模态对比学习、监督预训练和强化学习的方法，使得在搜索目标时能够高效利用顺序观察到的航拍图像。同时，GOMAA-Geo方法可以实现不同目标模态之间的零样本泛化。
其它亮点

论文的实验表明，GOMAA-Geo方法在多个数据集和目标模态下均优于其他可学习方法，并且可以泛化到没有在训练中见过的场景。论文提供了代码和模型，并且值得进一步研究。
相关研究

最近的相关研究包括：'Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout'，'Learning to Explore using Active Neural SLAM'等。

GOMAA-Geo: GOal Modality Agnostic Active Geo-localization

提问交流

提问交流