Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation

简介

从图像中定位精确位置是计算机视觉和信息检索中一个具有挑战性的问题。传统方法通常采用分类或检索。分类将地球表面划分为网格单元，并根据图像对其进行分类。检索通过将图像与图像-位置对数据库进行匹配来识别位置。然而，基于分类的方法受到单元格大小的限制，无法产生精确的预测，而基于检索的系统通常具有较差的搜索质量，并且在不同的尺度和聚合水平下全球景观的覆盖范围不足。为了克服这些缺点，我们提出了Img2Loc，这是一个将图像地理定位重新定义为文本生成任务的新系统。这是通过使用先进的大型多模态模型（如GPT4V或LLaVA）与检索增强的生成来实现的。Img2Loc首先使用基于CLIP的表示生成基于图像的坐标查询数据库。然后，它将查询结果与图像本身独特地组合，形成为LMMs定制的精心提示。在Im2GPS3k和YFCC4k等基准数据集上进行测试时，Img2Loc不仅超越了以前最先进模型的性能，而且在没有任何模型训练的情况下做到了这一点。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决图像地理定位的精确性问题，传统方法分类和检索都有局限性，本文提出了一种基于文本生成的新方法。
关键思路

Img2Loc将图像地理定位重新定义为文本生成任务，利用CLIP表示生成基于图像的坐标查询数据库，并将查询结果与图像本身结合，形成适用于大型多模态模型的复杂提示。
其它亮点

Img2Loc在Im2GPS3k和YFCC4k等基准数据集上的表现不仅超过了之前的最先进模型，而且没有进行任何模型训练。本文的亮点还包括实验设计、使用的数据集以及开源代码等。
相关研究

与本文相关的研究包括传统的分类和检索方法，以及使用深度学习的其他图像地理定位方法，例如GeoDesc、DeepGeo和LGL。

Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation

提问交流

提问交流