LLMGeo: Benchmarking Large Language Models on Image Geolocation In-the-wild

2024年05月30日
  • 简介
    图像地理定位是各种图像理解应用中的关键任务。然而,现有的方法在分析具有挑战性的野外图像时经常失败。受到多模态语言模型卓越的背景知识的启发,我们使用新颖的图像数据集和全面的评估框架系统评估它们的地理定位能力。我们首先通过Google街景收集来自各个国家的图像。然后,我们对闭源和开源的多模态语言模型进行了无需训练和基于训练的评估。我们对闭源和开源的多模态语言模型进行了无需训练和基于训练的评估。我们的研究结果表明,闭源模型表现出卓越的地理定位能力,而开源模型通过微调可以达到可比较的性能。
  • 图表
  • 解决问题
    本论文旨在评估多模态语言模型在图像地理定位方面的能力,并提出了一个新的图像数据集和综合评估框架。
  • 关键思路
    通过对闭源和开源多模态语言模型进行无需训练和有监督微调的评估,发现闭源模型表现更优,而开源模型经过微调后也能达到相当水平。
  • 其它亮点
    论文收集了来自不同国家的Google街景图像,并提出了一个综合评估框架。实验结果表明,多模态语言模型在图像地理定位方面具有很大的潜力。值得深入研究的是,闭源模型的表现更优,但开源模型通过微调后也能达到相当水平。
  • 相关研究
    最近的相关研究包括:1)使用深度学习模型进行图像地理定位的研究;2)使用多模态语言模型进行图像理解的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论