GS-QA: A Benchmark for Geospatial Question Answering

向作者提问

NEW

简介

大语言模型（LLMs）的最新进展显著提升了问答（QA）任务的性能。为应对问答系统评估这一挑战，学界已陆续推出若干标准化评测基准。本研究聚焦于地理空间问答（geospatial QA）问题，其典型场景是存在海量地理空间数据，这些数据以空间数据库或其他形式存储。现有地理空间问答评测基准普遍存在诸多局限：问题数量稀少、支持的空间谓词类型有限、输出形式单一、且缺乏对多源信息协同推理能力的考察。为此，我们提出了GS-QA——一个可扩展的地理空间问答评测基准。该基准基于OpenStreetMap（OSM）与维基百科数据构建，共包含2800组问答对，覆盖28类问题模板，涵盖广泛的空间实体类型、空间谓词（包括方向性谓词及“朝向”类过滤谓词）以及多样化的答案类型（如实体名称、地理位置坐标、距离、方向、计数值，以及聚合计算所得的面积与长度）。GS-QA的一个关键特性在于，部分问题需融合来自多个数据源的信息进行联合推理，例如，同时利用OSM提供的地理空间信息与维基百科提供的事实性知识。此外，GS-QA配备了一套全面的评估方法体系，将传统基于文本的问答评价指标（如准确率、F1值等）与地理空间领域特有指标（如位置距离误差、方位角误差）有机结合。我们基于三类大语言模型（GPT-4o、Claude Sonnet 4.6 和 Ministral-3），结合直接提示（direct prompting）、检索增强生成（RAG）和文本到SQL（text-to-SQL）等多种技术路径，实现了九种面向地理空间问答的LLM基线方法。实验结果表明：当前方法在处理仅涉及简单空间谓词且答案为实体名称的问答任务时表现尚可；但一旦问题涉及复杂空间谓词、需输出数值型结果（如距离、角度、面积等）或依赖多源信息协同推理时，其准确率便出现显著下降。这充分说明，地理空间问答仍是一个极具挑战性的开放问题，亟需学术界持续深入探索与研究。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有地理空间问答（Geospatial QA）基准存在规模小、空间谓词覆盖窄（缺乏方向性、趋向性等复杂关系）、答案类型单一（仅限实体名）、不支持多源推理（如融合OSM空间数据与Wikipedia事实知识）等问题，导致无法全面评估大语言模型在真实地理智能任务中的能力。这是一个尚未被系统解决的新问题。
关键思路

提出GS-QA——首个大规模、多模态、多源可扩展的地理空间QA基准，包含2800个高质量问答对，覆盖7类空间对象、12种空间谓词（含directional/towards等新类别）、6类输出类型（含距离、角度、面积、计数等数值型），并显式设计需跨OpenStreetMap与Wikipedia联合推理的问题；同时引入融合文本语义匹配（如F1/EM）与地理空间度量（如Haversine距离误差、方位角误差）的混合评估框架。
其它亮点

基准完全开源（含数据、模板、评估脚本）；实验涵盖9种LLM-based基线（GPT-4o/Claude Sonnet 4.6/Ministral-3 × 3种方法：direct prompting/RAG/text-to-SQL）；结果揭示当前LLMs在简单空间查询上可达~75% EM，但在多源推理、数值输出和复杂空间谓词上骤降至<30%，验证了地理空间理解仍是LLM能力的关键短板；论文明确指出‘空间逻辑符号化建模’‘地理感知RAG’‘多源对齐表征学习’为三大亟待突破方向。
相关研究

GeoBench (ACL 2023), SpatialQA (SIGSPATIAL 2022), GeoLAMA (EMNLP 2023), OSM-Quest (WWW 2024), WikiGeoQA (NAACL 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问