作者:田小幺

编辑:椰椰

转载请联系本公众号获得授权,并标明来源


Google 多个团队联合提出 「Earth AI」 地理空间人工智能模型与智能推理系统,构建可互操作的 GeoAI 模型家族,并通过定制化推理 Agent 实现多模态数据的协同分析。该系统聚焦影像、人口、环境三大核心数据类型,借助 Gemini 驱动的 Agent 串联三类模型,突破了单点模型的局限,使非专业用户也能执行跨领域实时分析,推动地球系统研究迈向可行动的全局洞察。


人类对地球时空规律的探索,始终是推动环境科学与地理学发展的核心动力。从依赖自然现象的经验总结,到计算机技术赋能天气预报,人类对地球系统的认知实现了从定性到定量的跨越。21 世纪以来,卫星遥感、地面传感网络与全球人口统计数据库等技术日趋成熟,催生了地理空间数据的爆发式增长。这些数据覆盖地球物理环境、人类活动与灾害动态等多维度信息,已成为区域评估、资源调配和气候研究的关键基础。在此背景下,地理空间人工智能(GeoAI)应运而生,成为连接「地球数据」与「科学洞察」的重要桥梁。


然而,数据激增也带来了严峻的「复杂性壁垒」。一方面,地理空间数据每日亿级增长,类型多样、分辨率差异大、时间跨度广,且部分偏远地区存在数据稀疏问题。另一方面,传统专用模型多局限于单一任务,难以融合多源信息,导致分析效率低、泛化能力弱,无法满足跨区域灾害响应、多因素公共卫生预测等复杂场景需求。尽管 GeoAI 已向「通用基础模型」转型,但现有方案在多模态协同与普及性方面仍显不足。


针对上述挑战,Google Research 联手 Google X、Google Cloud 等团队提出「Earth AI」地理空间智能推理系统。该系统构建了可互操作的 GeoAI 模型家族,围绕影像、人口与环境三类核心数据开发专用基础模型,精准适配不同维度分析需求,并且通过 Gemini 驱动的推理 Agent ,实现多模型深度协同与多步骤联合推理。系统更以自然语言交互显著降低使用门槛,使非专业用户也能开展跨领域实时分析,推动地球系统研究从「数据积累」迈向「可执行的全局洞察」新阶段。


相关研究成果以「Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning」为题,预印本已发表于 arXiv。


研究亮点:


* 该研究的遥感基础模型在开放词汇目标检测、零样本跨模态检索等任务中实现了 SOTA 水平。同时,人口动态模型经独立验证,能有效改进零售与公共卫生的现实应用,并已升级至支持每月粒度的时间序列嵌入。

该研究通过整合影像、人口与环境模型,构建出更强大的多模态预测框架。实证表明,该融合方法在多项真实世界分类与预测任务中,其准确性显著优于任何单一模态的分析结果。

该研究实现了基于 Agent 的复杂地理空间推理:由 Gemini 驱动的推理 Agent ,能够自动解构复杂地理查询、调度多模型工具、展示透明推理链,并最终生成连贯结论。




论文地址:
https://doi.org/10.48550/arXiv.2510.18318

关注公众号,后台回复「Earth AI」获取完整 PDF

Earth AI 数据体系:构建跨模态地理空间分析的基础

Earth AI 的训练基础建立在 3 类面向地球系统分析的专业地理空间数据集上,分别支撑对影像、人口及环境领域的深度解读。


在影像数据处理上,系统集成了多个大规模遥感数据集。其中,RS-Landmarks 包含 1800 万张带有高质量文本描述的卫星与航空影像;RS-WebLI 通过分类器筛选了超过 300 万张网络开放遥感图像,并具备向千亿规模扩展的潜力;RS-Global 则提供了 3000 万张覆盖全球陆地、分辨率从 0.1 米到 10 米、时间跨度为 2003 至 2022 年的影像资源。这些数据集共同构成了视觉-语言模型、开放词汇目标检测、少样本学习及预训练骨干模型等遥感专用模型研发与优化的数据基础。


在人口动态分析方面,数据集深度融合了建筑环境、自然要素与人类行为三类信息,并借助图神经网络技术生成统一区域嵌入。系统在原有美国单一年份数据基础上实现了两项关键拓展:在空间维度上,将覆盖范围扩展至包括澳大利亚、巴西、印度等在内的 17 个国家,通过知识图谱对齐搜索语义以提升跨语言与国家模式识别能力,相关静态嵌入已开放供流行病学建模研究;在时间维度上,构建了自 2023 年 7 月至今的月度动态嵌入序列。实验标签体系广泛涵盖健康、社会经济与环境等多类指标,并整合了耶鲁 PopHIVE 平台的县级流行病月度就诊数据,欧洲区域评估还结合了欧盟统计局 NUTS 3 级数据。


环境数据整合了天气、气候与自然灾害三类信息源,具体提供基于多源观测与机器学习模型的 240 小时逐小时天气预报与 10 天每日预报,依托实测站数据的实时洪水监测与预报,以及基于随机神经网络的实验性气旋预测系统生成 50 种可能路径,可提前 15 天预测强度、风圈、登陆点。


这些经过结构化与标准化处理的数据集,不仅为各领域的独立分析提供了支撑,更通过 Gemini 驱动的推理 Agent 实现了跨模态的深度协同。该体系使得从复杂自然语言查询解析到多源信息融合的端到端分析成为可能,同时也为非专业用户通过自然语言或地图界面直接访问复杂地理空间分析能力奠定了坚实的数据基础。

Earth AI:迈向多模态协同的地球系统智能分析框架

Earth AI 是一套以 「多模态协同理解地球系统」 为核心目标的可互操作地理空间人工智能模型家族,通过定制化地理空间推理 Agent 实现组件协调,依托基础模型(FMs)与大语言模型(LLM)推理构建泛化系统,突破单用途模型局限,可针对广泛行星问题生成可行动洞察,其核心体系围绕 「三类基础模型+模型协同机制+Agent 编排」 展开。


EarthAI 概述


Earth AI 在影像分析领域以遥感基础模型为核心,核心目标是解决遥感数据中普遍存在的标注稀缺与图像分布特殊两大关键挑战,为地球观测场景的高效语义理解与目标分析提供技术支撑。如下图所示,该模型从谷歌地图中提取专业航空/卫星图像,结合地点、地标等地理空间元数据输入 Gemini 模型,通过定制化提示生成与影像内容精准匹配的合成字幕;同时整合带文本注释的 WebLI 遥感图像,以及经过人工标注的遥感分割与目标检测数据集。这些多源数据共同为三类核心模型的预训练提供高质量样本支撑,分别是预训练 ViT 编码器(Pre-trained ViT Encoder)、视觉语言模型(Vision-Language Model, VLM)与开放词汇目标检测模型(Open Vocabulary Object Detection Model, OVD)。



遥感基础模型概述


其中,视觉-语言模型基于定制数据集进行训练,通过优化图像与文本之间的特征关联,构建一个统一的语义理解空间。开放词汇目标检测模型采用改进的 Transformer 架构,图像和文本特征分别由两个独立模块处理。视觉 Transformer 编码器首先通过自监督学习在海量图像上提取基础特征,再通过多任务联合优化提升模型在具体任务中的适应性和表现。在实际应用环节,研究人员直接将 VLM 和 OVD 模型用于各自的分类(Classification)、检测(Detection)和检索(Retrieval)任务,并对 ViT 编码器进行微调(Fine-Tuning),以在下游特定任务上获得 SOTA 最佳性能。


在人口分析方面,Earth AI 以人口动态基础模型为核心,遵循多源信息融合与隐私保护原则,整合建筑环境、自然条件、人类行为数据,通过图神经网络生成统一区域嵌入(Regional embeddings)。


如下图所示,为突破单一模型局限,Earth AI 采用 「空间对齐+表征整合」 实现多模型协同:将不同模型输出映射到统一地理单元并融合表征,例如 AlphaEarth 基础模型的影像、地形、气候信息,可与人口模型的人类活动信号互补,构建全面区域画像。模型运行分两阶段:第一阶段离线训练,用地图、搜索趋势、环境条件等地理空间数据,编码紧凑区域嵌入;第二阶段用预训练嵌入动态微调,支撑插值(Interpolation)、外推(Extrapolation)、超分辨率(Super-Resolution)、现时预测(Nowcasting)等下游任务。


人口动态基础模型两阶段框架


为解决复杂多步骤地理空间问题,Earth AI 开发了 Gemini 驱动的地理空间推理 Agent,该 Agent 依托 Google Agent 开发工具包(ADK),整合通用推理能力与影像分析、人口统计、环境模拟、时空建模四大专业功能,并配套地理空间数据处理、代码生成、Earth Engine 数据访问等工具。


如下图,其工作遵循 「解析查询–分解任务–调用工具–综合结果」 核心逻辑,且通过 「思考计划(Think & plan)→数据(Data)/模型推理(Model inference)/模型训练(Model training)→反映恢复(Reflect & recover)」 的闭环循环迭代优化响应,可处理复杂事实发现(Complex fact-finding)、分析与关系(Analytical & relational)、预测性(Predictive)三类复杂查询。用户通过自然语言或地图接口交互,既能查询简单事实,也能完成回溯历史事件关键设施分布、前瞻未来高风险与社会脆弱性交织区域等复杂任务,支撑从回顾分析到前瞻规划的决策需求。


地理空间推理 Agent 操作框架

在多项公共基准测试中达 SOTA 水平,较 Gemini 2.5 Pro 提升 64%

Earth AI 的实验体系围绕「单模型性能-多模型协同-Agent 推理」3 个层次展开,系统评估了影像与人口 2 大基础模型及其在融合应用与地理空间推理中的综合表现。


在单模型性能验证阶段,影像基础模型在多项任务中表现卓越。视觉-语言模型基于 SigLIP2 与 MaMMUT 架构,在多个公共基准的零样本分类与文本检索任务中达到最先进水平,部分指标甚至可与参数量更大的通用对话模型媲美。开放词汇检测模型在 DOTA、DIOR 数据集上的零样本测试 mAP 分别达到 31.83% 与 29.39%;经每类仅 30 个样本的少样本学习后,mAP 进一步提升至 53% 以上,显著优于现有方法。预训练骨干模型在涵盖分类、检测与分割的 13 项下游任务中,相比 ImageNet 预训练基线平均提升 14.93%,并在 FMOW 分类与 FLAIR 分割等任务中刷新了性能纪录。


人口动态基础模型在空间插值与时间预测任务中展现出强劲性能。如下图所示,其全球嵌入在预测 20% 区域缺失变量的任务中保持稳定的 R² 表现,并在跨国家泛化测试中验证了良好的迁移能力。基于 2023 年7 月起构建的月度动态嵌入,在 COVID-19 与流感急诊就诊人次的外推预测中,其平均绝对误差显著低于静态嵌入,尤其在秋冬季疾病高发期优势更为明显。第三方验证进一步确认了该模型在真实场景中的适用性与鲁棒性。


动态与静态人口动态基础的平均绝对外推误差


在多模型协同实验中,融合人口动态与 AlphaEarth 基础模型显著提升了预测精度。在美国普查区 FEMA 灾害风险评分预测中,融合模型的 R² 较单一模型平均提升 11%;在预测 CDC 21 项健康指标时,其效果分别优于单独使用人口模型和 AlphaEarth 模型 7% 与 43%。此外,系统还展示了气旋预报与人口模型结合预测飓风财产损失、以及时序预测与天气模型协同用于刚果(金)霍乱风险预警的能力,后者较基线模型 RMSE 降低 34%。


地理空间推理 Agent 通过标准化问答集与危机场景测试进行能力评估。在包含 100 道题目的评估集中, Agent 总体得分为 0.82,较 Gemini 2.5 Pro 和 Flash 分别提升 64% 与 110%,其中在分析性推理任务中优势尤为突出。在 10 个危机响应场景的测试中,经过多轮迭代优化的 Agent 在 Likert 量表评分上持续优于基准系统,证明了其在处理复杂多步骤地理空间推理任务中的有效性与可靠性。

地理空间智能的技术突破与应用实践

围绕 Earth AI 所引领的核心技术方向,全球学术界与产业界正协力推动地理空间智能从算法创新走向系统化、场景化落地,逐步构建起多层次、高协同的技术生态。


在学术前沿,多模态统一理解成为关键突破点。以意大利特伦托大学、德国慕尼黑工业大学、柏林工业大学及保加利亚 INSAIT 研究院联合研发的 EarthMind 框架为代表,研究团队构建了面向遥感场景的多粒度、多传感器统一理解体系。

论文标题:EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models

论文链接:https://doi.org/10.48550/arXiv.2506.01667


此外,斯坦福大学李飞飞教授创立的 World Labs 近期通过 X 平台正式推出限量测试版空间智能模型 Marble。该模型专注于 3D 世界生成技术,仅凭单张图像或文本提示即可构建可供永久存在、自由探索的 3D 场景。


产业应用方面,企业正积极将地理空间智能嵌入业务核心系统。NVIDIA 与阿联酋 G42 合作打造的 Earth-2 平台,依托生成式 AI 构建高精度气象预报系统,通过 FourCastNet 全球模型与 CorrDiff 降尺度架构协同,实现从 2 公里全国预报到 200 米城市级气象精细化输出,将传统耗时数小时的模拟压缩至分钟级,极大提升了极端天气的预警与响应能力。IBM 与 NASA 联合发布的开源地理空间 AI 基础模型。该模型基于 NASA Harmonized Landsat Sentinel-2 项目的大规模卫星数据训练,采用多任务联合优化框架,支持气候变化监测、森林砍伐动态追踪、农作物产量预估等多种应用。在模型优化方面,不仅训练效率提升 15%,更在仅使用一半标注数据的情况下实现了 15% 的性能提升。


从学术创新到产业实践,地理空间智能正以前所未有的深度与广度融入人类对地球系统的认知与决策之中。随着多模态融合、跨尺度建模与 Agent 协同等关键技术的持续突破,以 Earth AI 为代表的分析框架有望在气候响应、灾害防控、资源管理等行星级挑战中发挥更为核心的作用,推动科学与社会管理的协同进化。


参考链接:
1、https://mp.weixin.qq.com/s/XeZdQbMvvnQId6PLWM7K1A
2、https://mp.weixin.qq.com/s/WdIq1SToGa3jmVlbGZsy8w
3、https://mp.weixin.qq.com/s/C3XqmCooqwch1JyAXCnYlQ
4、https://mp.weixin.qq.com/s/ix0r3lwiqE18gYxvJupr0g


一键获取 2023—2024 年 AI4S 领域高质量论文及深度解读文章 ⬇️

 往期推荐 

“阅读原文”,免费获取海量数据集资源!


内容中包含的图片若涉及版权问题,请及时与我们联系删除