次季节至季节(Subseasonal-to-seasonal, S2S)尺度天气预报介于短期天气预报与长期气候预测之间,聚焦未来 2 周至 6 周的天气演变,精准填补了中远期气象预测空白,为农业规划、灾害防御等提供关键依据。但 S2S 天气预测既难依托快速衰减的大气初始信息(中短期预报条件),又难捕捉尚未充分显现的慢变边界信号(气候预测条件),在混沌的大气系统与复杂的海陆气相互作用下,预报难度显著增加。

近年来,从传统数值天气预报(Numerical Weather Prediction, NWP)系统到深度学习驱动的气象预测方法的技术迭代,虽在推动 S2S 天气预报发展方面发挥了重要作用,但在 S2S 的实际应用中仍存在诸多挑战。例如,传统数值方法主要靠求解复杂的物理方程,不仅计算成本极高,且耗时很长;数据驱动方法虽然在短期预报中做到了「快、短、准」,但基于自回归设计的方式通过前一步预测结果计算下一步,在更长周期的 S2S 应用中会像滚雪球一样使误差越积越大,同时还会忽略 S2S 天气预报关键的慢变边界强迫信号。

针对于此,加州大学洛杉矶分校的团队联合美国阿贡国家实验室提出了一种新型潜在扩散模型 OmniCast,用于高精度概率性 S2S 天气预报。该模型结合了变分自编码器(VAE)和 Transformer 模型,采用跨时空的联合采样方式,可大幅缓解自回归方法的误差累计问题,同时又能够学习初始条件之外的天气动态规律。实验证明,该模型在准确性、物理一致性和概率性指标上均达到了当前方法最优水平。

相关研究以「OmniCast: A Masked Latent Diffusion Model for Weather Forecasting Across Time Scales」为题,入选 AI 顶级学术会议 NeurIPS 2025。

研究亮点:

* 通过同时考虑时空维度来生成未来天气,OmniCast 解决了以往基于自回归设计的模型误差越积越大的问题

* OmniCast 能同时兼顾短期天气预报需要的大气初始信息和气候预测需要的慢变边界强迫条件

* OmniCast 在准确性、物理一致性和概率预测方面均优于现有方法,计算速度比现有主流方法快 10-20 倍

论文地址:

https://go.hyper.ai/YANIu

更多 AI 前沿论文:

https://hyper.ai/papers

数据集:基于广泛使用的 ERA5 基础数据集,分类适配不同预测任务

为确保 OmniCast 在训练和评估方面得到充分、合理的支持,研究采用了目前被气象领域广泛应用的高分辨率再分析数据集 ERA5 作为基础数据来源,并针对中期天气预报(Medium-range Weather Forecasting)和 S2S 天气预报两个不同的预报任务进行了数据预处理,以作为基准测试集适配不同的任务要求。

具体来说,研究先从 ERA5 再分析数据集中提炼了 69 个气象变量,涵盖两大类核心指标:

地面变量(4 类):2 米气温(T2m)、10 米 U 风速分量(U 10)、10 米 V 风速分量(V10)和平均海平面气压(MSLP);

大气变量(5 类):位势高度(Z)、气温(T)、U 风速分量、V 风速分量和比湿(Q)。大气变量涵盖 13 个气压层(单位:hPa),分别是 50、100、150、200、250、300、400、500、600、700、850、925、1000。

之后,针对不同预报任务,研究根据时间范围划分了训练集、验证集和测试集:

中期天气预报任务:采用 WeatherBench2 (WB2)作为基准测试集,其训练集时间范围为 1979 ~ 2018 年,验证集时间范围为 2019 年,测试集时间范围为 2020 年,初始条件采用 00 时(UTC)和 12 时(UTC)的数据。分辨率大小为原生的 0.25°(721 x 1440 网格)。

S2S 天气预报任务:采用 ChaosBench 作为基准测试集,其训练集时间范围为 1979 ~ 2020 年,验证集时间范围为 2021 年,测试集时间范围为 2022 年,初始条件采用 00 时(UTC)的数据。分辨率大小为 1.40625°(128 x 256 网格)。

OmniCast 模型:两阶段设计,构建 S2S 天气预测的新范式

OmniCast 的核心能力在于整体规避了传统自回归模型的误差累积问题,从而构建起兼顾短期天气预测和长期气候预测需求条件的能力,为 S2S 天气预测的实际应用落地提供可用、可靠的工具。 SeasonCast 模型的架构核心基于「两阶段」设计,首先通过 VAE 实现数据降维,然后通过带扩散头的 Transformer 实现时序生成。

第一阶段的核心模块是采用 UNet 架构实现的 VAE,其核心作用是「降维」与「重构」,将高维度的原始天气数据压缩为低维度、连续的 latent tokens(潜在特征向量),从而降低庞大变量、高空间分辨率等导致的计算效率问题。VAE 输入/输出通道数均为 69,对应 69 个气象变量。例如在 S2S 天气预报任务中,VAE 编码器可将尺寸为 69 x 128 x 256 的原始天气数据压缩为尺寸为 1024 x 8 x 16 的潜在映射,空间维度压缩比为 16。生成时,VAE 又会将 Transformer 输出的 latent tokens 还原为原始维度的天气数据(如气温、气压等)。

值得注意的是,研究采用了连续型 VAE,而非离散型 VAE,因为离散型 VAE 会因天气数据变量多导致压缩比过高、信息丢失严重等问题,从而影响第二阶段生成建模的性能。而连续型 VAE 压缩比仅 100 倍,对于可能包含数百个物理变量的天气状态来说,能保留更多气象关键信息。

第二阶段的核心模块是掩码生成式 Transformer(如下图所示),采用掩码自编码器(Masked Autoencoder,MAE)的编码器-解码器架构。它是实现「无误差累积生成」的关键,通过掩码训练和扩散预测直接建模未来全序列 latent tokens。在结构方面,研究采用了双向 Encoder-Decoder 架构,支持同时利用初始条件和已生成的可见 tokens 预测掩码部分。Transformer 架构包含 16 层网络,每层有 16 个注意力头,隐藏层维度为 1024,dropout 率为 0.1。

图片
Transformer 主干网工作示意图

另外,因为 latent tokens 是连续向量,传统分类头无法建模其分布,因此在 Transformer 输出后接入扩散模型头(小型 MLP 实现),用以预测掩码的 latent tokens 分布(如下图所示)。

图片
去噪网络 eθ 根据 zi 和 xsi 预测噪声 ϵ

为了提升短期预报准确性,研究还引入了辅助均方误差损失(Auxiliary Mean-squared error loss)。具体来说,在短期天气预报中,由于 10 天后天气系统的混沌特性会显著增强,确定性预测的意义会逐渐降低,通过添加额外的 MLP 确定性头,可以针对前 10 帧 latent tokens 计算 MSE 损失。另外采用指数递减权重策略,可以突出早期帧准确预测的重要性。

成果展示:对标两类方法,效率远超基准模型达 10~20倍

为了验证 OmniCast 的有效性和先进性,研究人员将其与两类主流方法进行了比较,一类是最先进的深度学习方法,另一类是基于传统物理模型的数值方法。如前所述,实验验证包括中期天气预报和 S2S 天气预报两个任务,分析指标包含了准确性、物理一致性和概率性。

首先在 S2S 天气预测任务中,研究人员将 OmniCast 与 PanguWeather(PW)和 GraphCast(GC)在内的两个深度学习方法,以及UKMO-ENS(英国)、NCEP-ENS(美国)、CMA-ENS(中国)和 ECMWF-ENS(欧洲)四个国家及地区的数值模型集合系统进行了比较。

在准确性指标(均方根误差(RMSE)、绝对偏差(ABS BIAS)和多尺度结构相似相(SSIM))方面,OmniCast 在短期预报时效内的 RMSE 和 SSIM 上表现都意料之中的略逊于其他基准模型。当然,这是由 OmniCast 的训练目的导致的,但随着预报时效增加,OmniCast 的相对性能会逐步提升,在 10 天后可达到与 ECMWF-ENS 相当的最优表现。如下图所示:

图片
在三个关键变量下,不同方法在 1~44 天预报时效内的预测确定性性能:实线代表深度学习方法,虚线代表数值方法

值得注意的是,OmniCast 在所有基准模型中偏差最小,对三类目标变量的预报均能保持近零偏差。

在物理一致性方面,OmniCast 的物理一致性显著优于其他深度学习方法,且在多数情况下性能超过所有基准模型。这一结果表明了 OmniCast 能够有效保留不同频率范围内的信号,从而保证预报的物理合理性。如下图所示:

图片
在三个关键变量下,不同方法在 1~44 天预报时效内的物理一致性指标:实线代表深度学习方法,虚线代表数值方法

在概率性指标方面(连续排序概率评分(CRPS)和离散技巧比(SSR),后者数值越接近 1 越好),与准确性指标类似,在较短预报时效内,OmniCast 性能略逊于 ECMWF-ENS,但 15 天后会实现反超。总而言之,在各类变量和不同预报时效下,OmniCast 与 ECMWF-ENS 都是表现最优的两类方法。如下图所示:

图片
在三个关键变量下,不同方法在 1~44 天预报时效内的概率性指标:实线代表深度学习方法,虚线代表数值方法

除以上试验外,研究团队还将 OmniCast 与今年提出的适用于长时效天气预测的深度学习方法进行了对比,包括 ClimaX(基于 Transformer 架构) 和 Stormer(基于改进的图神经网络)。结果显示,OmniCast 在所有指标上均优于两者。在 RMSE 指标上,T850 和 Z500 分别比 ClimaX 低 16.8% 和 16.0%;比 Stormer 低 11.6% 和 10.2%;在 CRPS 指标上,比 ClimaX 低 20.2% 和 17.1%,比 Stormer 低 13.9% 和 11.0%。该结果证明了 OmniCast 在长时效天气预测中具有显著优势,通过潜在扩散模型与掩码生成框架的结合,其对天气序列长程依赖的建模能力优于传统深度学习架构。如下图所示:

图片
OmniCast 与其他深度学习方法的准确性比较

之后在中期天气预测任务中,研究团队将 OmniCast 与用于概率性预报的主流深度学习方法 Gencast 和数值集合预报系统的「黄金标准」——IFS-ENS 这两类基准模型进行了对比,以 RMSE、CRPS 和 SSR 作为评估指标。如下图所示:

图片
不同方法在中期预报中的概率表现:实线代表深度学习方法,虚线代表数值方法

结果显示,OmniCast 在所有变量和指标上的表现均与 IFS-ENS 相当,仅略逊于 Gencast。但在补充的效率实验中发现,得益于潜在空间建模设计——通过低维潜在 token 代替高维原始天气数据进行计算,OmniCast 速度比所有基准模型更快,可达 10 ~ 20 倍。

另外,如下图所示,OmniCast 在 32 块 NVIDIA A100 GPU 上仅需训练 4 天,相比之下,Gencast 需要在比 A100 更强的 32 块 TPUv5e 设备上训练 5 天,而 NeuralGCM 则需要在 128 块 TPUv5e 上训练 10 天。此外,Gencast 需要采用两个阶段训练流程,而 SeasonCast 只需要单阶段训练。推理阶段,OmniCast 同样比这些方法更快,在 0.25° 分辨率下,Cencast 需要 480 秒,而 OmniCast 仅需要 29 秒即可完成相同的预报;在 1.0° 分辨率下,OmniCast 的推理时间仅为 11 秒,相同硬件下的 Gencast 则需要 224 秒。

图片
不同方法生成未来 15 天预报时的运行时间与分辨率对比

不断突破 S2S 预测桎梏,精准填补中远期天气预测空白

S2S 天气预报凭借「无缝衔接」短期天气预报和长期气候预测的独特定位,长期占据着气象领域核心研究地位,如今已在学术理论研讨、实验技术攻关、落地场景应用等层面,构建起跨主体、多维度的高效交流网络。

例如今年 5 月下旬,由世界气象组织主办、山东大学承办的「AI+灾害预报预警国际研讨会」就吸引了来自三十多个国家或地区的三百余名专家学者通过线上线下的方式参加。会议重点则聚焦在人工智能的新技术与 S2S 预测应用的结合上,共同描绘了 S2S 预测在防灾减灾中的美好画卷。

除了学术研讨会,实验成果也是硕果累累。复旦大学人工智能创新与产业研究院、上海科学智能研究院李昊研究员与漆远教授团队携手中国气象局气候研究开放实验室陆波研究员团队,基于机器学习开发出名为「伏羲(FuXi-S2S)」的预测模型,可快速有效地生成大型集合预测,7 秒内即可完成 42 天的综合预测。

论文标题:A machine learning model that outperforms conventional global subseasonal forecast models
论文地址:https://www.nature.com/articles/s41467-024-50714-1

柏林工业大学、英国雷丁大学等团队,在 S2S 天气预报研究中引入「遥相关」现象——例如北极上空的平流层极涡(SPV)、热带 Madden-Julian 震荡(MJO),并通过设计三种复杂度逐步升级的深度学习模型展开验证。首先是基础 LSTM(Long Short-term Memory)模型;随后通过加入 SPV、MJO 两项「遥相关」指标,升级得到 Index-LSTM 模型;最后进一步改进,不再依赖提前计算的指标,而是通过「视觉分析」直接处理北极地区高空风场和热带地区长波辐射数据,构建出 Vit LSTM 模型。通过对三种模型对比分析,团队验证了「遥相关」信息对提升 S2S 预报精度的重要性。其中,ViT-LSTM 在第四周之后,对斯堪的纳维亚阻塞、大西洋脊这两种天气模式的预测准确性,甚至超过了 ECMWF。

论文标题:Deep Learning Meets Teleconnections: Improving S2S Predictions for European Winter Weather
论文地址:https://arxiv.org/abs/2504.07625

总而言之,困扰 S2S 天气预报的问题正随着技术的迭代而减少,未来,随着人工智能和深度学习等技术与气象领域的融合加深,势必将会彻底打破「天有不测风云」的传统认知。从古人观云识天的经验之谈,到如今 AI 模型秒级生成月余预报,人类对天气的认知与掌握,也正迈向一个前所有的清晰境地。

内容中包含的图片若涉及版权问题,请及时与我们联系删除