【标题】ClimaX: A foundation model for weather and climate

【作者团队】Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K. Gupta, Aditya Grover

【发表时间】2023/01/24

【机 构】微软、UCLA

【论文链接】 https://arxiv.org/abs/2301.10343 

【博客】 https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/introducing-climax-the-first-foundation-model-for-weather-and-climate/ 

 创新点

ClimaX是第一个可以有效地使用异质气候数据集进行扩展的数据驱动预训练模型,并在通过微调可以通用于各种下游任务,为地球系统科学的新一代数据驱动模型铺平道路。

大多数最先进的天气和气候建模方法是基于大气的物理信息数值模型。这些方法旨在模拟非线性动态和多个变量之间复杂的相互作用,这对近似计算具有挑战性。此外,许多这样的数值模型是计算密集型的,特别是在以细粒度的空间和时间分辨率对大气现象进行建模时。最近基于机器学习的数据驱动的方法反而旨在通过使用深度神经网络学习数据驱动的功能映射来直接解决下游的预测或预测任务。然而,这些网络是使用设计的或同质的气候数据集来训练特定的时空任务,因此缺乏数值模型的通用性。

本文开发并展示了ClimaX,可以使用跨越不同变量、时空覆盖和物理基础的异质数据集来训练。

ClimaX用新的编码和聚合模块扩展了Transformer架构,高效计算同时保持通用性。ClimaX在来自CMIP6的气候数据集上用自监督方式进行了预训练。预训练的ClimaX可以被微调以解决更大范围气候和天气任务,包括那些涉及大气变量和预训练中未见的时空尺度的任务。与现有的数据驱动的基线模型相比,ClimaX的这种通用性使其在天气预报和气候预测的基准上有更高的性能,即使在较低的分辨率和计算预算下进行预训练。

上图展示了ClimaX的整体框架,它是一个适用于任何天气和气候建模任务的基础模型,可以进行的任务宝库,在天气方面,在全球或区域范围内以不同的分辨率进行各种提前期的标准预测任务。在气候方面,进行长期预测和从较低分辨率的模型输出中获得降尺度结果是标准任务。

在数据集组织方面,历史天气和气候数据集的规模都是固定的,并且每天都在以几乎恒定的速度增加,因为它对应的是对自然发生的现象进行处理的传感器测量。ClimaX建议越过这些数据集,明确地利用物理学上的气候模拟模型。今天有许多这样的模型在使用,例如,CMIP6的气候模拟集合包括来自49个不同气候建模小组的100个不同气候模型的运行。本文表明,这些模拟数据集的异质性可以作为预训练ClimaX的丰富和充实的数据来源。

 

上图展示了预训练模型架构,能够恰当地包容上述气候数据集的异质性。气候数据是高度多模态的,因为观测数据通常对应于许多不同的、无界限的变量,具有不同的数据类型(如压力、温度、湿度)。此外,许多观测数据集是不规则的,即它们的时空覆盖面不同,可能对应于不同的大气变量子集。ClimaX中重新利用视觉Transformer来解决上述挑战,输入数据被表示为图像,不同的大气变量被视为不同通道,在自注意力层之前通过交叉注意力聚合来解决这个问题。

预训练能够学习大气变量之间的复杂关系,并允许为下游任务进行有效的微调。鉴于气候数据的时空性质,本文提出了一个随机预测目标来预训练ClimaX。模型的目标是在未来的任意时间预测一组任意的输入变量。虽然简单直观,但这样的预训练目标有助于对新的任务和时间尺度进行微调,如亚季节性到季节性的累积预测、气候预测和气候模型的降尺度。

上图展示了微调流程,由于输入和输出变量在预训练中是不可见的,本文用新初始化的网络替换预训练的嵌入层和预测头,同时保留注意层和聚合模块。本文考虑了两种微调方法,即冻结"(ClimaXfrozen)或微调(ClimaX)的注意力层。

在评价上,本文将ClimaX与ClimaXfrozen、Cli-ViT和ClimateBench的最佳基线进行比较。按照[WP+22],结果显示ClimaXfrozen在预测两个温度相关变量方面表现最好,其次是ClimaX。这表明预训练的注意层在看似不相关的任务中可以作为一个强大的特征提取器。在下游数据稀缺的情况下(ClimateBench只有754个数据点),进一步微调注意力层会导致过度拟合,从而略微伤害性能。在两个与降水有关的任务中,ClimaXfrozen在NRMSE𝑠和NRMSE𝑔方面的表现略逊于ClimateBench基线,但在RMSE方面表现优异。本文假设这是因为ClimaX在预训练中没有观察到降水变量,而降水变量的行为与其他变量非常不同。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除