- 简介数据驱动的天气预测模型的出现,通过从数百TB的再分析数据中学习,显著提高了预测能力。然而,数据存储和传输所需的巨大成本对于数据提供者和用户来说是一个重大挑战,影响到资源有限的研究人员,限制了他们参与基于人工智能的气象研究的可行性。为了缓解这个问题,我们引入了一种高效的神经编解码器——变分自编码器变压器(VAEformer),用于极端压缩气候数据,从而显著降低数据存储成本,使基于人工智能的气象研究便于研究人员使用。我们的方法不同于最近的复杂神经编解码器,而是利用低复杂度的自编码器变压器。该编码器通过方差推断产生一个量化的潜在表示,将潜在空间重新参数化为高斯分布。这种方法改进了交叉熵编码的分布估计。大量实验证明,我们的VAEformer在气候数据的背景下优于现有的最先进的压缩方法。通过应用我们的VAEformer,我们将最受欢迎的ERA5气候数据集(226 TB)压缩成一个新的数据集CRA5(0.7 TB)。这相当于超过300的压缩比,同时保留了数据集的实用性,以进行准确的科学分析。此外,下游实验表明,在压缩后的CRA5数据集上训练的全球天气预测模型具有与原始数据集上训练的模型相当的预测精度。代码、CRA5数据集和预训练模型可在https://github.com/taohan10200/CRA5上获得。
-
- 图表
- 解决问题本论文旨在提出一种高效的神经编解码器,用于极端压缩气候数据,以显著降低数据存储成本,使得基于人工智能的气象研究可移植给研究人员。
- 关键思路本文提出了一种低复杂度的自编码器变压器,即VAEformer,通过方差推断产生量化的潜在表示,从而重参数化潜在空间为高斯分布,以改善交叉熵编码的分布估计。
- 其它亮点本文的亮点在于提出了一种高效的神经编解码器来极端压缩气候数据,使得基于人工智能的气象研究可移植给研究人员。实验结果表明,VAEformer在气候数据的压缩方面优于现有的最先进的压缩方法。作者使用最流行的ERA5气候数据集(226 TB)压缩成一个新数据集CRA5(0.7 TB),压缩比超过300,同时保留了数据集的实用性。此外,下游实验表明,使用压缩后的CRA5数据集训练的全球天气预报模型的预测精度与使用原始数据集训练的模型相当。
- 最近在这个领域中,还有一些相关研究被进行,例如,使用卷积神经网络进行气候数据压缩的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流