CRA5: Extreme Compression of ERA5 for Portable Global Climate and Weather Research via an Efficient Variational Transformer

2024年05月06日
  • 简介
    数据驱动的天气预测模型的出现,可以从数百TB的再分析数据中学习,显著提高了预测能力。然而,数据存储和传输所需的巨大成本对数据提供者和用户构成了重大挑战,影响到资源有限的研究人员,并限制了他们参与基于人工智能的气象研究的可行性。为了缓解这个问题,我们引入了一种高效的神经编解码器,变分自编码器变换器(VAEformer),用于极端压缩气候数据,从而显著降低数据存储成本,使基于人工智能的气象研究可供研究人员随时携带。我们的方法不同于最近使用的复杂神经编解码器,而是利用低复杂度的自编码器变换器。该编码器通过方差推断产生量化的潜在表示,将潜在空间重新参数化为高斯分布。这种方法改进了交叉熵编码的分布估计。广泛的实验表明,我们的VAEformer在气候数据的情况下优于现有的最先进的压缩方法。通过应用我们的VAEformer,我们将最受欢迎的ERA5气候数据集(226 TB)压缩成一个新数据集CRA5(0.7 TB)。这相当于超过300的压缩比,同时保留了数据集的实用性,可以进行准确的科学分析。此外,下游实验表明,使用这个紧凑的CRA5数据集训练的全球天气预测模型可以实现与在原始数据集上训练的模型相当的预测精度。代码、CRA5数据集和预训练模型可在https://github.com/taohan10200/CRA5上获得。
  • 图表
  • 解决问题
    解决数据存储和传输成本过高的问题,使得资源有限的研究者能够参与基于人工智能的气象研究。
  • 关键思路
    利用低复杂度的自编码器变换器(VAEformer)进行气候数据的极限压缩,通过方差推断产生量化的潜在表示,从而将226 TB的ERA5气候数据集压缩成仅有0.7 TB的CRA5数据集,并且在保持数据集科学分析的准确性的同时,训练出与原始数据集相当的全球天气预报模型。
  • 其它亮点
    论文提出的VAEformer方法在气候数据压缩方面表现优于现有的最新技术,代码、CRA5数据集和预训练模型都已开源。实验使用了ERA5数据集,并展示了CRA5数据集的有效性。同时,该研究的方法还可以应用于其他领域的数据压缩和存储。
  • 相关研究
    近期在数据压缩和存储领域的相关研究有:1. 'Fully Convolutional Networks for Multispectral Satellite Image Classification via Transfer Learning';2. 'Deep Learning for Satellite Image Time Series Classification with Image and Point-based Convolutional Neural Networks'。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论