Analyzing and Exploring Training Recipes for Large-Scale Transformer-Based Weather Prediction

23rd Conference on Artificial Intelligence for Environmental Science. Jan 2024. Abstract #437874
2024年04月30日
  • 简介
    深度学习在数值天气预报中的快速崛起导致了许多模型的出现,这些模型预测大气变量的技能与传统的基于物理的数值天气预报相当或更好。然而,在这些领先的深度学习模型中,训练设置和架构的差异很大。此外,缺乏彻底的消融研究使得很难确定哪些组件对成功最为关键。在本研究中,我们展示了即使使用相对标准的架构、简单的训练程序和适度的计算预算,也可以获得高的预测技能。具体而言,我们在ERA5数据上训练了一个经过最小修改的SwinV2 transformer,并发现它在与IFS的比较中具有更高的预测技能。我们对训练管道的关键方面进行了一些消融研究,探索了不同的损失函数、模型大小和深度以及多步微调的影响。我们还研究了模型在除了典型的ACC和RMSE之外的指标下的表现,并研究了性能如何随着模型大小的变化而变化。
  • 图表
  • 解决问题
    论文旨在解决深度学习在数值天气预报中的应用问题,即如何通过简单的训练过程和中等的计算预算,使用相对简单的架构实现高质量的预报结果。
  • 关键思路
    论文的关键思路是使用经过简单修改的SwinV2 transformer模型在ERA5数据集上进行训练,以实现与传统基于物理学的数值天气预报相当甚至更好的预报效果。论文还探讨了训练过程中的关键因素,如损失函数、模型大小和深度以及多步微调。
  • 其它亮点
    论文的实验结果表明,相对简单的深度学习模型可以实现与传统基于物理学的数值天气预报相当甚至更好的预报效果。此外,论文还探讨了训练过程中的关键因素,并使用了多种指标对模型进行评估。论文所使用的数据集为ERA5,同时还提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括使用卷积神经网络(CNN)和循环神经网络(RNN)等模型进行数值天气预报的研究。例如,题为“Deep Learning for Weather Forecasting: A Survey”的综述文章对相关研究进行了总结。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论