华为云提出盘古气象大模型：中长期气象预报精度首次超过传统数值方法，速度提升10000倍以上

本文主要介绍盘古气象大模型的技术要点和代表性预测结果。关于技术细节，可以参考发布在arXiv上的完整论文：Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast。

主要作者为毕恺峰、谢凌曦。盘古气象大模型由盘古团队发布，主要完成人为毕恺峰、谢凌曦、张恒亨、陈鑫、顾晓韬以及田奇老师。文章转载于知乎，所有内容均只代表作者观点，其中涉及的前沿内容均有可能被推翻。

上世纪20年代以来，特别是近三十年随着算力的迅速发展，数值天气预报在每日天气预报、极端灾害预警、气候变化预测等领域取得了巨大的成功。但是随着算力增长的趋缓和物理模型的逐渐复杂化，传统数值预报的瓶颈日益突出。研究者们开始挖掘新的气象预报范式如使用深度学习方法预测未来天气。在数值方法应用最广泛的领域如中长期预报中，现有的AI预报方法精度仍然显著低于数值预报方法，并受到可解释性欠缺，极端天气预测不准等问题的制约。

来自华为云的研究人员提出了一种新的高分辨率全球AI气象预报系统：盘古气象大模型。盘古气象大模型是首个精度超过传统数值预报方法的AI方法，1小时-7天预测精度均高于传统数值方法（欧洲气象中心的operational IFS），同时预测速度提升10000倍，能够提供秒级的全球气象预报，包括位势、湿度、风速、温度、海平面气压等。盘古气象模型的水平空间分辨率达到 0.25^\circ\times0.25^\circ ，时间分辨率为1小时，覆盖13层垂直高度，可以精准地预测细粒度气象特征。作为基础模型，盘古气象大模型还能够直接应用于多个下游场景。例如，在热带风暴预测任务中，盘古气象大模型的预测精度显著超过欧洲气象中心的高精度预报（ECMWF HRES Forecast）结果。

引言：AI气象预报方法能不能超过数值气象预报方法？

气象预报是科学计算领域最重要的场景之一，对未来天气变化的预测特别是对极端天气如暴雨、台风、干旱、寒潮的预测至关重要。传统数值预报使用数学物理方程建模大气状态并使用计算机仿真方法求解方程得到未来天气状态，在过去三十年取得了令人瞩目的成功。但是，随着算力增长的趋缓和物理模型的日益复杂，数值气象预报方法也逐渐遇到了瓶颈：一方面，传统数值预报对算力的消耗非常大，如 0.25^\circ\times0.25^\circ 精度的未来10天数值预报，需在超过3000个节点的超级计算机上花费数小时进行仿真；另一方面，复杂的参数化物理模型始终是不完备的，对物理过程的参数化，不可避免地向数值预报引入系统误差。

AI气象预报首先在短临预报取得了巨大的成功。这得益于AI预报在预测速度上的巨大优势：数值预报方法无法给出分钟级的气象预测，而AI方法拟合雷达回波数据的能力，超过了光流法等外插方法。当把AI预报方法应用于中长期气象预报时（数值气象预报应用最成功的领域之一），尽管AI方法能够大幅提升预测速度，AI预报方法的分辨率和精度均明显落后于数值气象预报方法。2022年3月，英伟达推出FourCastNet模型^[2]，首次把预报水平分辨率提升到了和数值预报相比拟的水平即 0.25^\circ\times0.25^\circ ，但是其预报精度仍然大幅落后于数值预报方法。例如，FourCastNet的5天位势预测的均方根误差（RMSE）为484.5，即使使用100个模型进行集成预报，其均方根误差依然高达462.5，远高于欧洲气象中心operational IFS报告的333.7。在盘古气象模型提出之前，AI气象预报主要是作为数值预报的快速替代模型，并不能直接替代传统数值预报方法。甚至有气象学家指出，AI预报方法超越传统数值方法，还需要一段时间^[3]。

盘古气象大模型首次在中长期气象预报上超过了传统数值方法。训练和测试均在ERA5数据集上进行，其包括43年（1979-2021年）的全球实况气象数据。其中，1979-2017年数据作为训练集，2019年数据作为验证集，2018、2020、2021年数据作为测试集。盘古大模型使用的数据，包括垂直高度上13个不同气压层，每层五种气象要素（温度、湿度、位势、经度和纬度方向的风速），以及地球表面的四种气象要素（2米温度、经度和纬度方向的10米风速、海平面气压）。图1展示了盘古气象大模型的一些结果。我们可以看到，盘古气象大模型全方位地超过了现有的数值预报方法（欧洲气象中心的operational IFS）。例如，盘古气象大模型提供的Z500五天预报均方根误差为296.7，显著低于之前最好的数值预报方法（operational IFS：333.7）和AI方法（FourCastNet：462.5）。同时，盘古气象大模型在一张V100显卡上只需要1.4秒就能完成24小时的全球气象预报，相比传统数值预报提速10000倍以上。

图1b　盘古气象大模型在两个变量上的3天预报结果的可视化以及与真实值对比

图1b　盘古气象大模型在两个变量上的3天预报结果的可视化以及与真实值对比

图1b盘古气象大模型在两个变量上的3天预报结果的可视化以及与真实值对比

图1b　盘古气象大模型在两个变量上的3天预报结果的可视化以及与真实值对比

图1c　盘古气象大模型对2018年两个超强台风康雷和玉兔的路径预测，准确度远超传统方法——尤其对于台风玉兔，盘古相较于传统方法提前48小时（比登陆时间提前6天以上）判断出玉兔的正确登陆位置：菲律宾马里亚纳群岛

方法：3D神经网络结合层次化时域聚合

盘古气象大模型的思路十分明确：气象数据和图像数据具有很多相似之处，能否利用当前CV领域的大模型，对于气象数据进行分析？在前人工作（如英伟达的FourCastNet）的基础上，盘古研究团队发现：AI气象预报模型的精度不足，主要有两个原因。第一，现有的AI气象预报模型都是基于2D神经网络，无法很好地处理不均匀的3D气象数据。第二，AI方法缺少数学物理机理约束，因此在迭代的过程中会不断积累迭代误差。为此，本文提出了3D Earth-Specific Transformer（3DEST）来处理复杂的不均匀3D气象数据，并且使用层次化时域聚合策略来减少预报迭代次数，从而减少迭代误差。

神经网络：3D Earth-Specific Transformer

图2为本文提出的3D Earth-Specific Transformer的示意图。其主要思想是使用一个视觉transformer^[4]的3D变种来处理复杂的不均匀的气象要素。由于气象数据分辨率很大，因而相比于常见的vision transformer方法，研究人员将网络的encoder和decoder减少到2级（8个block），同时采用Swin transformer^[5]的滑窗注意力机制，以减少网络的计算量。需要注意的是，即使采用了这些方法，当前网络的总体FLOPs依然超过3000G。未来，在算力充足的条件下，可以使用更大的网络以进一步提升预报精度。

在每一个网络block里，最重要的改进是引入了Earth-Specific位置编码。这是团队在对气象数据性质进行仔细分析后，所做出的改进。气象预报数据和普通图像数据最大的区别在于，特征图上的每个像素都对应于地球上的一个绝对位置，而图像上的像素往往只包含相对位置信息。同时，如图3所示，气象要素数据对应的经纬度网格是不均匀的，而不同的要素在不同纬度、高度的分布也是不均匀的。对这些不均匀性的建模，有利于学习气象数据背后潜藏着的复杂物理规律，如科里奥利力等。为此，本文在每一个transformer模块中引入和纬度、高度相关的绝对位置编码来学习每一次空间运算的不规则分量。这样改动后的transformer模块，被称为3D Earth-Specific Transformer。关于更多的技术细节，请参阅论文。

图3　使用Earth-Specific位置编码的原因——左边：地球表面的经纬度网格是空间不均匀的；中间：位势高度和纬度、高度紧密相关；右边：平均风速和温度和垂直高度紧密相关

层次化时域聚合策略

中长期气象预报需要多次迭代模型得到预报结果。例如，FourCastNet需要调用6小时预测间隔的AI模型共计28次，以得到7天的预测结果。由于缺少数学物理机理约束，AI模型的迭代误差随着迭代次数的增加而迅速上升。如图4所示，把盘古气象预报的6小时模型迭代了28次得到的7天预报结果，精度明显低于24小时模型迭代7次的预报结果；而如果使用1小时模型迭代168次，预报误差则呈现超线性上升趋势。

为了缓解迭代误差，本文提出一个简单而有效的策略。研究人员训练了4个不同预报间隔的模型，分别为1小时间隔、3小时间隔、6小时间隔、24小时间隔。进而，研究人员使用贪心算法调用这些模型，使得预测特定时间气象状况的迭代次数最小。例如，对于24小时预测，只需要调用一次24小时间隔的模型；而对于23小时预测，则需要调用三次6小时预报，一次3小时预报和两次1小时预报。通过使用多个不同时间间隔模型捕捉不同时序关系，盘古气象大模型不仅减少了迭代误差，并且避免了由递归训练带来的训练资源消耗。在训练过程中，盘古气象大模型只需要使用单一时间的天气状况监督模型训练，而之前的方法（如FourCastNet）往往监督多个时间点的天气状况以降低迭代误差，从而成倍地增加了显存消耗和训练时间，并且使得训练过程的稳定性下降。

【算力消耗】为了训练每个模型，研究人员使用1979-2021年的气象数据，以小时为单位采样，训练了100个epoch。每个模型需要在192块V100显卡上训练16天。事实上，即使经历100个epoch，这些模型依旧没有完全收敛。也就是说，在计算资源更加充足的情况下，AI预报的精度还能够进一步提升。推理时，盘古气象大模型仅需在一张V100显卡上运行1.4秒，即可完成24小时全球气象预报。相比传统数值预报，计算速度的提升超过10000倍。

实验结果展示

本文主要在两个数据集上测试盘古气象大模型。一是从ERA5数据集^[6]中划分出的测试集（2018、2020、2021年数据），主要用来测试盘古气象大模型的整体预报精度。二是IBTrACS热带风暴观测数据^[7]，主要用来测试盘古气象大模型在特定极端天气场景（热带风暴轨迹预测）上的准确度。盘古气象大模型的比较对象，包括当前最先进的数值预报方法（从TIGGE存档下载的欧洲气象中心operational IFS预报结果）和AI方法（英伟达的FourCastNet论文中报告的精度）。

确定性预报结果

【高空气象变量】如图1和图5所示，盘古气象大模型在高空气象变量Z500、T850、T500、Q500、U500、V500上的测试精度，在所有预测时间均领先于欧洲气象中心的operational IFS。例如，对于Z500，3天和5天operational IFS的预测均方根误差（单位： \mathrm{m}^2/\mathrm{s}^2 ）为152.8和333.7，盘古气象大模型把误差减少到134.5和296.7。对于T850，3天和5天operational IFS的预测均方根误差（单位： \mathrm{K} ）为1.37和2.06，盘古气象大模型把误差减少到1.14和1.79 。在所有场景中，盘古气象大模型相比operational IFS的均方根误差相对降低都超过10%。使用同等精度下的预报时间间隔来衡量，盘古气象大模型相对欧洲气象中心的operational IFS的精度提升相当于超过10-15小时的“预测时间收益”（即，盘古的预测时间比IFS多10-15小时时，预测精度与IFS相当）。与英伟达的FourCastNet相比，盘古气象大模型有更大的精度优势——在所有场景中，均方根误差相对降低超过30%，“预测时间增益”也扩大到36小时以上。

图5　左侧：四个高空气象变量的量化对比结果；右侧：三个地表气象变量的量化对比结果

【地表气象变量】如图5所示，盘古气象大模型在地表气象变量2m温度（T2M），10m经度方向和纬度方向风速（U10和V10）上测试精度稳定的高于欧洲气象中心的operational IFS和英伟达的FourCastNet。使用“预测时间收益”来衡量，盘古气象大模型相对于operational IFS的精度提升相当于超过18小时的“预测时间收益”。例如，对于2m温度（T2M），3天和5天operational IFS的预测均方根误差（单位： \mathrm{K} ）为1.34和1.75，FourCastNet的均方根误差为1.39和 2.00，盘古气象大模型把误差减少到1.05 和1.53。对于10米经度方向风速，3天和5天operational IFS的预测均方根误差（单位： \mathrm{m}/\mathrm{s} ）为1.94和2.90，FourCastNet的均方根误差为2.24和 3.41，盘古气象大模型把误差减少到1.61和2.53 。

【可视化】如图1和图6所示，盘古气象大模型可以很好地预测细粒度气象特征。同时，在可视化中可以观察到，AI预报的结果通常更加平滑，而数值预报则更经常地预测出一些不存在的特征。这反映出AI气象预报和传统气象预报间存在差异性和互补性。

图6　盘古气象大模型在另外两个变量上的3天预报结果的可视化以及与传统数值预报结果以及真实值的对比

【诊断实验】本文提供两个诊断实验。

如图1所示，盘古气象大模型在一年的不同月份预测ACC均高于欧洲气象中心的operational IFS。盘古气象大模型的精度优势在“难度最高”的月份更大，这意味着AI方法能够在传统数值方法失效的情况下从数据中学出大气演进的规律。
如图7所示，盘古气象大模型另一个独特的优势是能够提供逐小时的预报结果。与之相对，之前的高分辨率AI预测方法（如FourCastNet）只能提供逐6小时的预报结果。

极端天气预报结果

【总体极端天气预测趋势】与FourCastNet一样，盘古气象大模型计算了RQE值来衡量不同预报方法的极端天气预测趋势（具体数学定义参见论文）。RQE值小于0表示模型倾向于低估极端天气影响，RQE值大于0表示模型倾向于高估极端天气影响，RQE值接近0表示模型预报更准确。从图8中可以看出，AI方法和数值方法都倾向于低估极端天气影响。盘古气象大模型在Q500上表现的比operational IFS强（低估得更少），在U500上表现的比operational IFS弱（低估得更多），在U10上一开始表现的比operational强，最后表现的比operational IFS略弱。得益于高效的层次化时域聚合算法，盘古气象大模型在U10上的RQE结果明显高于FourCastNet（低估得更少），这也对应于盘古气象大模型在确定性预报上精度更高的事实。

【热带风暴路径预测】如图9所示，通过计算海平面气压、850hPa旋度、10米风速和200hPa-850hPa厚度，盘古气象大模型可以准确地预测热带风暴的路径（具体方法参见论文）。研究人员将预报方法运用于2018年的88个热带风暴（IBTrACS数据集和TIGGE里 ECMWF HRES热带风暴预报的交集）后发现，盘古的预测精度明显高于传统方法。和ECMWF HRES比较，盘古气象大模型在不同地区、不同热带风暴强度、不同预测时间上台风路径预测准确度都有明显优势。例如，盘古气象大模型对88个热带风暴路径预测的三天/五天平均误差为120.29公里/195.65公里，明显低于ECMWF HRES的162.28公里/272.10公里。如图1和图10所示，盘古气象大模型在2018年著名的台风康雷和玉兔（其轨迹被被多个气象预报长时间误判）上，都报告了很高的准确度。特别是台风玉兔，盘古领先传统方法超过48小时，即判断出玉兔的正确登陆地点：菲律宾马里亚纳群岛。

集成气象预报结果

最后，本文还探索了使用盘古气象大模型进行集成预报的简单方法。研究人员向模型的输入中加入随机珀林噪声，得到99组输入扰动的预报和1组输入未扰动的预报。如图11所示，简单的输入扰动形成的集成预报，其短期（<2天）预报精度略低于未经扰动的确定性预报，而其长期（>5天）预报精度明显高于未经扰动的确定性预报。例如，集成预报的平均值把Z500和U10的7天预测均方根误差从500.3和3.48降低至450.6和2.96，相对下降达到10%和15%以上。结合气象知识使用相似的方法可以得到更加有效的集成预报，例如使用奇异向量法扰动盘古气象大模型的输入。受限于作者有限的气象知识，研究人员期待，在经验更丰富的气象专家介入之后，盘古气象大模型的集成预报效果能够得到进一步的提升。

总结与展望

本文介绍了一个基于人工智能的数值天气预报系统：盘古气象大模型。本文的主要技术贡献包括（i）设计3D Earth-Specific（3DEST）网络结构和（ii）应用层次化时域聚合策略。通过在39年的全球天气数据上训练深度神经网络，盘古气象大模型首次在精度和速度方面超越了传统的NWP方法。盘古气象大模型具有极高的预报速度，为气象学家将他们的知识整合到基于人工智能方法中提供了便利。

展望未来，计算资源将成为进一步提高AI气象预报准确性的关键要素。根据本文得到的实验，在（i）使用更多的气象要素训练网络模型，（ii）加入时间维度来训练4D深度神经网络，以及（iii）简单地使用更大的神经网络等方面，AI预报方法还有很大的提升空间。所有这些都需要更多的算力资源：更强力的GPU，更大的内存，更高的浮点数运算能力，等等。

致谢

作者感谢欧洲气象中心和美国NOAA国家环境信息中心，他们无私地分享了ERA5和IBTrACS数据集，使得本研究能够顺利进行。作者同时感谢盘古团队的其他成员，以及华为云EI集成验证团队成员在算力上的支持。

参考

^P. Bougeault, Z. Toth, C. Bishop, B. Brown, D. Burridge, D. H.Chen, B. Ebert, M. Fuentes, T. M. Hamill, K. Mylne et al., “The thorpex interactive grand global ensemble,” Bulletin of the American Meteorological Society, vol. 91, no. 8, pp. 1059–1072, 2010.
^J. Pathak, S. Subramanian, P. Harrington, S. Raja, A. Chattopadhyay, M. Mardani, T. Kurth, D. Hall, Z. Li, K. Azizzadenesheli et al., “Fourcastnet: A global data-driven high-resolution weather model using adaptive fourier neural operators,” arXiv preprint arXiv:2202.11214, 2022.
^M. G. Schultz, C. Betancourt, B. Gong, F. Kleinert, M. Langguth, L. H. Leufen, A. Mozaffari, and S. Stadtler, “Can deep learning beat numerical weather prediction?” Philosophical Transactions of the Royal Society A, vol. 379, no. 2194, p. 20200097, 2021.
^A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al., “An image is worth 16x16 words: Transformers for image recognition at scale,” arXiv preprint arXiv:2010.11929, 2020.
^Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo,“Swin transformer: Hierarchical vision transformer using shifted windows,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 10 012–10 022.
^H. Hersbach, B. Bell, P. Berrisford, S. Hirahara, A. Horanyi, ´J. Munoz-Sabater, J. Nicolas, C. Peubey, R. Radu, D. Schepers ˜ et al., “The era5 global reanalysis,” Quarterly Journal of the Royal Meteorological Society, vol. 146, no. 730, pp. 1999–2049, 2020.
^K. R. Knapp, M. C. Kruk, D. H. Levinson, H. J. Diamond, and C. J. Neumann, “The international best track archive for climate stewardship (ibtracs) unifying tropical cyclone data,” Bulletin of the American Meteorological Society, vol. 91, no. 3, pp. 363–376, 2010

内容中包含的图片若涉及版权问题，请及时与我们联系删除