在接下来的几年里,许多作者对这个主题进行了探索,但基于 ML 的模型具有与 ECMWF 综合预报系统 (IFS) 的非常粗分辨率模拟相同的技能(例如,具有大约 200 公里的网格)。

初步结论是,这是一个值得探索的有趣研究问题,但其投入运行的可能性很低,因此这不是 ECMWF 资源的明智投资。 

天气预报机器学习模型的一场革命 

2022年2月至2023年4月期间,情况发生了迅速变化。 

在主要来自 NVIDIA、华为和 Google DeepMind 等大型科技公司的一系列论文中,基于机器学习的天气预报的质量取得了快速进步。目前,每隔几个月就会对该领域做出新的贡献。

这些基于机器学习的天气预报首先接近 IFS 的技能(用作高质量预报的基准),然后与 IFS 技能相匹配,然后声称超越了我们的分数。更重要的是,使用这些模型进行预测只需要一个 图形处理器,花费不到一分钟,并且消耗的能量只是 IFS 预测所需能量的一小部分。但这就是故事的全部吗?

这些完全由机器学习驱动的方法仍然严重依赖 IFS。 IFS 用于创建训练和验证数据 (ERA5),这对于任何 ML 模型都至关重要。此外,训练后,这些模型依赖于 IFS 的初始条件。

此外,天气预报的质量不仅仅是分数,因此问题就出现了:这些基于机器学习的模型是否能产生物理上一致且具有气象意义的预测?

其中一些模型已经公开,即华为的盘古天气和 NVIDIA 的 FourCastNet。在过去的几个月中,ECMWF 工作人员构建了基础设施,以便在易于使用的管道中运行这些模型。这些模型现在可以从我们的存档数据运行,输出以标准化格式保存,并且它们可以连接到我们的验证工具。这项工作中的一个工具已经发布,任何用户都可以探索这些预测的技巧。 

最新的基于机器学习的天气预报有多熟练? 

首先,已发布的基于机器学习的模型的总体得分经得起独立评估。当使用均方根误差 (RMSE) 或异常相关系数 (ACC) 等确定性分数进行评估时,盘古天气是 IFS 的有力竞争对手(例如,参见图 1)。这不仅适用于根据分析进行评估,也适用于观察,以及使用与 IFS 相同的初始条件(而不是从 ERA5 进行初始化,这是在公开论文中完成的)。

RMSE scores for IFS HRES forecasts and Pangu-Weather over Europe for winter 2022/23 at day 6

图 1:IFS 高分辨率预报 (HRES) 和欧洲盘古天气 2022/23 年冬季第 6 天 500 hPa 位势高度的均方根误差 (RMSE) 得分,根据业务分析进行测量。盘古天气和 IFS 的预测相当准确,并在 1 月底附近分享了预测“崩溃”的结果。 

然而,分数是可以优化的,并且机器学习模型经过训练可以做到这一点。 Pangu-Weather 和 FourCastNet 经过训练以最小化 RMSE。针对此类目标的训练可以平滑预测,并惩罚极端情况的预测。当然,天气预报对于危及生命的极端事件最有价值。

Average tropical cyclone track accuracy during 2018 for IFS HRES and Pangu-Weather

图 2:2018 年 IFS 高分辨率预报 (HRES) 和盘古天气的平均热带气旋追踪误差,根据 IBTrACS 进行测量。该统计数据基于热带风暴强度至少为 17m/s 的事件,条形突出显示 95% 置信区间。  

通过检查 Pangu-Weather 的热带气旋路径准确性,我们发现该 ML 模型在前 5 个预报日内的总体表现与 IFS 模型一样(图 2)。两天后盘古天气的微弱优势主要是由于沿轨误差的减少。

通过查看 2023 年热带气旋“弗雷迪”的案例研究(图 3),我们还发现,虽然 Pangu-Weather 很好地捕获了该位置(FourCastNet 的准确度稍差),但与气旋相关的风的极端性和对称性要低得多与分析和 IFS 进行比较。这是当前一代 ML 模型中使用的训练方法带来的另一个影响,即通过训练来优化 RMSE。