科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气

本文主要是介绍科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

By 超神经

内容一览:近期,来自美国科罗拉多州立大学与 SPC 的相关学者联合发布了一个基于随机森林的机器学习模型 CSU-MLP,该模型能够对中期 (4-8天) 范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。

关键词:恶劣天气   机器学习   随机森林   

作者 | 缓缓

编辑 | 三羊

天气预报尤其是恶劣天气预报对人们日常工作、生活等方面具有重要影响。Sigma 研究报告《经济积累和气候变化时期的自然灾害》(Natural catastrophes in times of economic accumulation and climate change) 显示,近年来恶劣天气对全球造成的损失不断加剧,仅 2019 年,相关灾害事件造成的全球经济损失就高达 1460 亿美元,保险损失高达 600 亿美元。并且,报告还称,随着恶劣天气灾害破坏性日益加重,未来相关损失会进一步加剧。因此,准确预测恶劣天气显得尤为迫切。

近期,美国科罗拉多州立大学的 Aaron J. Hill、Russ S. Schumacher 与国家海洋和大气管理局 (NOAA) 风暴预测中心 (SPC) 的 Israel Jirak 联合开发了一个基于随机森林的机器学习模型 CSU-MLP,该模型能够对中期(4-8天)范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。

4b550a0a903a6027ba122a0414d7a107.png

目前该成果已发布在《Weather and Forecasting》

论文地址:

https://arxiv.org/abs/2208.02383

 CSU-MLP 概述

美国恶劣天气预报一般是由上文提到的 SPC 使用数值天气预报 (numerical weather prediction,简称 NWP) 模型进行预报,该模型能够提前 1-2 天预警特定恶劣天气及发生的地点,但在提前 3-8 天时只能预警发生的地点,无法预测是哪种恶劣天气。

近十年来,一种高分辨率的数值天气预报模型 CAMs (convection-allowing models) 应运而生,小于 4 天(短期)时间范围内的预报变得更加精准,但对于中长期时间范围来说,预测效果却没有较大改观。这种背景下,机器学习逐步在气象学领域得到应用。

本项研究 CSU-MLP (Colorado State University Machine Learning Probabilities) 中,模型训练的气象数据来自全球几何预报系统 (Global Ensemble Forecast System version 12,简称为 GEFSv12) 再预报数据集 (以下简称 GEFS/R),该数据集包含了美国本土 20 年的详细历史天气数据。研究人员从中选取了 9 年(2003 年-2012 年)的数据作为本次中期预报研究训练集,选取了 2 年 (2020 年-2022 年) 作为测试集。

 随机森林算法 

本研究基于一个叫随机森林 (Random Forest,简称 RF) 的机器学习算法。所谓随机森林是一种基于集成学习(Ensemble Learning)的分类和回归算法。具体到本研究中,就是通过恶劣天气特征输入,遍历整个决策树从而得出恶劣天气的预测结果。

因此,在随机森林算法中,恶劣天气的特征输入的尤为重要,在本研究试验中,研究人员从上述提到的训练集中提取了 12 个与恶劣天气有关联的特征变量用作训练,具体特征变量如下表所示。

7005e40615c31c294f38ba3179b363bc.png

用于模型训练和预测的 12 个特征变量

不过,在 GEFS/R 数据集中,这些特征变量分辨率并不一致,为此研究人员进行了插值处理,将其统一到了 0.5 度网格间距 (dergee grid spacing)。

 特征工程 

本研究中除了采用随机森林进行中期恶劣天气预测分析能力,还简要探究了特征工程。所谓特征工程指一种处理数据的技术,用于从观测事件周围收集特征,并将其转换为机器学习算法可以使用的形式。具体到本试验中,研究人员主要提出了两种方法进行简化特征,包括空间平均 (spatially averaging the features) 和时滞方法 (time-lagging) 等。

空间平均是指在研究人员提出将每个预测空间点上所有特征变量的值取平均数,这样可以减少噪声数据的干扰从而提高模型性能。具体过程如下图所示。

5bbecfdacbc1cd39b959afc3f287c807.png

特征变量组合处理方式

时滞方法是指在预测或建模过程中,将过去一段时间的观测数据延迟应用于当前时间点的预测或建模中。

它基于假设,过去的观测数据可以提供有关当前状态和未来趋势的有用信息。本次试验中,研究人员使用了时滞方法来扩充 GEFS/R 数据集的规模,但这个过程并不会对模型产生额外的计算量。

 试验结果

研究人员使用 GEFSv12 的 1.5 年实时天气预报测试 CSU-MLP 预测结果,并与 SPC 生成的人工预报进行对比。相关试验结果显示,在中期预报范围内,基于随机森林的预报系统的准确性及预报地域范围都要优于 SPC,如下图所示。但是,随着时间范围的增大,二者的预报能力都会有所下降。

16e74105ee0c774cc04e65444b33e403.png

2022年3月27日,CSU-MLP与SPC中期预报对比

a 图是 CSU-MLP 的 4 天预报,b 图为 SPC 的 4 天预报。其中,被阴影覆盖的部分指的是恶劣天气的预测概率,圆形图标指的是 SPC 的龙卷风(红色)、冰雹(绿色)和风暴(蓝色)的局部预报,图片的左下角和右下角分别为评估天气预报准确性的预测技能得分 BSS 和评估局部天气预报代表性的观测覆盖率。

对此,研究人员总结,整个预测系统的技巧性和精确性都有了很大的提升,主要是因为基于随机森林的预测系统在连续概率以及低概率轮廓(表示恶劣天气的估计中,概率较低的区域所形成的轮廓)两方面预测能力很强

此外,研究人员还通过试验不同地区、不同因素(热力学和动力学)对于预报的影响,探究了特征变量对恶劣天气预报很重要。结果如下图所示。

82e28000088ad3e731350a9a8a7d9ba4.png

不同特征变量对天气预报很重要

虽然上述不同因素、不同地区对预报的具体影响还有待于深入研究,但从中研究人员作出了初步判断:这些不同的特征变量会被模型进一步学习并用来进行恶劣天气预报。这也说明,基于随机森林的预测系统经过进一步的训练完善,是具有一定可信性和实用性的。

当然,在本试验过程中,研究人员也提出了基于随机森林的预测系统仍有很多需要完善的部分。比如,CSU-MLP 还需要再加入 SPC 人工预报的预测数据,进一步提升机器学习预报结果的可信性。

 AI 智能气象新阶段或将到来

人类一直致力于理解并预测世界,其中较为成功的例子之一便是天气预报。古时候,人们大多依据生活经验来进行预报,如「朝霞不出门,晚霞行千里」等,到现代,科学家们开始使用传感器和气象卫星收集海量数据来进行更精准的预报。

值得关注的是,在气象学发展的现阶段,AI 的加入大大增强了天气预报的准确性。据外媒报道,近几年瑞士的气象研究人员通过引入 AI,成功预测到闪电的时间和地点,该模型目前预测准确性达到 80%。

同时早在 2015 年,IBM 公司就斥资 20 亿美元收购天气频道 (WeatherChannel) 母公司 Weather Co. 数码和数据资产,而该公司之所以花费如此大手笔,也正是计划将 Weather Co. 的天气数据和预测信息同旗下 AI 服务 Watson 相结合。可见,IBM 等巨头已经十分看好 AI 在气象学上的潜力,并已开始着手布局。

不难预测,虽然影响天气变化的客观因素成千上万,天气精准预报的难度依然较大,但随着 AI 和气象学融合的进一步加深,一个由 AI 定义的智能气象新时代或将加速来到。

P.S.:

本篇论文 code 及数据集后续会发布在 HyperAI超神经官网 Hyper.ai,感兴趣的伙伴们可以持续关注~

—— 完 ——

1f36bf6a982bd3969a61963eac9c4855.jpeg

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解更多

更多精彩内容(点击图片阅读)

18b988ba0684d00a820ac78b01f2a683.png

c5b27af62b67e677b7ac109dedc5cd13.png

84b8235ab9cbbe92cf4be01d6018911a.png

44421e6a166ec1803671a998238d2bb0.gif

这篇关于科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/829942

相关文章

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1

定价129元!支持双频 Wi-Fi 5的华为AX1路由器发布

《定价129元!支持双频Wi-Fi5的华为AX1路由器发布》华为上周推出了其最新的入门级Wi-Fi5路由器——华为路由AX1,建议零售价129元,这款路由器配置如何?详细请看下文介... 华为 Wi-Fi 5 路由 AX1 已正式开售,新品支持双频 1200 兆、配有四个千兆网口、提供可视化智能诊断功能,建

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

DeepSeek模型本地部署的详细教程

《DeepSeek模型本地部署的详细教程》DeepSeek作为一款开源且性能强大的大语言模型,提供了灵活的本地部署方案,让用户能够在本地环境中高效运行模型,同时保护数据隐私,在本地成功部署DeepSe... 目录一、环境准备(一)硬件需求(二)软件依赖二、安装Ollama三、下载并部署DeepSeek模型选