科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气

本文主要是介绍科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

By 超神经

内容一览:近期,来自美国科罗拉多州立大学与 SPC 的相关学者联合发布了一个基于随机森林的机器学习模型 CSU-MLP,该模型能够对中期 (4-8天) 范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。

关键词:恶劣天气   机器学习   随机森林   

作者 | 缓缓

编辑 | 三羊

天气预报尤其是恶劣天气预报对人们日常工作、生活等方面具有重要影响。Sigma 研究报告《经济积累和气候变化时期的自然灾害》(Natural catastrophes in times of economic accumulation and climate change) 显示,近年来恶劣天气对全球造成的损失不断加剧,仅 2019 年,相关灾害事件造成的全球经济损失就高达 1460 亿美元,保险损失高达 600 亿美元。并且,报告还称,随着恶劣天气灾害破坏性日益加重,未来相关损失会进一步加剧。因此,准确预测恶劣天气显得尤为迫切。

近期,美国科罗拉多州立大学的 Aaron J. Hill、Russ S. Schumacher 与国家海洋和大气管理局 (NOAA) 风暴预测中心 (SPC) 的 Israel Jirak 联合开发了一个基于随机森林的机器学习模型 CSU-MLP,该模型能够对中期(4-8天)范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。

4b550a0a903a6027ba122a0414d7a107.png

目前该成果已发布在《Weather and Forecasting》

论文地址:

https://arxiv.org/abs/2208.02383

 CSU-MLP 概述

美国恶劣天气预报一般是由上文提到的 SPC 使用数值天气预报 (numerical weather prediction,简称 NWP) 模型进行预报,该模型能够提前 1-2 天预警特定恶劣天气及发生的地点,但在提前 3-8 天时只能预警发生的地点,无法预测是哪种恶劣天气。

近十年来,一种高分辨率的数值天气预报模型 CAMs (convection-allowing models) 应运而生,小于 4 天(短期)时间范围内的预报变得更加精准,但对于中长期时间范围来说,预测效果却没有较大改观。这种背景下,机器学习逐步在气象学领域得到应用。

本项研究 CSU-MLP (Colorado State University Machine Learning Probabilities) 中,模型训练的气象数据来自全球几何预报系统 (Global Ensemble Forecast System version 12,简称为 GEFSv12) 再预报数据集 (以下简称 GEFS/R),该数据集包含了美国本土 20 年的详细历史天气数据。研究人员从中选取了 9 年(2003 年-2012 年)的数据作为本次中期预报研究训练集,选取了 2 年 (2020 年-2022 年) 作为测试集。

 随机森林算法 

本研究基于一个叫随机森林 (Random Forest,简称 RF) 的机器学习算法。所谓随机森林是一种基于集成学习(Ensemble Learning)的分类和回归算法。具体到本研究中,就是通过恶劣天气特征输入,遍历整个决策树从而得出恶劣天气的预测结果。

因此,在随机森林算法中,恶劣天气的特征输入的尤为重要,在本研究试验中,研究人员从上述提到的训练集中提取了 12 个与恶劣天气有关联的特征变量用作训练,具体特征变量如下表所示。

7005e40615c31c294f38ba3179b363bc.png

用于模型训练和预测的 12 个特征变量

不过,在 GEFS/R 数据集中,这些特征变量分辨率并不一致,为此研究人员进行了插值处理,将其统一到了 0.5 度网格间距 (dergee grid spacing)。

 特征工程 

本研究中除了采用随机森林进行中期恶劣天气预测分析能力,还简要探究了特征工程。所谓特征工程指一种处理数据的技术,用于从观测事件周围收集特征,并将其转换为机器学习算法可以使用的形式。具体到本试验中,研究人员主要提出了两种方法进行简化特征,包括空间平均 (spatially averaging the features) 和时滞方法 (time-lagging) 等。

空间平均是指在研究人员提出将每个预测空间点上所有特征变量的值取平均数,这样可以减少噪声数据的干扰从而提高模型性能。具体过程如下图所示。

5bbecfdacbc1cd39b959afc3f287c807.png

特征变量组合处理方式

时滞方法是指在预测或建模过程中,将过去一段时间的观测数据延迟应用于当前时间点的预测或建模中。

它基于假设,过去的观测数据可以提供有关当前状态和未来趋势的有用信息。本次试验中,研究人员使用了时滞方法来扩充 GEFS/R 数据集的规模,但这个过程并不会对模型产生额外的计算量。

 试验结果

研究人员使用 GEFSv12 的 1.5 年实时天气预报测试 CSU-MLP 预测结果,并与 SPC 生成的人工预报进行对比。相关试验结果显示,在中期预报范围内,基于随机森林的预报系统的准确性及预报地域范围都要优于 SPC,如下图所示。但是,随着时间范围的增大,二者的预报能力都会有所下降。

16e74105ee0c774cc04e65444b33e403.png

2022年3月27日,CSU-MLP与SPC中期预报对比

a 图是 CSU-MLP 的 4 天预报,b 图为 SPC 的 4 天预报。其中,被阴影覆盖的部分指的是恶劣天气的预测概率,圆形图标指的是 SPC 的龙卷风(红色)、冰雹(绿色)和风暴(蓝色)的局部预报,图片的左下角和右下角分别为评估天气预报准确性的预测技能得分 BSS 和评估局部天气预报代表性的观测覆盖率。

对此,研究人员总结,整个预测系统的技巧性和精确性都有了很大的提升,主要是因为基于随机森林的预测系统在连续概率以及低概率轮廓(表示恶劣天气的估计中,概率较低的区域所形成的轮廓)两方面预测能力很强

此外,研究人员还通过试验不同地区、不同因素(热力学和动力学)对于预报的影响,探究了特征变量对恶劣天气预报很重要。结果如下图所示。

82e28000088ad3e731350a9a8a7d9ba4.png

不同特征变量对天气预报很重要

虽然上述不同因素、不同地区对预报的具体影响还有待于深入研究,但从中研究人员作出了初步判断:这些不同的特征变量会被模型进一步学习并用来进行恶劣天气预报。这也说明,基于随机森林的预测系统经过进一步的训练完善,是具有一定可信性和实用性的。

当然,在本试验过程中,研究人员也提出了基于随机森林的预测系统仍有很多需要完善的部分。比如,CSU-MLP 还需要再加入 SPC 人工预报的预测数据,进一步提升机器学习预报结果的可信性。

 AI 智能气象新阶段或将到来

人类一直致力于理解并预测世界,其中较为成功的例子之一便是天气预报。古时候,人们大多依据生活经验来进行预报,如「朝霞不出门,晚霞行千里」等,到现代,科学家们开始使用传感器和气象卫星收集海量数据来进行更精准的预报。

值得关注的是,在气象学发展的现阶段,AI 的加入大大增强了天气预报的准确性。据外媒报道,近几年瑞士的气象研究人员通过引入 AI,成功预测到闪电的时间和地点,该模型目前预测准确性达到 80%。

同时早在 2015 年,IBM 公司就斥资 20 亿美元收购天气频道 (WeatherChannel) 母公司 Weather Co. 数码和数据资产,而该公司之所以花费如此大手笔,也正是计划将 Weather Co. 的天气数据和预测信息同旗下 AI 服务 Watson 相结合。可见,IBM 等巨头已经十分看好 AI 在气象学上的潜力,并已开始着手布局。

不难预测,虽然影响天气变化的客观因素成千上万,天气精准预报的难度依然较大,但随着 AI 和气象学融合的进一步加深,一个由 AI 定义的智能气象新时代或将加速来到。

P.S.:

本篇论文 code 及数据集后续会发布在 HyperAI超神经官网 Hyper.ai,感兴趣的伙伴们可以持续关注~

—— 完 ——

1f36bf6a982bd3969a61963eac9c4855.jpeg

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解更多

更多精彩内容(点击图片阅读)

18b988ba0684d00a820ac78b01f2a683.png

c5b27af62b67e677b7ac109dedc5cd13.png

84b8235ab9cbbe92cf4be01d6018911a.png

44421e6a166ec1803671a998238d2bb0.gif

这篇关于科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/829942

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

csu(背包的变形题)

题目链接 这是一道背包的变形题目。好题呀 题意:给n个怪物,m个人,每个人的魔法消耗和魔法伤害不同,求打死所有怪物所需的魔法 #include<iostream>#include<algorithm>#include<cstring>#include<stack>#include<queue>#include<set>//#include<u>#include<map

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了