本文主要是介绍19KDD AccuAir Winning Solution to Air Quality Prediction for KDD Cup 2018,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目的:用空气质量、meteorology (气象学)、spatial topology (空间拓扑)、天气预报、站点信息、时间信息来预测空气质量。
难点:影响因素多,参量之间的影响是非线性的且具有时空特性,突变的噪声性质,有未知参量的影响。
解决方案:建立了LightGBM、spatial-temporal gated DNN、Seq2Seq model三个模型,分别用现有数据集训练;再训练一个线性模型将上述三个模型的结果合并起来作为预测的输出。
另外说一下,集成学习(ensemble learning)的方法经常用于各种竞赛中,可以说是刷榜必备。
related work
related work介绍了气象学模型,静态学习模型,深度学习模型(基于时间序列)来解决空气质量预测的问题。提出完成此任务要提出融合多种时空信息的策略,这是解决问题的关键。
提出的方法
总体模型架构如下图:
-
LightGBM:特征选择器,比较稳定
-
spatial-temporal gated DNN:有处理时空响应的能力
-
Seq2Seq model:编码输入,解码输出
LightGBM
LightGBM是基本的baseline,spatial-temporal gated DNN提取时空信息。Seq2Seq model做编解码,能对快速变化的输入产生良好的反应。本文分为了四个步骤训练LightGBM。第一步使用72h的气象学数据训练模型,得到的效果很差。第二步加入天气预测数据,效果比第一次好。第三步加入了历史空气质量数据,效果提示明显。第四步加入城市中12个站的数据,效果又得到提升。
Spatial-temporal Gated DNN
为了解决深度神经网络对于时间信息的不敏感性,本文提出时空门的概念,可以控制信号的长度。网络结构如下图:
ps:swish是一个激活函数:swish(x)=x*sigmoid(bx)
Sequence to Sequence Model
用GRU做循环单元。用历史数据72h,预测未来48h。网络结构如下图:
对于缺失数据用了另一篇文章提到的方法。
结果分析
4.1先介绍了评测指标。4.2和别的参赛队伍的比较。4.3用控制变量法分析输入特征的作用,并说明了用线性回归模型来整合三个模型的输出结果。
这篇关于19KDD AccuAir Winning Solution to Air Quality Prediction for KDD Cup 2018的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!