本文主要是介绍基于机器学习的青藏高原高寒沼泽湿地蒸散发插补研究_王秀英_2022,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
基于机器学习的青藏高原高寒沼泽湿地蒸散发插补研究_王秀英_2022
- 摘要
- 关键词
- 1 材料和方法
- 1.1 研究区概况与数据来源
- 1.2 研究方法
- 2 结果和分析
- 2.1 蒸散发通量观测数据缺省状况
- 2.2 蒸散发与气象因子的相关性分析
- 2.3 不同气象因子输入组合下各模型算法精度对比
- 2.4 随机森林回归模型插补结果分析
- 3 讨论
- 4 结论
摘要
本文以青藏高原典型高寒沼泽湿地为观测研究站, 以实际蒸散发为研究对象, 结合气象因子(净辐射、气温、土壤热通量、风速、相对湿度、土壤含水率), 建立基于多元线性回归(MLR)、决策树(CART)、随机森林(RF)、支持向量回归(SVR)、多层感知机(MLP) 7种组合5类算法的预测模型, 找出对于蒸散发具有较高精度的插补方法, 实现实际蒸散发数据集的构建。
关键词
机器学习; 高寒沼泽湿地; 蒸散发; 交叉验证
1 材料和方法
1.1 研究区概况与数据来源
试验地位于中国气象局青海高寒生态气象野外科学试验基地隆宝试验站(简称隆宝站) (图1)。
本研究选取隆宝站2019年1–10月涡度相关系统所观测的原始数据(其他观测时段缺测)。本研究采用站点30 min的有效气象因子和蒸散发观测值研究机器学习算法的插补效果。将每月30 min气象因子净辐射(W·m–2)、气温(℃)、相对湿度(%)、土壤热通量(W·m–2)、风速(m·s–1)、土壤含水率(%)作为输入变量, 相应月份的30 min蒸散发观测值作为输出变量, 并将每月观测值的70%作为训练集, 30%作为测试集, 按月单独进行训练, 采用机器学习回归算法插补缺失或丢弃的数据以获得完整通量时间序列。
1.2 研究方法
1.2.1 多元线性回归算法
1.2.2 决策回归树算法
1.2.3 随机森林算法
1.2.4 支持向量回归算法
1.2.5 多层感知机算法
2 结果和分析
2.1 蒸散发通量观测数据缺省状况
本研究地点是以高寒沼泽湿地为下垫面的隆宝试验站, 其2019年1–10月(11、12月缺测)蒸散发通量观测数据缺失状况如表1所示, 2019年数据平均缺失率为17%。
2.2 蒸散发与气象因子的相关性分析
结果如表2所示, 研究区蒸散发与所选气象因子存在显著相关关系, 相关性大小关系为: 净辐射>土壤热通量>相对湿度>气温>风速>土壤温度>土壤含水率。
2.3 不同气象因子输入组合下各模型算法精度对比
根据表2气象因子与蒸散发相关性分析, 选取平均相关系数从大到小的气象因子为特征组合, 基于7个特征组合方案, 分别建立7个基于机器学习算法模型, 输入的气象因子模型特征组合及模型精度如表3、4所示。
不同气象因子对蒸散发的重要性不同, 利用算法模型中重要性估计方法, 可以得出主要影响蒸散发的气象因子, 图2给出了5个气象因子重要性排序(土壤温度和土壤含水率重要性几乎为0, 图中未作显示), 相对重要性从大到小依次为: 土壤热通量、净辐射、气温、风速、相对湿度
2.4 随机森林回归模型插补结果分析
2.4.1 模型参数调优
选用随机森林算法, 利用组合1进行蒸散值的插补, 为了提高随机森林回归模型插补精度 , 用交叉验证法(GridSearchCV), 寻找最优超参数。当参数max_features为0.9, max_depth为6时, 误差error_score达到最低(0.3左右), 此时, GridSearchCV返回的最优分数为0.90 (图3)。
2.4.2 插补结果分析
利用已训练好的插补模型对隆宝站2019年缺失蒸散发进行插补, 结果见表5所示。
图4为插补精度最高(10月)和最低(6月)两个月的插补效果。图5为随机森林插补精度最高(10月)和最低(6月)的插补精度验证图。
图6可以看出, 净辐射、土壤热通量、气温与蒸散发日尺度变化趋势基本一致, 呈正相关关系; 风速、相对湿度与蒸散发变化趋势相反, 呈负相关关系。
3 讨论
4 结论
(1)研究区蒸散发与所选气象因子存在显著相关关系, 相关性大小关系为: 净辐射>土壤热通量>
相对湿度>气温>风速>土壤温度>土壤含水率。
(2)依据随机森林模型中重要性估计方法, 高寒沼泽湿地影响蒸散发的气象因子相对重要性由大到小依次为: 土壤热通量、净辐射、气温、风速、相对湿度。
(3) 7种组合的5类机器学习算法模型的R2变化范围为0.58–0.83, RMSE变化范围为0.038–0.089 mm·30 min–1。5种算法模型的R2最大为随机森林算法, 最小为多层感知机算法。随机森林算法在不同气象因子组合下的插补表现最优, 在5个算法模型中拟合精度始终保持在最高值, RMSE在最低值, 精度和稳定性最佳。针对7种不同气象因子组合, 组合1 的随机森林效果最优。利用交叉验证法(GridSearchCV)搜索最优超参数, 返回的最优参数max_features为0.9, max_depth为6, 最优分数达到0.90。
这篇关于基于机器学习的青藏高原高寒沼泽湿地蒸散发插补研究_王秀英_2022的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!