基于集成学习的土壤含水量预测研究——以辽西地区为例.pdf
《基于集成学习的土壤含水量预测研究——以辽西地区为例.pdf》由会员分享,可在线阅读,更多相关《基于集成学习的土壤含水量预测研究——以辽西地区为例.pdf(11页珍藏版)》请在咨信网上搜索。
1、土 壤(Soils),2023,55(3):671681 基金项目:江西省“科技+水利”联合计划项目(2022KSG01002)和中国水利水电科学研究院防洪抗旱减灾工程技术研究中心青年创新人才推进项目资助。*通讯作者()作者简介:付平凡(1998),男,河南信阳人,硕士研究生,主要从事干旱监测研究。E-mail: http:/ DOI:10.13758/ki.tr.2023.03.025 付平凡,杨晓静,苏志诚,等.基于集成学习的土壤含水量预测研究以辽西地区为例.土壤,2023,55(3):671681.基于集成学习的土壤含水量预测研究以辽西地区为例 付平凡1,2,杨晓静1,2*,苏志诚1,2
2、,屈艳萍1,2,马苗苗1,2(1 中国水利水电科学研究院,北京 100038;2 水利部防洪抗旱减灾工程技术研究中心,北京 100038)摘 要:准确高效地预测土壤含水量(SMC)对田间水分管理至关重要。本研究利用在辽西地区自建的 3 个站点 20182021 年 10 40 cm 土壤水分自动观测小时数据集,分析研究随机森林(random forest,RF)和梯度提升机(gradient boosting machine,GBM)算法在SMC 预测方面的适用性,验证不同时间尺度 SMC 的预测结果。同时引入 SHAP(shapley additive explanations)方法表征 5
3、 类(降水、日照时数、平均相对湿度、风速、平均气温)输入变量对 SMC 预测结果的影响,并制定区间划分规则识别变量最大贡献阈值区间。研究结果表明:年尺度下,SMC 预测 GBM 模型和 RF 模型 R2分别为 0.982 和 0.888,气温贡献最大,最大贡献区间是 21 23;季尺度下,2 种模型 R2分别为 0.935 和 0.863,日照时数贡献最大,最大贡献区间为 2 4 h。该研究创新应用 SHAP 方法于机器学习输入变量贡献度分析,同时验证了 2 种机器学习算法对 SMC 预测研究的准确性,可为 SMC 相关研究提供参考。关键词:集成学习;土壤含水量预测;梯度提升机;随机森林;辽宁
4、西部;SHAP 值 中图分类号:S152.7 文献标志码:A Prediction of Soil Moisture Content Based on Ensemble Learning A Case Study of Western Liaoning Province FU Pingfan1,2,YANG Xiaojing1,2*,SU Zhicheng1,2,QU Yanping1,2,MA Miaomiao1,2(1 China Institute of Water Resources and Hydropower Research,Beijing 100038,China;2 Rese
5、arch Center of Flood Control,Drought Relief,and Mitigation Engineering,Ministry of Water Resources,Beijing 100038,China)Abstract:Accurate and efficient prediction of soil moisture content(SMC)is vital for field water management.In this study,two types of ensemble learning models(RF and GBM)were used
6、 to compare their applicability in SMC prediction based on the automatic hourly SMC data at 1040 cm during 20182021 from three self-built sites in the western Liaoning area,the prediction results were also compared and verified at annual and seasonal scales.The SHAP(Shapley Additive Explanations)met
7、hod was introduced to quantitatively characterize the effects of five input variables(precipitation,sunshine hour,average relative humidity,wind speed and average temperature)on SMC prediction.Interval division rules were developed to identify the interval of maximum contribution threshold of variab
8、les.The results show that R2 of GBM and RF models are 0.982 and 0.888 respectively on annual scale,temperature is the most important factor with the maximum contribution range of 2123,while R2 of the two models are 0.935 and 0.863 respectively on seasonal scale,sunshine hour is the most important fa
9、ctor with the maximum contribution range of 24 hours.This study innovatively applied SHAP method to analyze the contribution rates of input variables of machine learning,and verified the results of RF and GBM methods in SMC prediction,which can provide reference for related study on SMC.Key words:En
10、semble learning;Soil moisture content forecasting;Gradient boosting machine;Random forest;Western Liaoning;SHAP value 土壤水分是区域水循环、农业灌溉管理和气候变化的特征要素之一,其在水文、气象、农业等学科中也具有重要的作用1。土壤含水量(soil moisture content,SMC)是地表植被吸收水分的主要来源,其672 土 壤 第 55 卷 http:/ 对作物的生长发育至关重要2。因此,准确预测土壤含水量对作物增产和粮食安全具有重要意义。目前主要的土壤水分预测方法有经
11、验模型法3、土壤水动力学法4、时间序列模型法5以及机器学习算法6等。近年来,随着计算机技术的快速发展,机器学习算法已成为一种重要的预测土壤含水量的手段7。集成学习(ensemble learning)是通过构建并结合多个机器学习器来完成任务,具有较强的泛化能力8。由于集成学习模型相比传统机器学习模型在性能上表现更为出色,目前集成学习中的随机森林(random forest,RF)和梯度提升机(gradient boosting machine,GBM)模型已在农业干旱监测、骤发性干旱研究等领域有所应用9-10。Cai 等11结合 GBM 与 RF模型系统论证了这两种方法预测净生态系统碳交换的有
12、效性;Prodhan 等12也将 RF 和 GBM 进行非线性集成,利用 ISI-MP 作物模型定量分析了未来干旱对作物产量的影响。以上研究都表明,RF 和 GBM模型具有较好的实用性,但此类方法在土壤含水量预测的适用性研究上亟待进一步深入。由于机器学习模型是黑箱模型,现有的多数研究主要基于评估指标来对模型的结果进行评价,而针对输入变量对预测结果影响的研究还相对较少。为解决这一问题,Lundberg 和 Lee13在 2017 年提出了SHAP(shapley additive explanations)方法,该方法基于合作博弈理论定量化表征每个特征对最终预测值的影响,增加了模型的可解释性。近
13、年来,已有研究利用 SHAP 方法解释机器学习模型,王鑫等14融合LightGBM 模型与 SHAP 方法分析得出了血清胰岛素、葡萄糖浓度和年龄是患者是否患有糖尿病的关键因素;Kannangara 等15利用 RF 模型和 SHAP 方法,分析了 9 个输入变量对隧道开挖引起沉降的影响,结果表明土壤类型的影响最大。目前 SHAP 方法已应用于金融欺诈、污水处理、电力系统紧急控制等领域输入变量对预测结果的贡献研究16-18,但在土壤水分预测方面上的应用还相对较少。因此,将 SHAP 方法应用于土壤含水量预测研究,可定量识别输入变量对土壤含水量的贡献程度,为缺省输入因子情况下的变量选择提供依据。本
14、文拟将集成学习中的 RF、GBM 算法应用到土壤含水量预测研究,拓展验证 2 种算法在土壤含水量模拟预测中的适用性;且为解释各变量对于预测模型的影响,引入 SHAP 方法定量评估集成学习模型输入变量的贡献程度,并基于制定的区间划分规则识别特征敏感阈值区间,为解释输入变量对预测值的影响和土壤含水量预测方法的选择提供新的参考。1 数据与方法 1.1 研究区概况 研究区为辽西地区(119.70 E 122.53 E,40.35 N 42.24 N),包括阜新、朝阳、葫芦岛和锦州 4 市,属于温带大陆性季风气候,多年平均降水量约为 450 700 mm,其中夏季降水量约占全年降水量的 2/3。全年四季
15、分明,雨热同期,日照丰富,年均温 7.2 8.3。根据 2021 年辽宁省统计年鉴的结果,辽西地区主要的粮食作物为玉米,占全省粮食作物种植面积的 41.2%。区域内含辽西走廊和辽西北部低山丘陵 2 个区域,地势呈现西北高、东南低的空间分布态势19。研究所选墒情站点均位于玉米种植区,其空间分布如图 1 所示。凌海站位于低山丘陵区的凌海市东部,土壤类型为棕壤;孙家湾站位于朝阳市东北部大凌河干流附近,地形为黄土丘陵,土壤类型为褐黄土;叶柏寿站位于朝阳市建平县南部,地形为丘陵坡地,土壤类型为褐黄土。1.2 数据来源与质量控制 1.2.1 数据来源 研究应用的数据主要包括小时土壤含水量数据集和气象要素数
16、据集。1)小时土壤含水量数据集来源。2018 年 7 月在辽西地区选址(大凌河出口的凌海站,干流中部附近的孙家湾站,支流的叶柏寿站)并安装 3 套土壤墒情自动监测系统。该系统所使用的土壤水分传感器长期埋设在野外大田的测点中,并基于时域反射原理(time domain reflectometry,TDR)对不同深度土壤进行土壤体积含水量测定。站点的数据时间序列始于2018 年 7 月,10 40 cm 深度传感器实时接收间隔为1 h 的土壤墒情数据。为验证数据的有效性,分季节进行 7 次人工取土实验,利用烘干法将测定的土壤含水量与自动监测站监测结果进行对比,对比结果表明各深度土壤含水量同步监测差
17、值小于 10%。2)气象要素数据集来源。由于墒情站点的数据序列起始时间为 2018 年 7 月,为匹配对应日期的墒情数据,选择 20182021 年气象数据作为模型输入变量,气象数据来源于中国气象数据网(http:/ 个气象站点气象要素包括逐日的降水、日照时数、平均相对湿度、风速、平均气温。1.2.2 数据质量控制 为降低异常数据对模型预测结果准确性的扰动,从两个方面对数据进行质量控制。第 3 期 付平凡等:基于集成学习的土壤含水量预测研究以辽西地区为例 673 http:/ 图 1 研究区和 3 个试验站点示意图 Fig.1 Location of study area and three
18、experimental stations 1)数据有效性控制。为保证数据集的有效性,将墒情站和气象站空值数据剔除后,孙家湾站共有数据1 099 条,叶柏寿站共有数据 1 202 条,凌海站共有数据 1 177 条。2)数据量纲控制。为避免不同输入变量之间数量级别和量纲的影响,将输入和输出数据进行归一化处理,计算公式如下:*minmaxminxxxxx(1)式中:x*为归一化后的样本集;x 为原始样本集;xmin为原始样本集最小值,xmax为原始样本集最大值。将每日 8:00 的土壤墒情数据作为当日值,并按照 82的分配原则进行训练集和测试集的划分。1.3 研究方法 1.3.1 集成学习 集成
19、学习是一种融合多个机器学习模型的集成模型,通过某种融合策略常可获得比单一模型显著优越的泛化性能。集成学习不仅能够实现模型之间的优势互补,还能减少对训练所需数据的依赖程度20。常用的融合策略有 3 种:Bagging、Boosting 和 Stacking。本研究采用 Bagging 中的 RF、Boosting 中的梯度提升决策树(GBDT)算法,所使用的 2 种方法的建模过程均在 Python 语言环境下加载scikit-learn 实现。梯度提升机(gradient boosting machine,GBM)是由Friedman21提出的一种流行机器学习的集成方法。为了解决回归和分类问题,
20、GBM 通常是以决策树弱模型组合的形式,周期性地构造出一个鲁棒模型。Gradient Boosting 与一般的 Boosting 算法一样,也是一个迭代的过程,Gradient Boosting 每个新的模型是沿着前面模型的残差减少的梯度方向上建立,每次的训练是为了改进上一次的回归结果。为了减少模型的残差(residual),通常采用牛顿拉弗森方法(Newton-Raphson method)在残差减少的梯度(Gradient)方向拟合一个新的模型22。由 GBM 构建的梯度提升回归模 型有 5 个需要优化的参数,分别为学习率(learning_rate)、损 失 函 数(loss)、决 策
21、 树 的 数 量(n_estimators)、决策树的深度(max_depth)和建立决策树 时 选择 的最 大 特征 数目(max_features)。利 用GridSearchCV 方法23进行超参数随机匹配择优,经过 调 参 后,n_estimators=300,max_depth=10,max_features=2,loss=huber函数,learning_rate=0.1为最优参数。随机森林(random forest,RF)算法是一种通过集成 大 量 的 决 策 树 来 改 进 分 类 和 回 归 的 方 法。Breiman24引入的 RF 是一种基于 bootstrap 聚合的
22、决策树集合,通过随机选取广泛应用于回归问题的预测器子集,计算预测变量并基于预测变量的数据分割,得到因变量的均方根误差(RMSE)最佳估计。在 RF回归中,引入的 RF 算法将自动创建随机决策树群,通过从训练数据集中选择随机变量集,并采用随机有674 土 壤 第 55 卷 http:/ 放回抽样的方法来构建每棵树,最后通过对所有树的均衡化结果来计算观测值的预测值。RF 模型有 3 个需要优化的参数:决策树的数量(n_estimators)、决策树的深度(max_depth)和建立决策树时选择的最大特征数目(max_features)。利用 GridSearchCV 方法进行超参数随机匹配择优,经
23、过调参后,n_estimators=900,max_depth=15,max_features=5 是最优参数。1.3.2 模型评价指标 选用平均绝对误差(MAE)、决定系数(R2)25和均方根误差(RMSE)3 种指标分别对 GBM、RF 预测模型进行预测效果评估。评价指标计算公式如下:11MAEniiiyyn(2)211RMSEniiiyyn(3)221211niiiniiiyyRyy (4)式中:iy是土壤含水量预测值;yi是真实值;iy是平均值。MAE 是绝对误差的平均值,它能够反映预测值误差的实际情况。RMSE 是含水量估计值与真值之差的平方的期望值,可以评价数据的变化程度。R2可以
24、消除维数对评价测度的影响。MAE 和 RMSE 越小表明预测结果越好,R2越大表明预测结果越好。1.3.3 SHAP 方法 SHAP 方法是一种直观的、合理的解释模型的方法,该方法通过计算每个特征对预测值的贡献来解释特征,所使用的值(SHAP 值)可定量化表征各个特征对预测值的贡献,SHAP 值越大表明该特征对于预测值的贡献越大。SHAP 方法是以合作博弈理论为基础计算 SHAP 值,特征值的 SHAP值是对所有可能的特征值组合进行加权求和,其公式如下:j1,val!1!valval!SpjSpSSjSp(5)式中:S 是模型中使用的特征的子集,表示 j 这些特征不包括在集合 S 中;p 是特
25、征的数量;val(S)是对集合 S 中特征值的预测;j表示 val 第 j 个特征的贡献。2 结果与分析 2.1 年尺度预测结果对比 选取 20182021 年土壤 10 40 cm 深度含水量数据进行训练,基于 RF、GBM 算法构建土壤含水量预测模型。对比 2 种模型测试集的预测结果(表 1)发现,10 40 cm 深度预测精度相差较小,R2差值都在0.1 以内。GBM 模型预测精度较高,10 40 cm 深度R2值均大于 0.94,MAE 和 RMSE 均值均小于 0.006和 0.026;RF 模型预测精度略差,10 40 cm 深度R2均值范围为 0.881 0.891,MAE 和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 集成 学习 土壤含水量 预测 研究 辽西 地区
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。