基于特征集成学习的四川省土壤厚度预测.pdf
《基于特征集成学习的四川省土壤厚度预测.pdf》由会员分享,可在线阅读,更多相关《基于特征集成学习的四川省土壤厚度预测.pdf(9页珍藏版)》请在咨信网上搜索。
1、土 壤(Soils),2023,55(4):894902 基金项目:中国烟草总公司四川省公司科技项目(SCYC202103)、中国烟草总公司重点研发项目(110202102038)和南京工业职业技术大学引进人才科研启动基金项目资助。*通讯作者(zj_)作者简介:陈玉蓝(1990),女,四川宜宾人,博士研究生,主要研究领域为土壤肥料。E-mail: http:/ DOI:10.13758/ki.tr.2023.04.024 陈玉蓝,梁太波,张艳玲,等.基于特征集成学习的四川省土壤厚度预测.土壤,2023,55(4):894902.基于特征集成学习的四川省土壤厚度预测 陈玉蓝1,梁太波2,张艳玲2
2、,王 勇1,袁大刚3,朱 俊4*,李德成5(1 四川省烟草公司凉山州公司,四川西昌 615000;2 中国烟草总公司郑州烟草研究院,郑州 450001;3 四川农业大学资源学院,成都 611130;4 南京工业职业技术大学计算机与软件学院,南京 210023;5 中国科学院南京土壤研究所,南京 210008)摘 要:以四川省土壤厚度预测为例,为农业生产与生态环境评价中土壤厚度空间分布图的编制提供方法支持。对比分析了随机森林、分位数回归森林、支持向量机、集成学习模型对连续型土壤厚度的预测精度,并提出了一种基于特征集成学习的土壤厚度类型预测算法。研究结果表明:四川省土壤厚度具有较高的空间异质性,控
3、制其空间变化的主要地形因子包括谷底平坦综合指数、高程与地形湿度指数;四川省土壤厚度预测模型的决定系数为 0.32 0.47,均方根误差为 0.28 0.41 m;面向连续型土壤厚度预测的集成模型具有较高的预测精度与稳健性,能够充分集成子模型的优势。特征集成学习能够有效集成并融合了连续型土壤厚度预测与离散型土壤厚度类型预测结果,通过减少方差来提高预测结果的稳健性。关键词:数字土壤制图;机器学习;集成学习;四川省 中图分类号:S158.3 文献标志码:A Spatial Prediction of Soil Thicknesses in Sichuan Province Based on Feat
4、ure-Ensemble Learning CHEN Yulan1,LIANG Taibo2,ZHANG Yanling2,WANG Yong1,YUAN Dagang3,ZHU Jun4*,LI Decheng5(1 Liangshan Branch of Sichun Tobacco Company,Xichang,Sichuan 615000,China;2 Zhengzhou Tobacco Research Institute of CNTC,Zhengzhou 450001,China;3 College of Resources,Sichuan Agricultural Univ
5、ersity,Chengdu 611130,China;4 School of Computer and Software,Nanjing Vocational University of Industry Technology,Nanjing 210023,China;5 Institute of Soil Science,Chinese Academy of Sciences,Nanjing 210008,China)Abstract:This study compared the prediction accuracy of random forest,quantile regressi
6、on forest,support vector machine and ensemble learning in mapping soil thickness taken as a continuous variable,where the machine learning models were weighted as individual models.Furthermore,a feature-ensemble learning algorithm was proposed for mapping soil thickness,in which soil thicknesses was
7、 classified as a new categorical variable,and the discrete predictions were further weighted with the predicted continuous soil thicknesses.The results showed that soil thicknesses in Sichuan Province were characterized with high spatial variation,of which the dominated drivers included multiresolut
8、ion index of valley bottom flatness,elevation and topographic wetness index.The overall performance of prediction models in terms of coefficients of determinations and root mean square errors were 0.320.47 and 0.280.41 m,respectively.For the prediction of continuous soil thickness,ensemble models ha
9、d low errors than those of individual models.For soil thickness types,the proposed feature-ensemble learning algorithm achieved higher robustness than other considered models by reducing the variance of prediction.Key words:Digital soil mapping;Machine learning,Ensemble learning;Sichuan Province 土壤厚
10、度是土壤质量评价、土壤碳库估算与水土保持最重要的物理指标之一1。土壤性质的垂直变异程度受到土壤厚度的直接影响,因此土壤厚度是土壤属性空间变化模拟乃至土壤时空变异特征研究的重要主题2。通常情况下,土壤厚度是通过土壤剖面的调查来获得的。我国中西部山地地区道路可达性较差、面积较大,这就导致我国部分地区难以获得详实的土壤厚第 4 期 陈玉蓝等:基于特征集成学习的四川省土壤厚度预测 895 http:/ 度调查数据。基于土壤景观范式,数字土壤制图通过集成地理信息系统技术、遥感分析技术与计算机模拟技术来量化土壤属性的时空变异特征,已受到国内外土壤学界的普遍接受。目前,数字土壤制图的主流技术已从传统的地统计
11、学发展为机器学习3。有别于其他土壤理化属性,土壤厚度与成土要素(例如气候、地形)的相关性较低,常规的机器学习算法预测性能往往不够理想。国内外学者对土壤厚度预测过程中的数据获取4、环境变量筛选5-7、预测模型改进8-11、预测不确定性分析12-13进行了探讨。相关研究表明,地形是预测土壤厚度最重要的环境变量之一14,机器学习算法在表征土壤厚度空间变异方面具有较高的适宜性6。在实际生产过程中,技术人员往往不太关心土壤厚度的准确数值,而更关注土体厚度是否能够满足特定的应用。例如,如果土壤剖面中 A 层与 B 层厚度之和大于 60 cm,在不考虑地形对于水土流失影响的情况下,该土壤可能就适宜于农业生产
12、。需要指出的是,野外调查获取到的土壤厚度数据往往基于挖掘或观察到的土壤剖面,受限于调查手段而无法获取到准确的土壤厚度信息,尤其是在土壤厚度大于 2 m 时。因此,获取准确的土壤厚度类型数据在实际应用上具有重要的意义。由于影响土壤厚度空间分布的环境变量种类较多,准确量化土壤厚度与环境变量之间的关系往往受到预测模型性能的影响,而且预测模型往往基于不同的理论假设,其预测结果在不同地形区的不确定性也不尽相同。因此,如何使用集成学习方法有机结合复杂景观区的预测模型,进而获得比单一种类预测模型更加优越的泛化性能是一个迫切需要解决的科学问题。在前人已有相关工作的基础上,本文以四川省的土壤厚度预测为例,对比分
13、析不同机器学习算法预测土壤厚度的精度,提出一种基于特征集成学习的土壤厚度预测方法,以提升土壤厚度空间预测的精度与稳健性。1 材料与方法 1.1 研究区概况 四川省是我国的第五大省份,位于长江中下游平原和青藏高原地区的过渡带,地势西高东低,地形复杂多样,以山地为主,山地、丘陵约占全省面积的89%,这也导致了四川省土壤厚度空间变化的异质性较大。四川省绝大部分地区受季风环流影响,东部地区主要受东南季风控制,西部地区则主要受西南季风控制,因此四川省气候可以分为三大类,分别是川西北高山高原高寒气候、川西南山地亚热带半湿润气候与四川盆地中亚热带湿润气候。全省年平均气温7.97,平均日照 1 830 h,平
14、均年降水量 858.32 mm。四川省的耕地面积为 6.72 万 km2,林地面积为 22.20万 km2。按照中国土壤系统分类,四川省土壤类型主要是雏形土(71%)、淋溶土(14%)与人为土(4%)。1.2 土壤数据与环境变量 本文的土壤样本数据主要是四川省的土系调查15(n=195)与第二次全国土壤普查的数据16(n=99)(图 1)。图 1 四川省土壤采样点空间分布 Fig.1 Distribution of soil sampling sites 896 土 壤 第 55 卷 http:/ 土系调查数据作为训练数据集用来训练预测模型,历史土壤数据作为独立验证数据集评估预测模型的精度。土
15、系调查样点的布置主要考虑到交通可达性以及第二次土壤普查已采集样点的位置与气候、植被、母质、地形等成土因素的空间分布特征。土系调查样点的成土环境与发生层样品主要依据 野外土壤描述与采样手册17进行描述,详细记录了各采样点的景观、剖面与新生体特写照片、成土条件描述、土壤剖面层次划分与各层次形态特征。本文共收集了 17 个环境变量(表 1),包括地形因子、遥感因子、成土母质、土地利用。地形因子包括高程、坡向、坡度、平面曲率、剖面曲率、地形湿度指数等变量。气候变量包括年均气温、年均降雨。其他的变量包括土壤类型(土纲)、归一化植被指数、土地利用类型等。地形因子使用 SRTM 数据,遥感因子使用 Land
16、sat8 数据,土地利用数据使用多年的平均值18。连续型环境变量使用 Z-score 方法进行标准化处理。表 1 环境变量介绍 Table 1 Summary of environmental variables 环境变量 缩写 分辨率 时间 来源 高程 DEM 90 m 2000s Jarvis 等19 坡度 Slope 90 m 2000s Jarvis 等19 坡向 Aspect 90 m 2000s Jarvis 等19 平面曲率 ProCur 90 m 2000s Jarvis 等19 剖面曲率 PlanCur 90 m 2000s Jarvis 等19 地形湿度指数 TWI 90
17、m 2000s Jarvis 等19 谷底平坦综合指数 MrVBF 90 m 2000s Jarvis 等19 成土母质 PareMate 12 500 0001980s 熊毅20 土地利用 Landuse 1 km 2000s Li 等18 植被类型 VegType 14 000 0001980s 中国科学院资源环境科学与数据中心(https:/)归一化植被指数 NDVI 1 km 19992008Maisongrande 等21 植被覆盖度 FVC 500 m 2010s Yang 等22 叶面积指数 LAI 1 km 2010s Xiao 等23 土壤类型 SoilType 11 000
18、 0001980s 中国科学院南京土壤研究所 土壤分区 SoilZone 11 000 0001980s Zhang 等24 年均气温 MAT 1 km 1980s 国家地球系统科学数据中心(http:/)年均降雨 MAP 1 km 1980s 国家地球系统科学数据中心(http:/)1.3 土壤制图 传统研究将土壤厚度作为连续型的因变量。本文重点关注土壤厚度类型的空间分布规律及其主要驱动因素,提出一种基于特征集成学习的土壤厚度预测方法,将面向连续型土壤厚度的预测结果进行重分类,作为新的特征进行集成。具体的预测流程包括:1)使用机器学习算法预测连续型土壤厚度的空间分布。训练的机器学习算法包括:
19、随机森林(Random Forest,RF)、分位数回归森林(Quantile Regression Forest,QRF)与支持向量机(Support Vector Machine,SVM)。2)将上述 3 种机器学习模型作为子模型,利用集成学习方法训练 3 个子模型的加权系数,具体操作过程为:随机将训练数据集(n=195)按一定的比例分为 D1数据集(70%)、D2数据集(15%)和 D3数据集(15%);基于 D1数据集中的样本信息,各子模型(随机森林、分位数回归森林与支持向量机)独立预测 D2数据集中的土壤厚度,生成的预测结果分别记为 h1、h2、h3;将生成的预测结果 h1、h2、h
20、3分别与 D2数据集中土壤厚度的真实记录进行比较,评估各子模型的预测精度,将精度评价结果(决定系数)分别记为w1、w2、w3;分别利用随机森林、分位数回归森林与支持向量机 3 个子模型,对 D3数据集中的土壤厚度进行预测,生成的预测结果分别记为 f1、f2、f3;使用步骤中生成的决定系数作为权重,构建自适应权重函数对子模型的预测结果进行加权集成25-26,计算结果为112233ensm123()()()()wf xwfxwfxfxwww;使用 D3数据集对集成后的预测结果 fensm进行验证,获得集成模型的预测精度 wensm;将上述步骤第 4 期 陈玉蓝等:基于特征集成学习的四川省土壤厚度预
21、测 897 http:/ 独立执行 100 次,最终的精度评价结果 Wensm为 100次集成模型预测精度的平均值。3)对于上一步中的土壤厚度空间分布图进行重分类。由于本文土壤厚度数据较为有限(n=195),考虑到土壤厚度数据的频率分布与土壤厚度预测精度对比的可操作性,将重分类的阈值设定为 0 60 cm、60 100 cm 与 100 cm,对应的土壤厚度类型标识分别为 1、2、3,该图层记为 Depth1。如果研究区的土壤样点数据较多,也可以考虑划分更多的土壤厚度类型。4)基于训练数据集(n=195),将采样点的土壤观测数据进行重分类,重分类的阈值为 0 60、60 100 与100 cm
22、,对应的土壤厚度标识分别为 1、2、3。使用随机森林、分位数回归森林与支持向量机算法分别进行土壤厚度类型的预测,筛选出预测精度最高的预测模型,并使用该方法预测四川省的土壤厚度类型空间分布图 Depth2,分类精度为 Wcla。因为因变量不同,该步骤与步骤 2 是完全独立的。5)使用特征集成机制,将两类土壤厚度类型空间分布图进行集成:ensm1cla2depensmclaDepthDepth()IntegerWWfxWW 式中:Wensm、Wcla分别是步骤 2 中连续型土壤厚度集成模型的预测精度和步骤 4 中离散型土壤厚度类型的预测精度。最终的预测结果采用四舍五入的方式生成土壤厚度类型的空间分
23、布图。本文使用方差分析研究土壤厚度在不同成土母质、土地利用、土壤类型条件下是否存在显著性差异(P0.05,LSD 方法)。在模型的训练过程中,使用四川省土系调查数据(n=195)对子模型进行加权系数训练,获取集成模型的参数(步骤 2、4),评价的指标为平均误差(ME)、均方根误差(RMSE)与决定系数(R2)。为了保证预测结果的独立验证,使用收集到的独立验证数据集(n=99)对预测连续型土壤厚度的集成模型ensm()fx、预测土壤厚度类型的 3 个子模型、预测土壤厚度类型的特征集成模型dep()fx进行精度评价,评价的指标为 Kappa 系数与分类精度(Accuracy)。本文所有的数据分析、
24、模型构建与验证在 R Studio 中实现,使用的 R 包分别是:e107127、randomForest28、quantregForest29,土壤厚度空间分布图的编制使用ArcGIS 10.5。2 结果与分析 2.1 统计分析 采集的土壤厚度统计信息如表 2、表 3 所示。根据中华人民共和国水土保持法30,在 5以上地区的坡地植树造林、抚育幼林等需要采取水土保持措施,本文以 5 为阈值对采样点的土壤厚度进行了统计(表 2)。方差分析结果表明冲积物、洪积物、泥岩成 土 母 质 条 件 下 的 土 壤 厚 度 呈 现 显 著 性 差 异(P0.05),不同土地利用、土壤类型条件下土壤厚度也呈现
25、显著性差异(表 3)。这说明四川省土壤厚度具 表 2 采样点土壤厚度统计结果 Table 2 Summary of soil thicknesses observed in field 数据集 样点类型 样点数量 最小值(m)平均值(m)中值(m)最大值(m)标准差(m)偏度 土系调查 所有样点 195 0.20 1.19 1.25 2.30 0.18 0.21 坡度5采样点 63 0.36 1.26 1.30 2.30 0.15 0.24 坡度5采样点 132 0.20 1.16 1.20 2.20 0.18 0.24 第三次全国土壤普查 所有样点 99 0.24 0.78 0.80 1.2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 特征 集成 学习 四川省 土壤 厚度 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。