基于随机森林算法的土壤含盐量预测.pdf
《基于随机森林算法的土壤含盐量预测.pdf》由会员分享,可在线阅读,更多相关《基于随机森林算法的土壤含盐量预测.pdf(10页珍藏版)》请在咨信网上搜索。
1、快速监测区域土壤盐渍化信息,对于盐渍化治理与生态环境保护具有重要意义。本文以Sentinel-2A和Landsat8 OLI遥感影像为数据源,以银川平原为研究区,利用谷歌地球引擎(Google Earth Engine,GEE)平台,基于随机森林算法,通过建立光谱指数特征与地面实测土壤含盐量之间的关系,进行土壤含盐量估算。结果表明:GEE能够为土壤含盐量预测提供可靠的数据支撑;以Sentinel-2A为数据源建立的随机森林模型具有更好的预测精度(R2=0.789,RMSE=1.487),优于Landsat8 OLI,可用于土壤含盐量高分辨率遥感估算,能够为大尺度土壤含盐量监测工作提供理论支撑。
2、关键词:土壤含盐量;Google Earth Engine;随机森林;预测;银川平原土壤盐渍化是全球干旱半干旱地区面临的重要的生态环境问题1。全世界受盐碱化危害的面积近10108hm2,中国盐渍土面积已超过3.3107hm2,并以每年约1.5106hm2的速度增加2-4。受到全球气候变暖及人类活动的影响,土壤盐渍化已成为限制农业发展和资源可持续利用的重要因素,是导致土地退化的主要因素,严重影响了区域生态环境稳定、粮食安全和农业的可持续发展5。因此,快速、精准、大面积监测土壤盐渍化对农业生产及生态环境保护意义重大6。传统监测土壤盐分的方法耗时、费力,遥感技术作为一种新的监测方法,相比于传统方法在
3、进行大尺度监测研究方面具有很大的优势7-9,在全球和区域土壤盐渍化监测中发挥着重要作用10-11。随着遥感技术的发展,不同来源遥感数据为土壤盐渍化监测提供了数据支持,而建立土壤盐渍化信息提取的方法,是快速获取盐渍化信息的关键。近年来,随机森林算法以其优越性、高效性、稳健性和精确性正逐步应用于土壤盐分估算中,通过建立实测土壤盐分与土壤的光谱信息间复杂的非线性关系,充分利用传感器获得的光谱信息,提高了估算精度12-14。厉彦玲等15将环境一号卫星 HSI 高光谱影像与Landsat8 OLI多光谱影像进行融合,利用机器学习模型反演黄河三角洲地区土壤盐分,通过对比发现,随机森林模型取得较高的精度;张
4、智韬等16借助无人机多光谱遥感技术监测内蒙古河套灌区沙壕渠灌域的土壤盐分,证明随机森林算法优于支持向量机算法和BP神经网络算法,且能够在短时间内进行大范围盐分监测;Fathizad等17使用有限的实地测量数据基于随机森林算法预测伊朗中部沙漠的土壤盐分时空分布,获得了最佳的预测结果。随机森林模型的使用,提升了人们对于土壤盐渍化变化及预测的精度,丰富了盐渍化研究在时空方面的意义。在平台应用上,谷歌地球引擎(Google Earth Engine,GEE)平台集数据获取、存储、处理和分析于一体,可以高效地实现海量影像数据的预处理及计算分析18。国内外已经有专家学者借助该平台开展土地利用及农作物分类算
5、法19-20、作物产量估算21-22、生物量估算23、水体及森林变化动态监测24-25、城市蔓延26等研究。上述研究表明,GEE云平台可以高效地实现海量影像数据的预处理及计算分析,但已有研究很少尝试用 GEE 云平台进行土壤盐分的估算。收稿日期:2023-01-06;修订日期:2023-06-12基金项目:国家自然科学基金项目(42061047,42067003);宁夏回族自治区重点研发计划项目(2021BEG03002);国家重点研发计划项目(2021YFD1900602)作者简介:李小雨(1997-),女,硕士研究生,主要从事遥感监测与分析研究.E-mail:通讯作者:贾科利.E-mail
6、:12581267页8期李小雨等:基于随机森林算法的土壤含盐量预测基于随机森林算法估算精度高、GEE云平台高效的优势,在GEE云计算平台,使用该平台自带的JavaScript API 在线编辑器(https:/ OLI卫星遥感影像,基于光谱指数建立随机森林模型,估算土壤含盐量(Soil saltcontent,SSC),以期丰富随机森林算法和GEE云平台在土壤盐渍化监测中的应用,为灌区土壤盐渍化信息的准确预测和监测提供技术支持。1研究区概况与数据来源1.1 研究区概况银川平原(37.8339.38N,104.28107.65E)地处宁夏回族自治区北部(图1),南北长约165 km,东西宽105
7、0 km,面积约7615 km2。该区地处黄河灌溉中上游,处于贺兰山东麓的洪积扇与平原之间,是黄河流域生态保护和高质量发展的先行区,更是西北干旱与半干旱地区土壤盐渍化的典型样区。研究区属于温带干旱区,具有暖温带季风气候,年平均气温9,年均降水量在150203 mm,年日照时数25003100 h,年均蒸发量1825 mm。银川平原主要是由冲洪积平原构成,地势低洼、排水条件差、地下水埋深浅、蒸发强、水盐分集中、地势高、灌溉不合理,是宁夏土壤盐渍化最严重的地区之一。主要作物有水稻、小麦、玉米。1.2 土壤盐分数据获取本文以5 km5 km的格网设置采样点,采样时每个样点采用梅花形采样法,在采样点3
8、0 m30 m范围内,采集020 cm土壤混匀,运用四分法留约500 g土壤样品装进密封袋带回,同时记录采样点的编号、坐标信息、土地利用、植被长势等信息。土壤样品采集于2021年3月和2022年4月,2021年采集166个样点,2022年采集133个样点,共采集299个样点(图1)。将所有土壤样本剔除荒草和碎石块等杂质后自然风干,研磨后过2 mm筛,以水土比5:1配置提取液,用电导率法27-28测算含盐量,删除异常样点后得到020 cm表层土壤样本共297份。1.3 数据处理为消除不同指标之间维度的影响,通过GEE云平台调用normalization函数,将数据进行归一化处理,将所有输入数据归
9、一化到01,归一化公式为:x*=xi-xminxmax-xmin(1)式中:xi为该点实测样本值;xmin为最小样本;xmax为最大样本;max和min是给定缩放范围的最大值和最小值;x*为归一化后的数据。1.4 遥感影像获取与处理研究使用的Landsat8 OLI Level-2和Sentinel-2Level-2A地表反射率数据来源于GEE云平台(https:/ 据 基 准 面 为WGS84,地图投影为UTM投影,Landsat8 OLI的空间图1 研究区位置和采样点分布Fig.1 Location and distribution of sampling points of study
10、area125940卷干旱区研究分辨率为30 m,Sentinel-2A的空间分辨率为10 m,调用filter函数筛选云量小于10%的影像。数据经过几何校正、辐射校正和大气校正。由于数据中均集成了用于影像质量评估的QA波段,利用QA波段提供的云掩膜信息可进行遥感影像的去云操作。影像成像时间范围分别设置为2021年3月131日和2022年4月130日,与野外采样时间相对应。由于在GEE云平台进行影像镶嵌的过程中容易出现影像重叠和不连续的问题,故根据设定的时间范围,调用median函数计算影像集的中位数,筛选与该中位数影像差异最小的影像进行镶嵌29。最后,选择影像中的Blue、Green、Red
11、、NIR、SWIR1和SWIR2六个常用的波段进行影像波段合成,在合成影像上利用研究区矢量边界裁剪得到研究区影像数据,以上操作均基于GEE云平台通过JavaScript语言实现。2研究方法2.1 光谱指数选取在干旱半干旱地区,光谱指数是监测土壤盐渍化的有效方法30。已有研究表明,学者们在选取光谱指数时,常用的是植被指数和盐分指数。由于植被指数难以准确反映稀疏植被地区的光谱信息,基于此产生了诸多基于植被指数与盐分指数组合反演土壤盐渍化的研究31-32。考虑到研究区处于干旱半干旱区,本文综合了植被指数和盐分指数两种光谱指数。盐分指数包括:SI_T、SI1、SI2、SI3、SI4、SI5、S1、S2
12、、S3、SAIO、CRSI;植被指数包括:SAVI、GDVI。各光谱指数公式如表1所示。本研究基于研究区影像,通过GEE云平台调用get Index函数构建光谱指数,选择红波段(Red)、绿波段(Green)、蓝波段(Blue)和近红外波段(NIR),按照计算公式,进行各类光谱指数的计算和提取33,本文进行光谱指数提取操作程序代码均在GEE云平台在线代码编辑器中用JavaScript编写。2.2 敏感光谱参数筛选因自变量之间存在共线性问题,直接输入较多的变量建模会因样本数据之间的微小差异导致回归方程的回归系数出现误差,从而降低模型的稳定性,在一定程度上会影响建模精度34。为了消除输入变量过多和
13、多重共线性在建模过程中带来的不利影响,本文基于R软件(版本4.1.3),利用R语言中的Hmisc程序包中的cor函数进行不同数据源下SSC与13个光谱参数的Pearson相关性分析和显著性检验44。2.3 土壤盐渍化反演模型2.3.1 随机森林模型构建随机森林的核心思想是对训练集进行自助采样,组成多个训练集,每个训练集生成一棵决策树,所有决策树组成随机森林,从而对样本进行训练并预测的机器学习算法45。该方法将多个决策树组合起来以创建随机森林46,步骤如下:步 骤 1:首 先 从 训 练 样 本 集 D=(x1,y1),(x2,y2),(xn,yn)中,随机产生N个训练集S1,S2,SN。步骤
14、2:对每个训练集生成对应的决策树 f1,f2,fN;在对每个非叶节点上选择属性前,从全部M个属性中随机抽取m个(mM)作为当前节点的分裂属性集,并从中选择出一个最佳分割属性作为节点进行分裂;步骤3:将生成的多棵决策树构成随机森林,对于测试集样本X,利用每棵决策树进行测试,根据公式得到预测结果f1(x),f2(x),fN(x),根据参考文献47,预测公式如下:f()x=1Nn=1NfN(x)(2)式中:f(x)表示N个fN(x)的集合;f(x)表示随机森林模表1 光谱指数计算公式Tab.1 The calculation formula of spectral indexes光谱指数盐分指数(S
15、I_T)盐分指数1(SI1)盐分指数2(SI2)盐分指数3(SI3)盐分指数4(SI4)盐分指数5(SI5)盐渍化指数1(S1)盐渍化指数2(S2)盐渍化指数3(S3)盐度比值指数(SAIO)土壤调节植被指数(SAVI)绿度差值植被指数(GDVI)冠层响应盐度指数(CRSI)计算公式(Red-NIR)100GreenRedGreen2+Red2+NIR2Green2+Red2(BlueRed)/Green(Green+Red)/2Blue/Red(Blue-Red)/(Blue+Red)(GreenRed)/Blue(Red-NIR)/(Green+NIR)(NIR-Red)(1+L)/(NI
16、R+Red+L);L=0.5(NIR2-Red2)/(NIR2+Red2)(NIRRed)(GreenBlue)/(NIRRed)+(GreenBlue)参考文献3536363738393838384041424312608期李小雨等:基于随机森林算法的土壤含盐量预测型的预测结果;fN(x)表示单个决策树的预测结果。本文通过 GEE 云平台调用 ee.Classifier.smileRandomForest函数实现模型回归预测,模型的效果通过决策树的数量n和结点使用的特征数m两个参数来调整。决策树数量过多会影响模型效率,过少则影响模型精度,因此在权衡决策树数量并兼顾精度和效率的同时,通过试验确
17、定决策树数量为100,将结点使用的特征数设置为默认值,即输入特征总数的平方根。2.3.2 模型评价指标为量化土壤盐分反演模型的预测效果,利用GEE云平台计算并输出两个常用指标决定系数(R2)和均方根误差(RMSE)来进行综合评价。R2越接近于1,均方根误差RMSE越小,则模型拟合效果越好,预测效果越佳48。3结果与分析3.1 土壤盐分统计特征参考布雷迪的分级方法49,将297份土样根据盐分含量将样本的盐渍化程度分为5个等级,样本的描述性统计分析如表2所示。由表2可知,不同盐渍化程度土壤样本数量大体均匀,土壤样本含盐量总体变异系数超过138%,变异性较强,表明样本离散程度较高,具有普适性。将土壤
18、样本按含盐量由低到高排序,按照2:1的比例等间隔选取198个样本作为训练集建立反演模型,其余99个作为验证集,用于检验反演模型16。3.2 土壤盐分与光谱指数相关性分析利用R语言中的GGally和ggplot2程序包绘制不同数据源下SSC与13个光谱参数的相关矩阵图(图2),基于通过0.01显著性检验的敏感光谱参数建模。图2显示,在以Landsat8 OLI为数据源计算的光谱指数中,除了SI4、SAIO和GDVI,其余光谱指数与土壤含盐量均具有较强的相关性,SI_T、SI2、SI3和S3均通过0.01显著性检验,S1、S2和CRSI均通过0.001显著性检验,且S2与SSC的系数最大,表明光谱
19、指数SI_T、SI2、SI3、S1、S2、S3和CRSI具有较强的相关性,可用于土壤盐分模型的构建。在以Sentinel-2A为数据源计算的光谱指数中,所有光谱指数与土壤含盐量均具有较强的相关性,SI1、SI3、SI5、SAIO、SAVI和GDVI均通过0.01显著性检验,SI_T、SI2、S1、S2、S3和CRSI均通过0.001显著性检验,表明SI_T、SI2、S1、S2、S3和CRSI与SSC有较强的相关性,故选择 SI1、SI2、SI3、SI5、SAIO、SAVI、GDVI、SI_T、S1、S2、S3和CRSI用于以Sentinel-2A为数据源的模型构建。3.3 模型构建基于随机森林
20、模型,以土壤含盐量为输出层,在以 Landsat8 OLI 为数据源建立的模型中,选取SI_T、SI2、SI3、S3、S1、S2和CRSI为输入层数据;在以 Sentinel-2A 为数据源建立的模型中,选取 SI1、SI2、SI3、SI5、SAIO、SAVI、GDVI、SI_T、S1、S2、S3 和CRSI为输入层数据,分别对土壤盐分含量进行模拟,结果如表3所示。由表3可知,以Sentinel-2A建立的模型的R2值较以Landsat8 OLI建立的模型大,且RMSE小,表明以Sentinel-2A为数据源建立的土壤盐分预测模型较优。利用99个验证数据对模型进行验证,结果如图3。图3表明以两
21、种数据源建立模型,预测值与实测值均具有良好的相关性,其中以Sentinel-2A为数据源建立随机森林模型的R2更大,且RMSE更小,表明以Sentinel-2A为数据源建立的土壤盐分随机森林预测模型精度优于以Landsat8 OLI为数据源建立的预测模型。3.4 土壤盐渍化预测利用以Sentinel-2A为数据源建立的土壤盐分随机森林预测模型,对银川平原土壤盐渍化进行预表2 银川平原土壤样本统计Tab.2 Soil salinization degree and sample statistics in Yinchuan Plain盐渍化等级非盐渍化轻度盐渍化中度盐渍化重度盐渍化盐土总样本含盐
22、量/(gkg-1)6样本数量9164553750297含盐量均值/(gkg-1)0.561.462.824.9012.003.63含盐量最大值/(gkg-1)0.981.963.975.9120.7420.74含盐量最小值/(gkg-1)0.091.002.004.066.140.09变异系数/%39.7920.0919.4211.9735.10138.76126140卷干旱区研究测,按照盐渍化程度对预测结果进行分级和统计,结果如图4和表4。由图4可知,银川平原土壤盐分总体上呈现南轻北重的分布格局,原因可能是平原地势南高北低,黄河流向自南向北,北部地下水埋深浅、盐分极易积累于土壤表层,盐土主要
23、集中分布在平原北部的平罗县西侧、大武口区和惠农区,占盐土总面积的89.85%。南部作为黄河入水口携注:(1)*表示显著性检验P0.05,*表示显著性检验P0.01,*表示显著性检验P0.001;(2)左下区为土壤含盐量(SSC)与13个光谱参数的两两关系散点图,右上区为对应的相关系数值,中间斜对角为对应横轴的核密度估计图;(3)图中不同颜色代表不同数据源,蓝色代表以Landsat8 OLI为数据源计算得出的相关系数,绿色代表以Sentinel-2A为数据源计算得出的相关系数。图2 光谱指数与土壤盐分的相关性Fig.2 Correlation between spectral indexes a
24、nd soil salinity表3 基于不同数据源的随机森林模型Tab.3 Random forest model based ondifferent data sources数据源Landsat8 OLISentinel-2A建模集(n=198)R20.6150.633RMSE3.1692.875验证集(n=99)R20.7340.789RSME1.6981.48712628期李小雨等:基于随机森林算法的土壤含盐量预测带盐基离子外流,土壤积盐较少,非盐渍化和轻度盐渍化土壤集中分布在平原南部的金凤区、兴庆区、永宁县、灵武市、青铜峡市和利通区,占银川平原总面积的71.59%。盐渍化预测结果与实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 随机 森林 算法 土壤 含盐量 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。