基于随机森林的湖北雪密度预测模型及其在雪压分析中的应用.pdf
《基于随机森林的湖北雪密度预测模型及其在雪压分析中的应用.pdf》由会员分享,可在线阅读,更多相关《基于随机森林的湖北雪密度预测模型及其在雪压分析中的应用.pdf(7页珍藏版)》请在咨信网上搜索。
1、Aug.2023METEORHNAVECHNOLOGY2023年8 月473第51卷第4期Vol.51,No.4象技科基于随机森林的湖北雪密度预测模型及其在雪压分析中的应用魏华兵1,2周月华1*史瑞琴1温泉沛1(1武汉区域气候中心,武汉430 0 7 4;2 湖北省咸宁市气象局,咸宁437 10 0)摘要雪密度、雪压等积雪参数资料的缺乏是南方地区雪灾精细化防御研究的难点之一,通过历史地面积雪气象观测资料来反演测站及周边的雪密度,是对现有积雪监测资料的有益补充。本文利用湖北省7 6 站的逐日气象观测资料,分析并选取了积雪期的积雪日数、积雪深度、气温、日照等8 个影响雪密度的自变量因子,构建了雪密
2、度的随机森林回归(RF)模型,并通过RF模型反演数据,分析了湖北省雪密度和雪压分布情况。结果表明:雪密度RF模型预测的均方根误差为0.0 4g/cm左右,可以用于湖北省雪密度资料反演。湖北省平均雪密度在0.140.20g/cm之间,从中部以0.17 g/cm为界分为东西两个区,东部区雪密度较大。湖北省近6 0 年来最大雪压值在1.36.7 g/c m 之间,不同重现期最大雪压分布存在鄂西北和鄂东两个高值区,且鄂东区的中北部基本雪压值更大。关键词险随机森林;雪密度;随机森林预测模型;雪压中图分类号:P412.1D0I:10.19517/j.1671-6345.20220295文献标识码:A引言雪
3、密度(g/cm)是积雪重要的物理属性,它与雪深的乘积为雪压(g/cm),故可以用雪压和雪深资料计算得到。雪密度几乎与所有的积雪物理过程都有密切联系,雪密度的变化对雪深预报、雪灾致灾因子及其预警指标推算2 、建筑结构雪荷载计算3、融雪性洪水的径流模拟4等结果均有重要的影响;同时,受不同气候条件的影响,雪密度存在明显的时空分布差异5,了解雪密度的变化和分布特征有助于提高雪灾防御中相关技术指标的精确度和适用性。积雪观测是研究工作的基础,为了了解大范围的积雪状况,积雪的观测方式从传统地面站的“点”观测向大范围的“面”遥感观测转变6 ;雪密度的观测方法也从秤雪器、SnowFork雪特性分析仪转向遥感观测
4、反演7-8,而传统的积雪站点观测资料常被用于遥感产品的精度校验和参数调整-10。南方瞬时积雪区由于积雪的时间和范围都不稳定11,多数站点主要观测积雪深度,少量站点观测雪压并且仅在初次雪深(或新增雪深)达到5cm后才进行雪压观测。由于雪密度资料的稀少,在建筑结构设计的雪载荷和基本雪压的计算中,常用当地平均雪密度估算雪压值12;在设施农业的雪灾指标推算中,也多用较大区域的固定雪密度值2。相关的研究表明,受温度、湿度的垂直分布等因素影响,每次降雪天气过程中新降雪的密度并不相同1,13;地面积雪形成后,雪密度受积雪存续时间、气温、下垫面温度、太阳辐射、风速、降雪(雨)等因素的影响而发生变化14-18
5、1。这些研究结果说明雪密度是一个动态变化的非稳定量,简单用平均雪密度或固定雪密度进行指标推算,无法满足雪灾精细化防御的要求。我国北方多地开展了雪密度变化及其时空分布的精细化研究19-2 0 1,而南方地区的相关研究鲜有报道。为了获取连续雪密度资料,科研工作者们基于雪密度变化的机理和积雪的物理特性,研究了以雪深、积雪日数或综合气象要素等为自变量的雪密度经验公式、遥感观测用的NASA(National Aeronautics andSpaceAdministration,美国国家航空航天局)、Chang等雪密度算法模型、基于Snowpack雪盖模http:/气象科技2022年度中国气象局决策气象服
6、务专题研究项目(JCZX202206)、湖北省气象局科技发展基金重点项目(2 0 2 2 Z05)资助作者简介:魏华兵,男,197 0 年生,本科,高级工程师,从事农业气象和专业气象服务研究,Email:h b c b w h b 16 3.c o m收稿日期:2 0 2 2 年7 月5日;定稿日期:2 0 2 3年2 月3日*通信作者,Emailzyh_474象第51卷技科式或融雪模式的雪密度计算模型2 1-2 31等。雪盖模式或融雪模式的计算模型需要多种资料参与计算,在实际应用中比较困难;经验公式和算法模型的相关参数存在地域差异,制约了其适用范围2 4。本文利用湖北省的196 1一2 0
7、2 0 年13个雪压观测站的气象观测资料,借助于机器学习算法,研究了雪密度的随机森林回归模型,并应用模型反演结果,分析了湖北省平均雪密度和最大雪压的分布特征,以期为湖北省雪灾精细化防御研究提供参考。1资资料与方法1.1气象资料及处理本研究区湖北省位于10 8 2 1116 0 7 E,2905332 0 N之间。气象资料来自于研究区内的7 6 个国家气象站逐日观测资料。其中,武汉、麻城、勋西等13个雪压观测站的资料年限为1951年以来的雪压实有观测资料,其他站资料年限为1961一2 0 2 0 年的实有观测数据。资料来源于湖北省气象信息与技术保障中心,站点分布情况见图1。雪密度数据采用雪压与雪
8、深的商求得。由于资料时间跨度长,台站环境、观测方法以及观测仪器等变动影响2 5,雪压观测值出现疑误或粗大误差的可能性大。比如:麻城站1994年2 月2 4日的雪密度为0.96 g/cm,接近于水的密度,明显异常。依据误差的概率分布理论2 6,一般将数据序列的3倍均方差(38)作为极限误差值,超过极限误差数据的概率不足3%。初步考虑偏差超过3的雪密度数据,其雪压观测存在粗大误差的可能性大,不宜列人研究数据。据此对13个雪压观测气象站的实有资料进行了质控,剔除疑误值、异常值后,得到有效雪密度样本序列2 15个,样本分布情况见表1。娜西千堰阳国家站老湾雪压观测站竹溪竹山春城7房襄阳三32N保康南章宜
9、城随州钟祥红安麻城荆门*京山稀归当宜昌罗田英建始山武汉黄冈浠水长阳技恭甸江利川恩施石薪春公安黄宣思30监利咸丰赤壁石110112114116E图1液湖北省气象资料站点分布注:地图是基于全国行政区划信息查询平台下载的审图号为GS(2 0 2 2)18 7 3号的标准地图制作,底图无修改。(下同)表1湖北省13个站点有效雪密度样本统计武汉恩施麻城西钟祥黄石荆门巴东五峰宜昌天门咸丰老河口数量427192232158811951027比例/%19.53.38.810.214.97.03.73.75.14.22.34.712.61.2随机森林算法随机森林(RandomForest,简称RF)是Breim
10、an提出的一种基于分类树的新型机器学习方法2 7,该方法在对传统决策树的继承和改进的基础上,使用集成学习技术,综合考虑多个模型的预测结果,能够分析复杂且相互作用的特征,在处理存在缺475魏华兵等:基于随机森林的湖北雪密度预测模型及其在雪压分析中的应用第4期失值的数据时具有较高的鲁棒性,同时决策树的随机生成避免了过度拟合问题,具有优秀的性能和较高的准确率,在气象、电力、生物医学等行业领域得到了广泛应用2 8-30 1。其具体方法是:假设样本集S中有K个自变量(X1、X2、Xk)与因变量Y相关,利用自助式抽样方法(Boot-strap),有放回地随机从样本量为n的样本集S中抽取样本,基于这些随机抽
11、取的样本分别构建CART(Classification and Regression Tree,分类与回归树)回归树,将上述步骤重复m次,得到基于m个随机抽样样本S,(i=1,2,m)的m棵回归树T(i=1,2,,m),即m个预测模型。由每个回归树同时提供各自的预测结果Y,(i=1,2,m),这些预测结果的平均值即为最终预测结果(图2)。训练集随机重采样样本训练集1样本训练集2样本训练集n回归树1回归树2回归树M预测结果图2随机森林算法流程随机森林中回归树的训练样本和特征向量均是随机抽取,这样就可以避免过拟合的问题,且抽取的随机性增加了各个回归树之间的差异,使得最终的融合模型具有较高的精度。1
12、.3雪密度模型构建1.3.1自变量因子雪密度的动态变化是一个复杂过程,无法用理论分析方法推导其模型,常用统计模型的精度与模型的自变量密切相关。依据相关文献研究结论13-18.2 1,本文从积雪存续时长、环境温度、太阳辐射、风速、湿度、降雪等方面,选取了湖北省东部、中部、西部的6 个站(样本容量占比在5%以上),分析了各站及整体样本各影响因素与雪密度之间的相关性(表2)。从表2 得知,虽然湖北省不同区域气象因子对雪密度的影响程度不同,但都表现出较强的相关性。因此,选取了积雪期的累计日数、积雪深度、平均风速、平均气温、平均最高气温、平均最高地温、平均相对湿度和累计日照共8 个与雪密度有一定相关性(
13、|rl0.15)的影响因子,作为雪密度模型的自变量因子1.3.2随机森林模型调参用随机森林算法构建雪密度模型时,回归树棵数ntree和节点分裂属性个数mtry对模型的泛化性能和准确率存在一定影响,过多(或太少)则会导致模型的过(或欠)拟合,同时会降低模型的精度;通过对参数进行调整,可以使模型达到最佳精度。本文采用均方根误差(RMSE)指标评价模型误差及精度,其结果见图3。均方根误差RMsE计算公式31如下:表2各地雪密度与影响因子的相关系数积雪累计日数积雪深度平均风速平均气温平均最高气温平均最高地温 平均相对湿度累计日照武汉0.48*0.18*0.19*-0.29*0.27*-0.21*0.1
14、7*0.42*麻城0.21*0.20*0.20*-0.24*-0.32*一0.2 3*0.21*0.42*钟祥0.37*0.16*0.36*-0.21*-0.25*0.26*0.27*0.44*老河口0.27*0.16*0.25*0.36*0.35*0.23*0.20*0.37*五峰0.27*0.23*0.15*0.21*0.40*0.38*0.19*0.36*黄石0.55*0.32*0.16*-0.31*0.46*-0.42*0.24*0.45*13站0.53*0.16*0.18*-0.34*-0.32*0.21*0.17*0.55*注:“*”“*”分别表示显著性水平达到0.0 5、0.0
15、1。476象科第51卷技0.1250.089T(a)(b)0.120.1150.088(eWo.8)/ASM(e-mO.8)/AS0.110.1050.0870.10.0950.0860.090.0850.085-T-T020406080100120012 3456789mtryntree图3随机森林模型估算雪密度的均方根误差(RMSE):(a)回归树棵数ntee,(b)节点分裂属性个数muryZ(f:-y)2nRMSE1(1)其中:y为实测雪密度;f为估算雪密度;n为样本数。图3表明,ntree在8 0 90 之间时,RMSE处于最小值附近,mury为4时RMSE的值最小。本文将雪密度随机森
16、林模型参数调整为ntre=85、mr y=4。2结果与应用2.1雪密度模型预测结果为了验证模型的精度,先对雪密度数据2 15个样本序列进行排序,然后按0.0 2 0.0 7 g/cm的间隔,随机抽取了样本序列的2 0%共43个样本做为模型预测验证数据,其余17 2 个样本做为模型训练数据,将样本的雪密度以及8 个自变量因子组成17 2 9的数据矩阵输人到Matlab的随机森林程序中,计算得到雪密度预测模型。通过雪密度模型分别对训练数据和模型预测验证资料进行了拟合和预测,分别分析拟合值、预测值与实际雪密度值的关系见图4。从图4a和4b可以看出,模型对雪密度的拟合值、预测值与实际值有很高的相关性(
17、相关系数分别为0.936 和0.92 6),计算其RMSE都为0.0 4g/cm左右,小于雷达数据反演雪密度的RMSE值0.0 6 g/cm32】,说明随机森林回归模型的整体精度较好,可以用于湖北省无雪压观测时的雪密度资料反演。0.6下(a)0.35工(b)0.50.3(叫0.8)/星号件0.250.40.20.30.150.20.1y=0.6161x+0.062y=0.6447x+0.0629R2=0.85890.1R2=0.87680.05000.20.40.60.800.10.20.30.40.5实际雪密度/(gcm)实际雪密度/(g?cm)图4随机森林雪密度模型拟合值、预测值与实际值的
18、散点对比:(a)拟合雪密度,(b)预测雪密度2.2雪密度和最大雪压分布特征通过雪密度随机森林回归模型反演了湖北省1961一2 0 2 0 年7 6 站5cm以上积雪天气的逐日雪密度,统计得到了各站多年平均雪密度,结合台站雪深观测资料,计算了各站近6 0 年来的最大雪压值;再利用ARCGIS10.2软件的反距离插值方法,得到了湖北省平均雪密度(图5)和历史最大雪压分布(图6)。477魏华兵等:基于随机森林的湖北雪密度预测模型及其在雪压分析中的应用第4期g/cm333N-0.200.170.14320.17319100.163029109110111112113 114115116E图51961一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 随机 森林 湖北 密度 预测 模型 及其 分析 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。