机器学习在人工增雨效果统计检验中的应用.pdf
《机器学习在人工增雨效果统计检验中的应用.pdf》由会员分享,可在线阅读,更多相关《机器学习在人工增雨效果统计检验中的应用.pdf(11页珍藏版)》请在咨信网上搜索。
1、书书书李丹,林文,刘群,等机器学习在人工增雨效果统计检验中的应用应用气象学报,():机器学习在人工增雨效果统计检验中的应用李丹)林文)刘群)冯宏芳)胡淑萍)汪智海)(福建省气象科学研究所,福州 )(福建省灾害天气重点实验室,福州 )(中国气象局海峡灾害天气重点开放实验室,福州 )(闽南师范大学数学与统计学院,漳州 )(福建省宁德市古田县气象局,宁德 )摘要利用福建省古田人工增雨试验基地 年月 年月小时自然降水数据,结合线性拟合、多项式回归和样条回归等多种数学统计方法,开展决策树、支持向量机()和卷积神经网络()种机器学习方法在估测目标区自然降水中的应用研究。目标区和对比区自然雨量关系模型对比结
2、果表明:以区域平均面雨量为统计变量时,和四项式回归效果相对较好,其中 的确定系数为 ,均方根误差为 ;对平均面雨量进行六次方根变换后,各模型的精准度大幅提升,表现最优,确定系数为 ,其次为;为克服目标区和对比区雨量时间序列效应及空间分布不均等问题,以面雨量空间格点数据作为研究对象,采用 种优化器(自适应矩估计、均方根传递和梯度随机下降)算法进行对比,发现基于自适应矩估计优化器建立目标区和对比区雨量关系模型最优,其降水估测值与实测值更接近,均方根误差最小,为 。因此,利用 方法能够进一步优化目标区和对比区雨量关系模型,可为定量评估人工增雨效果提供参考。关键词:人工增雨效果评估;区域历史回归;机器
3、学习;统计检验引言近年人工影响天气事业不断发展,在农业抗旱、水库蓄水、净化空气等工作中发挥了重要作用,作为人工影响天气作业的重要环节,人工增雨作业效果的科学评价受到人们高度关注 。经过大量实践研究,国内外学者将人工增雨效果检验方法总结为物理检验、数值模拟检验和统计检验 。物理检验主要针对人工影响天气作业前后云系的宏微观变化特征,结合云降水形成及其催化原理,对比目标云系被影响后产生的相关物理响应(微物理结构或宏观动力结构变化等),对作业产生的直接效果进行定性或定量分析 ;数值模拟检验是利用能够描述云降水微物理过程及人工增雨催化过程的数值模式,通过改变催化条件,定量模拟出人工增雨作业后的云系发展变
4、化和产生降水情况,并与未催化的自然发展云系观测结果进行对比,得到作业效果 ;统计检验是对间接效果即产生的地面降水进行定量分析,主要通过不同人工增雨试验方案,利用数理统计理论对作业效果进行定量检验分析 。研究表明,序列分析、双比分析、区域对比分析、区域历史回归分析和基于聚类统计的浮动对比区等方法是常用的统计检验方法。其中,区域历史回归分析检验功效高、准确度和灵敏度较好 ,是国内外人工影响天气作业效果检验比较推荐的效果检验方法,该方法基于历史降水长序列数据,通过分析目标区和对比区的降水相关性,估算目标区作业期间的自然雨 收到,收到再改稿。资助项目:国家重点研发计划(),中国气象局人工影响天气中心效
5、果评估方法研发与应用创新团队(),国家自然科学基金面上项目(),中央引导性地方科技发展专项()通信作者,邮箱:第 卷 第期 年月 应 用 气 象 学 报 ,量,并与目标区实际雨量进行比较,得到的差值则视为增雨作业效果。该方法假定作业期间目标区和对比区的雨量相关关系与历史相同天气下两区域雨量相关关系相同,但实际上该假定很难满足,这是因为实际降水自然变率较大,目标区与对比区的关系缺乏稳定性,从而导致评估结果稳定性较差,这也是区域历史回归方案最大的困难 。如果能够选择恰当的对比区,且样本足够多,该方案的评估功效仍较高。国内外许多抗旱增雨的业务性试验效果评估均采用该方案。此外,房彬等 和翟羽等 等利用
6、聚类分析进一步改进非随机化人工增雨效果区域历史回归方法,将物理协变量作为控制因子和网格插值计算雨量,提出一种新的浮动对比区历史回归统计检验方法(简称 方法),并用于河南人工影响天气作业效果分析,结果表明效果评估功效显著提高。随着机器学习在气象领域的不断发展和广泛应用,发现其能够更好地自适应数据变化并提取特征,具有强大的非线性建模能力 。为了尽可能客观、定量地检验人工增雨作业效果,本文基于 年月 年月福建地区降水数据和作业信息,利用机器学习和多种数学统计方法,对比不同回归统计检验方案,旨在进一步优化基于浮动对比区的最佳自然雨量估测模型,为开展区域内人工增雨效果统计检验提供参考。本文插图中所涉及的
7、国界和行政区域界线基于审图号为 ()号标准地图制作,底图无修改。研究区域和数据本文研究区域为福建省古田人工增雨效果检验随机试验区,覆盖闽北地区古田、屏南、周宁和建瓯等地,其范围为 ,选取该区域内古田水库流域人工增雨效果检验外场试验作业影响区域为目标区(图)。效果检验必须准确预计效果出现的区域、时间、量值等,因此效果评估前首先需确定效果所在的区域即目标区。本文选取 年月 年月试验区自图福建省古田人工增雨效果检验基地 动气象站小时降水数据,结合福建省人工影响天气作业历史数据,根据作业点经纬度、作业起止时间以及目标云系移动范围建立历史数据库并进行标记分类,期间福建省境内共开展人工影响天气作业 万余次
8、,试验区内开展人工增雨作业随机试验约 次,其中随机试验主要在石坑和西溪个作业点进行火箭冷云催化作业。为排除由于人工影响天气作业对自然降水数据的影响,将人工影响天气作业后内目标云系移动过程中覆盖到试验区域的自动气象站降水数据标记为人工增雨作业影响数据库,第期李丹等:机器学习在人工增雨效果统计检验中的应用未覆盖到试验区域的降水数据则标记自然降水数据库,并将试验区域内个自动气象站雨量不小于 的小时降水数据视为次有效样本,从而保证样本量和数据质量。人工增雨作业信息数据来源于福建省气象局人工影响天气指挥中心。基于区域历史回归方法确定最佳对比区区域历史回归方案为选择个或多个与目标区天气地理条件相似、降水相
9、关性较好的区域为对比区,然后根据两区域历史雨量建立区域历史回归方程,将对比区的雨量代入方程求得作业区自然降水估测值,并与作业区降水实测值对比以确定增雨效果。区域历史回归分析要求对比区与目标区相互独立,但天气系统、降水分布和地形等方面的相似度较高,因此本文以降水相似度和地形相似度为主要参数指标。此外,对比区应选择在目标区上风向,确保不受人工影响天气作业催化剂扩散作用的影响。主要参数指标 降水相似度降水相似度决定了对比区与目标区历史自然降水序列关系模型的可解释性,以及基于对比区雨量对目标区自然雨量的可估测能力。虽然用日尺度以上雨量作为统计变量相对简单且方便,但因时间跨度较大,且包含自然降水时段,不
10、利于对影响时间有限的单次人工增雨作业进行合理准确评估。因此选择目标区内各自动气象站小时雨量数据,通过插值获得该区域内小时平均面雨量,表征区域降水强度。对自动气象站逐时、逐日、逐候雨量进行 检验()分析,自然雨量数据集不满足正态分布特征,通过对数变换或者六次方根变换有所改善,不适合直接使用线性关系模型进行两区域数据拟合。刘晴 和程鹏等 提出为满足统计变量服从正态分布的要求,统计变量相对最优的选择是候雨量或旬雨量的六次方根值。本文对小时雨量进行六次方根变换,采用线性回归分析方法分析目标区和对比区的小时平均面雨量,将二者相关系数作为两区域降水相似度。地形相似度地形相似度是基于地图影像数据,利用地形特
11、征数据划分每种地物的分布区域,以区域为基本单位提取影像特征并进行对比。本文综合考虑两个区域地图要素的形状相似、位置相似以及信息内容相似程度,即属性特征相似性。将图片信息转化为数组,通过灰度化处理简化图像色彩,计算所有像素的灰度平均值,通过二值化得到图像的哈希值,比较像素的哈希值差异,利用汉明距离法得到两区域的相似度。由两区域地形相似度与降水相似度拟合关系可知二者呈较明显正相关关系(图)。因此,基于自然降水数据库和 空间数据,利用浮动对比区方法选取对比区时,将降水相似度和地形相似度较高(面积、形状与目标区相同)的区域确定为最佳对比区。图目标区与对比区地形相似度与降水相似度拟合关系 最佳对比区确定
12、古田试验区的主要天气系统为低涡切变、暖区辐合和高空槽,降水云系多为向东北方向移动的积层混合云。由图可知,红色方框为古田随机试验人工影响天气目标区,结合历史天气类型及云系主要移动路径,在目标区上游和侧方设计连续多个形状大小一样的区域为浮动对比区(蓝色方框)。基于历史自然降水数据,将 个浮动对比区与目标区进行面雨量相关性和地形相似度分析。考虑到地形变化对天气系统的影响因素,本文优先选择相关系数最高的区域,若相关系数相同,则优先选择地形相似度最高的区域作为最佳对比区(图黑色方框),两区雨量相关系数为 ,地形相似度为 。应用气象学报 第 卷图古田随机试验目标区、浮动对比区与最佳对比区设置 ,不同统计方
13、法的自然雨量关系模型对比区域历史回归建立两区域雨量关系模型的目的是利用对比区的自然雨量合理预期目标区作业期的自然雨量,并将其与作业影响后目标区的降水实测值对比,确定增雨效果。通过引入机器学习,对比不同统计方法的自然雨量关系模型,基于最优雨量关系模型得到目标区最接近自然降水的降水估测值,进而得到人工增雨作业后的合理增雨量。下文采用线性拟合、多项式回归、样条回归、机器学习进行对比分析 。选取均方根误差和确定系数比较不同拟合方法的优劣。均方根误差是回归模型的拟合标准差,越接近于,模型预测结果越精准;确定系数反映因变量的变化能由自变量解释的比例,表征回归模型的可靠程度,其正常取值范围为,该数值越大,代
14、表模型解释能力越强,对数据预测效果更好。基于平均面雨量的多种统计关系模型对比评估图为不同雨强(犐)的样本量。由图可知,小时雨量主要集中在雨强小值区域。将降水分为类:弱降水(犐)、一般降水(犐 )、中等降水(犐 )和强降水(犐),其中弱降水样本量占比为 ,强降水占比仅为 (表)。图不同雨强样本量统计 表 年不同等级降水样本量犜 犪 犫 犾 犲犛 犪 犿 狆 犾 犲 狊 犻 狕 犲狅 犳犱 犻 犳 犳 犲 狉 犲 狀 狋 狉 犪 犻 狀 犳 犪 犾 犾犮 犪 狋 犲 犵 狅 狉 犻 犲 狊 犻 狀 降水等级雨强()样本量样本比例弱降水,)一般降水,)中等降水,)强降水,)分别选取对比区小时平均面雨
15、量和平均面雨量六次方根变换值作为预测变量,选取目标区小时平均面雨量和平均面雨量六次方根变换值作为响应变量,利用线性回归、多项式回归(二项、三项、四项、五项)和样条回归(回归次数分别为、)多种模型,对比不同降水等级样本和总样本数据的拟合结果,建立的回归模型均方根误差如图所示。由图可知,选取平均面雨量作为预测变量,一般降水和第期李丹等:机器学习在人工增雨效果统计检验中的应用中等降水样本均方根误差为 ,总样本的均方根误差相对较小,约为,其次为弱降水数据。平均面雨量经六次方根变换后,总样本的统计结果同样表现相对较好,均方根误差相对较小。在后续分析中可以基于总样本进行统计分析,其中针对总样本构建相关模型
16、时,四项式回归的均方根误差最小,其次为二次样条回归。基于上述表现较好的线性回归、四项式回归、二图不同雨强下各模型的降水估测均方根误差对比 次样条回归,引入决策树、支持向量机()和卷积神经网络(),利用种不同方法对总样本进行模型对比。决策树是一种基本的分类与回归方法,本文选择回归树模型,其原理是根据属性特征将变量集合分割成多个互不重叠的子集,子集内变量具有较高相似性,因此子集内变量的预测值初始赋值均相同,预测结果为训练集中各子集预测值的算术平均值。的基本原理是找一个超平面,在高维空间内实现样本分类。是多个多元线性回归函数套上多个激励函数,实现非线性变换。图图基于总样本的不同模型降水估测的均方根误
17、差和确定系数 应用气象学报 第 卷为各统计模型以区域平均面雨量为统计变量的均方根误差和确定系数。由图可见,和四项式回归效果较好,的确定系数最大,为 ,均方根误差为 。同样,基于目标区和对比区基于平均面雨量六次方根变换值采用 方法建立的模型性能相对最优,确定系数高达 ,均方根误差仅为,其次为基于平均面雨量六次方根变换值的 统计模型,确定系数为 ,均方根误差为 。基于面雨量空间格点的卷积神经网络机器学习关系模型考虑到两区域面积较大,降水的空间分布明显不均,单纯以区域平均面雨量代表区域降水存在局限性,且两区域的上下游关系导致降水存在明显时间序列效应,同一降水过程目标区和对比区的欧式距离最近。因此尝试
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 人工 效果 统计 检验 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。