基于机器学习的2016-2020年南京市ρ(O3)预报.pdf
《基于机器学习的2016-2020年南京市ρ(O3)预报.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的2016-2020年南京市ρ(O3)预报.pdf(9页珍藏版)》请在咨信网上搜索。
1、利用南京市2 0 16 年1月1日-2 0 2 0 年12 月31日城市空气质量监测站点的p(NO)、p(O)、p(PMlo)、p(CO)和p(PM2.)逐小时观测资料,分析南京的O,污染特征.使用随机森林重要度评估法筛选出对p(O,)影响较大的污染物因子、污染持续性因子和气象因子作为机器学习预报模型的输人变量。采用随机森林算法(RF)和支持向量机算法(SVM)建立南京市不同季节的p(O,)预报模型,对比分析两种模型的预报效果,结果表明,近5a南京市p(O,)的日变化整体呈单峰型,午后较高;p(O,)具有明显的季节变化特征,夏季较高;2 0 16-2 0 2 0 年p(O)的年际变化总体呈下降
2、趋势,且p(O,)的超标天数在减少,说明南京市政府实施的O,治理措施有明显效果;RF和SVM算法均能较好地预测p(O,),预测值与观测值较为接近;相较于RF模型,SVM四季模型的预测值与观测值的相关系数更接近1,均方根误差与平均绝对误差都较小,预报效果较优。关键词:机器学习;随机森林;支持向量机;臭氧;预报中图分类号:P456文献标识码:A文章编号:0 455-2 0 59(2 0 2 3)0 3-0 37 1-0 9D0I:10.13885/j.issn.0455-2059.2023.03.012A prediction of Nanjing City p(Os)from 2016 to 2
3、020 basedon machine learningYASHENG Dilinuer,WANG Tian-yu,CHEN Jin-che,LI Xu,LEI Yu-hong,WANG Xing-yu,XIE Xiang-shan,SUN Cai-xia,WANG Jin-yan1.Key Laboratory of Arid Climatic Changes and Disaster Reduction of Gansu Province,College of Atmospheric Sciences,Lanzhou University,Lanzhou 730000,China2.No.
4、63680 Troops of Peoples Liberation Army of China,Jiangyin 214400,Jiangsu,ChinaAbstract:The hourly observation data on p(NO,),p(O,),p(PM,o),p(CO)and p(PM,.s)in Nanjing Cityquality monitoring points from 2016-01-01 to 2020-12-31 were used.The characteristics of O,pollutionin the city were analyzed.The
5、 random forest importance assessment method was used to screen out thepollutant factors,pollution persistence factors and meteorological factors that had a great impact on p(O,)as the input variables of the machine learning prediction model.Random forest algorithm(RF)and sup-port vector machine algo
6、rithm(SVM)were used to establish the p(O,)prediction model in differentseasons in Nanjing City,and the prediction effects of the two models were compared and analyzed.The results showed that the diurnal variation of p(O,)in recent 5 years presented a single-peak pattern,收稿日期:2 0 2 2-0 4-12修回日期:2 0 2
7、 2-10-12基金项目:国家重点研发计划项目(2 0 2 0 YFA06084);甘肃省科技厅科技计划项目(2 1JR7RA501,21JR7RA497)作者简介:李旭(19 8 3-),男,甘肃天水人,高级实验师,博士,e-mail:,研究方向为现代天气和环境预报技术,通信联系人.372兰州大学学报(自然科学版),2 0 2 3,59(3)and the afternoon p(O,)was high.The p(O,)had an obvious seasonal variation,and the p(O,)was higherin summer.From 2016 to 2020,t
8、he interannual variation of p(O,)sh generally showed a downward trend,and the number of days of O,exceeding the standard also decreased,indicating that the O,control mea-sures implemented by the Nanjing government had had obvious effects.Both RF and SVM algorithmcould predict p(O,)well,and the predi
9、cted values were close to the actual observed values.The corre-lation coefficient between the predicted and the actual observed values of the SvM four season modelswere closer to 1,the root mean square error and the mean absolute error smaller,and the prediction effectoptimized.Key words:machine lea
10、rning;random forest;support vector machine;ozone;forecast0,作为大气中重要的微量成分,约9 0%存在于平流层,仅10%左右存在于对流层 近地面0,是一种对生物有害的大气污染物,在一定条件下由氮氧化物(NO)及挥发性有机物(VOCs)等前体物相互作用而生成,是光化学污染的主要组成部分.对流层中的O,属于温室气体,通过吸收地-气系统的长波辐射加热大气2 .近年来,中国大多数城市的空气质量持续改善,尤其是秋、冬季的细颗粒物污染下降明显,但春、夏季O污染呈上升趋势了解O,的来源、形成与发展机制,加强p(O,)的实时监测与预报,建立有效的大气污染
11、物预警机制,提出合理的大气污染物治理措施,对改善城市空气质量具有重要意义。统计预报是通过分析污染物发展规律进行预测的方法。统计回归模型是根据实际观测值与预测值的比较结果,应用历史时期的污染物质量浓度资料、气象资料等进行诊断预测4-5.常用的统计预报方法有回归分析法、相关分析法、建立线性与非线性模型等统计模型运算量小、易操作、使用方便、易于实现,避免了数值预报的弊端.肖旖施等6 利用2 0 19 年泸州市主城区的气温、湿度及p(O)数据,建立了以日最高气温、日平均湿度为输入变量的双因子p(O.)预测模型,预测结果与实际观测值的相关系数为0.9 3,效果良好.史霖等7 利用2 0 17 年银川5-
12、7 月0,日最大8 h质量浓度p(O.)s与当日14:0 0(北京时间,下同)的气温、相对湿度和风速进行线性多项式拟合,预测8 月午后的p(O,),拟合的R=0.653,效果良好.蒋璐璐等18)利用宁波2 0 10-2 0 13年p(O)、p(PM l o)、p(SO)及p(NO,)日均值观测数据及气象要素数据进行显著性分析,将通过显著性检验的数据作为自变量,进行逐步回归分析,建立宁波市日均p(O)预测方程,模型的预测值与实际观测值的相关系数为0.6,能较好地预测日均p(O,),但对一些极高或极低值存在一定偏差.基于机器学习算法的空气污染预报模型无需源排放清单,已大量应用于各项研究。常用的机器
13、学习方法有随机森林(randomforest,RF)、支持向量机(supportvectormachine,SVM)、人工神经网络、决策树等.马润美等9 利用2 0 13-2 0 16 年京津冀地区9 5个气象监测站点的数据,包括气象数据、地理类变量数据、社会经济数据、模拟产品数据以及站点位置数据,根据RF算法的重要度排序筛选变量,针对平均p(O,)h 建立随机森林模型,决定系数为0.8 5,预测性能较好.王鹏等10 利用皮尔逊相关分析、主成分分析和RF模型建立了长江三角洲地区p(PM2.5)的预测模型,对p(PM.)的预测表现较好,且在长江三角洲中西部城市的预测效果优于东部沿海城市.HONG
14、II利用循环人工神经网络和SVM混合模型探测降雨深度值,并采用混沌粒子群优化算法对混合模型的参数进行选择,以台湾北部台风期间的雨量为例,验证所提出的混合模型,结果表明模型具有较好的预测性能,SHARMA等12 使用神经网络预测未来3d的空气质量指数,并将其划分为良好、中等、较差、严重等波段,预测效果较好.ASIF等13 利用长短期记忆人工神经网络等8 种算法找出预测特定污染物的最优模型,结果表明对于p(O.)Bi-LSTM和Holt-Winters算法表现较优.LU等4训练了Lasso回归算法等3种机器学习方法与社区多尺度空气质量系统模型相结合对p(O)进行预测,发现Lasso-RF耦合模型效
15、果最好,相较于其他模型的p(O.)逐小时预报偏差减小,相关系数显著提高.机器学习在气象领域的应用日益广泛,与传统的统计预报方法相比,具有一定的优势.在众多机器学习算法中,RF算法拥有较强的抗过拟合能力,泛化能力很强,在训练过程中可以检测到特征变量之间的关系,且训练速度快,可以对不平衡的数据集平衡误差,并具有较强的抗干扰能力,当数据中存在大量数据缺失时,用RF算法的预测373迪里努尔牙生,等:基于机器学习的2 0 16-2 0 2 0 年南京市p(O)预报效果较好.SVM算法是一种适用于小样本学习的算法,基本不涉及概率测度及大数定律等,使得回归问题得到了简化,且其最终的决策函数只由少数支持向量决
16、定,而不是样本空间的维数,在一定程度上避免了“维数灾难”.少数支持向量决定最终结果,增加或删除非支持向量样本对模型的最终结果没有影响,简化了算法,且具有较好的“鲁棒性”本研究利用2 0 16 年1月1日-2 0 2 0 年12 月31日南京市城市空气质量监测点p(NO)、p(O)、p(PMo)、p(CO)、p(PM 2.5)逐小时观测数据、持续性污染因子数据及同期气象数据,分析南京市p(O.)的日变化、年变化、p(O.)s年际变化及p(O)超标频次特征;使用RF重要度评估法筛选出对p(O,)影响较大的污染物因子、污染持续性因子及气象因子作为机器学习预报模型的输人变量;采用RF算法和SVM算法建
17、立南京市四季p(O.)预报模型,并评估不同季节两种模型的预报效果,1数据与方法2016-2020年南京市p(O.)、p(NO,)、p(PM l)、p(CO)和p(PM.)逐小时观测数据来自中国环境监测总站的全国城市空气质量实时发布平台使用2 0 16-2 0 2 0 年南京地面气象观测台站的温度、露点温度、海平面气压、风速等逐小时气象要素数据.RF算法是不同决策树应用随机处理方法建立的,包括分类和回归两种算法.通过bootstrap抽样方法,从原始的训练样本集中重复并随机有放回地抽取K个样本生成新的训练样本集;根据自助样本集生成K个决策树组成随机森林.RF算法用独立同分布随机变量及训练集数据,
18、将其生成决策树(h(x,),并利用集成学习思想将所有决策树组合.回归模型预测结果取自各决策树预测值的均值15-18 ,通过特征选择,可以提高学习算法的预测精度.本研究采用RF重要度评估的方法选择预报因子,RF的一大特点就是可以用于输人特征的选择.对于特征X(i=1,2,m),其变量重要度的计算步骤为:步骤1计算RF中所有决策树的袋外数据(out ofbag data,OOB)的误差估计值Er;步骤2 阳随机置换特征X为其他特征,即加入噪声干扰,并计算此时的OOB误差估计值E将步骤1、2 重复多次,生成N棵不同的决策树,构成RF.特征X的变量重要度1-2(E,-E)计算各个特征的重要度及对于南京
19、不同季节的所有特征重要度的平均值;选择大于该平均值的特征变量作为预报因子19 .SVM算法在解决小样本、非线性及高维模式时有较大优势,其主要思想是将样本空间中的非线性函数映射至一个高维乃至于无穷维的特征空间,在特征空间中寻求最优回归超平面,从而解决样本空间中的高度非线性回归问题2 0-2 .为客观评估建立的RF预测模型和SVM预测模型,采用相关系数R、均方根误差RMsE、平均绝对误差MAE、拟合优度及残差平方和SsE作为模型模拟结果与实际值拟合程度的衡量标准.RMSEVMAE及Ss越小,R及越接近1,模型的模拟效果越好、精度越高。Z(M,-0,)RMSEi1(1)m1mM之M,-O.,(2)m
20、1=1(0-0.)(M-M.)R=(4)(0-0.)Z(M,-M,)i=11(M,-0,)r=1-1(5)(M,-M.)1Sse=Z(M,-0,).m(6)其中,O,为观测值,可,为观测平均值,M,为预测值,M为预测平均值,m为样本容量.2结果与讨论2.1p(O,)污染特征南京市2 0 16 年1月1日-2 0 2 0 年12 月31日四季p(O)的逐小时变化特征曲线见图1.每个时刻p(O,)的取值是2 0 16-2 0 2 0 年所有该时刻p(O,)的平均值.由图1可见,p(O)的日变化整体呈“单峰 形,08:00左右较低,15:0 0 左右较高.夜间p(O)维持较374兰州大学学报(自然科
21、学版),2 0 2 3,59(3)140春季夏季120(u/Br)/(o)d100秋季冬季8060402000:0000:1000:000:t000:SO00:9000:L0 00:8000:6000:0100:Z00:00:00:SI00:9100:L100:8100:6100:0200:1200:22时间图1南京四季p(O)的日变化特征Fig.1IDiurnal variation ofp(O,)in four seasonsin Nanjing City低水平,主要是因为夜间生成O,的光化学反应较弱.0 8:0 0 开始,随着太阳辐射的增强和温度升高,生成O,的光化学反应强烈,p(O)开
22、始积累升高,在15:0 0 左右达到峰值.当光照变弱时,p(O.)开始下降,至2 3:0 0 以后p(O)变化趋于平缓,并维持在较低水平直至次日日出.该结果与张文斌等2 关于重庆市沙坪坝区大气p(O)的日变化特征一致.南京不同季节p(O)存在差异,日出后的p(O)在夏季最高,其次是春季.原因是夏季日出后的平均气温较春季偏高,且太阳辐射较春季偏强,有利于0,生成。南京2 0 16 年1月1日-2 0 2 0 年12 月31日p(0)的年变化特征曲线见图2.每个月份的p(O)是2016-2020年所有该月份p(O,)的平均值.100(u/an)/(o)d8060402012345678910111
23、2月份图2 南京p(O)的年变化特征Fig.22Annual variation characteristics of p(O,)in Nanjing City由图2 可见,南京市p(O)的年变化整体呈 n形,6 月较高,12 月较低.p(O)在4-6 月均较高,是由于4月起南京气温开始回升,日照强烈,且无持续性降水,空气中的NO.及VOCs发生光化学反应,生成O.南京市三面环山一面临江,大气对流不畅,污染物不易扩散,形成的O,积聚在城市中,导致p(O)上升.7、8 月的p(O)较6 月低是因为南京地处沿海地区,属于亚热带季风气候,夏季会受江淮梅雨及副热带高压的东南风带来的暖湿空气影响,降水增
24、多,日照减少,光化学反应减弱,p(O,)降低.南京2 0 16-2 0 2 0 年p(O)的年际变化特征曲线见图3.110185(.u/ail)/(o)d109180108175107p(O 年均值170106一p(0)第9 0 百分位数16510520162017201820192020年份图3南京p(O)的年际变化特征Fig.3Interannual variation of p(O,)sh inNanjing City由图3可见,南京市2 0 17 年的p(O,),均值较2016年略有上升,2 0 18 年低于2 0 17 年,但较2 0 16年略高,2 0 2 0 年为近5a最小值.按
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 2016 2020 南京市 28 O_ 283 29 预报
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。