基于GA算法优化Stacking集成学习的金属材料大气腐蚀速率研究.pdf
《基于GA算法优化Stacking集成学习的金属材料大气腐蚀速率研究.pdf》由会员分享,可在线阅读,更多相关《基于GA算法优化Stacking集成学习的金属材料大气腐蚀速率研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、SHANDONG ELECTRIC POWER山东电力技术第50卷(总第311期)2023年第10期 人工智能 DOI:10.20097/ki.issn1007-9904.2023.10.006基于GA算法优化Stacking集成学习的金属材料大气腐蚀速率研究田辉,樊志彬,王倩,米春旭(国网山东省电力公司电力科学研究院,山东济南250003)摘要:针对大气环境下电网设备中金属材料的腐蚀速率预测问题,提出一种基于遗传算法(genetic algorithm,GA)优化Stacking集成学习算法模型,挖掘大气环境因子与镀锌钢腐蚀速率的关系。该模型为双层结构,融合了多个预测模型的优点。通过GA算法
2、优化第一层各个初级学习器的待调参数,将初级学习器学习到的数据交给第二层次级学习器做进一步拟合。同时,结合K折交叉验证的方式有效降低过拟合现象。结合Spearman相关系数和随机森林特征重要性评估方法,筛选出与镀锌钢腐蚀速率相关性最高的5个环境因子作为输入,由此展开镀锌钢腐蚀速率预测研究。试验结果表明,相较于单一的机器学习模型,该模型能有效提高预测镀锌钢材料腐蚀速率的拟合度,降低预测误差。关键词:大气腐蚀;环境因子;电网设备;机器学习;腐蚀速率中图分类号:TG172.3文献标识码:A文章编号:1007-9904(2023)10-0043-07Study of Atmospheric Corros
3、ion Rate of Metal Materials Based onGA-optimized Stacking Integrated Ensemble LearningTIAN Hui,FAN Zhibin,WANG Qian,MI Chunxu(State Grid Shandong Electric Power Research Institute,Jinan 250003,China)Abstract:In order to investigate the relationship between atmospheric environment factors and the cor
4、rosion rate of galvanizedsteel,a genetic algorithm(GA)based optimized Stacking integrated learning algorithm model is proposed for predicting thecorrosion rate of metallic materials in grid equipment.The model,which has a two-layer structure,combines the benefits of manyprediction methods.The GA met
5、hod is used to tailor each primary learners parameters in the first layer,and the secondary learnerin the second layer receives the primary learners data for further fitting.At the same time,K-fold cross-validation is combinedwith other techniques to successfully mitigate the overfitting phenomena.B
6、y combining Spearmans correlation coefficient and therandom forest feature importance assessment method,the five environmental factors with the strongest correlation to the corrosionrate of galvanized steel were chosen as inputs,and the study of predicting the corrosion rate of galvanized steel was
7、subsequentlyconducted.In comparison to a single machine learning model,the experimental findings demonstrate that the model can effectivelyenhance the fit and decrease the error in forecasting the corrosion rate of galvanized steel materials.Keywords:atmospheric corrosion;environmental factors;power
8、 grid equipment;machine learning;corrosion rate0引言电网系统在人民日常生活以及社会经济活动中担负着举足轻重的作用,电网设备稳定运行是保证供电的基础。电网设备中的金属材料易受大气腐蚀的影响,众多研究发现腐蚀对设备自身稳定性和服役性能均有较大影响,易造成较大经济损失和安全隐患1-2。准确了解电网设备金属材料的腐蚀情况是保障电网供电安全稳定的关键,因此需要对电网设备金属材料进行腐蚀预测,保证能够提前了解设备的腐蚀情况,以便及时维护。基金项目:国家电网有限公司科技项目“基于电网大气腐蚀图的数据挖掘及电网设备服役寿命评价技术研究”(5200-2020164
9、71A-0-0-00)。Science and Technology Project of State Grid Corporation of China“Research on Data Mining and Service Life Evaluation Technology ofPower Grid Equipment Based on Atmospheric Corrosion Map”(5200-202016471A-0-0-00).43山东电力技术第50卷(总第311期)2023年第10期大气腐蚀是一个复杂的过程,许多金属材料的腐蚀规律仍不能被准确掌握,其往往受相对湿度、温度、污染
10、物等多种环境因素的影响,目前还没有准确合理的腐蚀预测模型。因此,研究各种大气环境下腐蚀的影响因素和腐蚀过程的动力学规律,对预测腐蚀损失具有重要意义。为了得到准确的模型来估计不同环境条件下的腐蚀规律,一些学者已经做了许多工作。环境因子对腐蚀速率影响定量关系的研究模型主要包括剂量响应方程模型和机器学习模型等。其中,剂量响应方程模型是基于现场暴露腐蚀试验结果与试验点环境参数回归分析的经验公式。大量研究表明,金属材料的大气腐蚀过程同时受到多种环境因子的影响,许多研究已经得出包括温度、湿度、润湿时间、SO2沉积量、Cl-沉积量以及污染物等是影响腐蚀的主要因素,并分析了各自对金属材料腐蚀速率的影响3-5。
11、因此现有大多数研究也是基于上述因素建立剂量响应方程。最常用的剂量响应方程的基本形式遵循简单的线性或对数线性关系6。叶堤等7结合灰色关联分析和非线性回归方法,同时考虑了氮元素的影响,建立了基于大气腐蚀机理的碳钢、Zn、Cu 的腐蚀剂量响应方程。李牧铮等8通过建立各自的和综合的多元线性回归方程组,除了考虑氮元素外,还考虑了大气沉降物中水溶性降尘量,给出了金属材料的大气腐蚀预测剂量响应方程。由于腐蚀数据的不确定性大,以及传统回归方法在处理非线性交互效应方面的局限性,依赖经验公式会得到不同的剂量响应方程,这样会产生各种各样的公式,不利于推广。同时,影响腐蚀速率的因素较多,依靠剂量响应方程不能综合考虑各
12、种环境因子的相互影响。近几年,基于机器学习的方法在腐蚀研究中得到了越来越广泛的应用。机器学习模型可通过在经验和数据中学习,自动搜索知识,而不依赖于预先确定的方程,能更好地理解和预测大气腐蚀。人工神经网络(artificial neural network,ANN)9、随机森林(random forest,RF)10、支持向量机(support vectorregression,SVR)11等算法已经应用在各类数据挖掘中。在腐蚀预测方向上也有了一些研究,其中 Cai等12研究了相对湿度、温度、二氧化硫和氯化物对动态环境中短期腐蚀行为的影响,提出了一种描述环境因子统计分布的多参数方法。Zhi 等1
13、3结合 RF 系数和 Spearman 系数的混合方法,降低了维度,给出了不同服役周期下影响腐蚀速率主要的环境因子,建立了 SVR 腐蚀预测模型。Pei 等14改进了 RF 模型,提高了对碳钢大气腐蚀的预测精度,且预测能力明显强于 ANN 和 SVR 模型。以往研究中使用的机器学习模型往往是 12 种模型,容易造成过拟合或者欠拟合现象,并没有充分发挥各个模型的优势,因此基于机器学习的腐蚀预测还有很大的研究空间。研究分析影响腐蚀的环境因子,并将遗传算法和 Stacking 集成学习模型结合,建立腐蚀预测模型。相较于以往的腐蚀预测模型,该模型能够充分发挥各个机器学习模型的优势,在提升拟合度的同时,
14、有效减少过拟合现象,提高模型的适用性。同时,通过较少的环境因子,更加便捷有效地对腐蚀速率进行预测,减少因采集过多环境因子带来的工作量。1Stacking集成学习模型原理Stacking 集成学习算法一般分为两层,第一层为初级学习器,第二层为次级学习器。原始数据集经过初级学习器训练得到一个新的数据集,用来训练次级学习器,并最终得到预测结果15。该方法在训练过程中,通过不同算法模型的优化组合,发挥各自的优势,从而提高整个模型的预测准确率。其结构如图 1 所示。图1Stacking算法示意Fig.1 Schematic of stacking algorithm首先,将数据分为训练集 Tr和测试集
15、Te,为进一步降低过拟合,训练集 Tr又被分成 K 份:Tr1,Tr2,TrK。在第一层初级学习器中,取其中 K-1份作为训练集,另外一份作为验证集,每个模型分别进行 K 次训练,每次可以得到一个验证集预测结果 V 和一个预测集结果 P,分别表示为 V1,V2,VK、P1,P2,PK。经过 m 个模型训练则可以得到44m 组训练集预测结果,验证集预测结果为V11,V12,V1K,V21,V22,V2K,Vm1,Vm2,VmK,预测集结果为P11,P12,P1K,P21,P22,P2K,Pm1,Pm2,PmK。同时,对 K 次训练得到的预测集结果求平均值得到 m 组测试集预测结果:P1,P2,P
16、m。由第一层训练集预测结果和测试集预测结果组成第二层次级学习器的输入,实现对第一层初级训练器结果优化,提高预测的准确性。1.1初级学习器对于初级学习器,用到的算法包括随机森林算法、自适应增强算法(adaptive boosting,AdaBoost)、梯度提升决策树算法(gradient boosted decision trees,GBDT)和 极 端 梯 度 提 升 算 法(extreme gradientboosting,XGBoost)。1)随机森林算法。随机森林由 Breiman 等提出,是基于树的机器学习算法,其基本单元是决策树。它是一个集成分类器,由许多独立的决策树组成,并输出大
17、多数决策树预测的类。算法过程如图 2 所示。图2随机森林算法示意Fig.2 Schematic representation of the random forestalgorithm算法步骤如下:a)将训练数据集有放回抽取 N 次,得到新的子训练集D1,D2,DN,作为决策树根节点处的样本。b)随机选取属性做节点分裂属性,并重复该步骤。c)通过以上步骤,建立大量决策树,形成随机森林。d)将每棵树输出的预测值求平均值得到最终预测结果。2)AdaBoost 算法。AdaBoost 算法是由 Freund 和 Schapire16在 1995年提出,针对同一训练集进行不同学习器(分类器)的训练,并
18、将这些弱学习器集合起来,组成一个更有效的强学习器。在解决回归问题时,具体算法过程如下。a)初始化每个样本数据的权值分布。假定练集样本为T=(x1,y1),(x2,y2),.,(xN,yN)(1)训练集的第 k 个弱学习器的输出权重为Dk=(k1,k2,.,kN)(2)式中:ki(i=1,2,N)为第 i 个样本在第 k 个弱学习器的输出权重。则初始化样本集权重为D1=(11,12,1N)1i=1N,i=1,2,N(3)b)进行第 k 次迭代。使用具有权值分布 Dk(k=1,2,K)的训练样本集进行学习,得到弱学习器gk。训练集上的最大误差为Ek=max|yi-gk(xi)(4)式中:xi为第i
19、个样本;yi为xi的目标值。计算每个样本的相对误差为eki=yi-gk(xi)2/E2k(5)计算在gk训练数据集上的回归误差率为ek=i=1Nkieki(6)计算弱学习器系数为k=ek/(1-ek)(7)更新训练样本集的权值分布为k+1,i=ki/(i=1Nki1-ekik)-1-ekik(8)c)结束 K 轮迭代,得到最终强学习器为Q(x)=gk*(x)(9)式中:gk*(x)为所有ln1k的中位数值乘以对应序号k*对应的弱学习器。3)GBDT 算法与 XGBoost 算法。GBDT 算法由 Friedman17提出,是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来作为最终答
20、案。GBDT 算法可以看成是 M 棵树组成的加法模型。田辉,等:基于GA算法优化Stacking集成学习的金属材料大气腐蚀速率研究45山东电力技术第50卷(总第311期)2023年第10期F(x,)=m=0Mmhm(x,m)(10)式中:x为输入样本;、m为模型参数;hm(x,m)为分类回归树;m为每棵树的权重。其算法过程如下。a)初始化学习器F0(x)=arg minci=1nL(yi,c)(11)式中:L()为损失函数。b)建立 M 棵分类回归树。计算第 m 棵树(m=1,2,.,M)对应的响应值为rm,i=-L(yi,F(xi)F(xi)F(x)=Fm-1(x)(12)式中:F(x)为学
21、习器函数;Fm-1(x)为第m-1轮得到的学习器。用(xi,rm,i)拟合得到第 m 棵回归树 Tm,叶子节点区域划为Rm,j(j=1,2,Jm),Jm为第 m 棵回归树叶子节点的个数。遍历所有节点,计算回归树 Tm的每个叶子节点Rm,j的输出值,即为最佳拟合值 cm,j。cm,j=arg mincxi Rm,jL(yi,Fm-1(xi)+c)(13)更新学习器为Fm(x)=Fm-1(x)+j=1Jmcm,jIx(14)Ix=1,样本 x 在第 i 棵树的第 j 个叶子里0,样本 x 不在第 i 棵树的第 j 个叶子里c)重复步骤直到满足停止条件,累加得到最终的学习器表达式为FM(x)=F0(
22、x)+m=1Mj=1Jmcm,jIx(15)XGBoost 算法是建立在 GBDT 算法上,进一步改进了算法,不再详细展开。1.2次级学习器次级学习器由人工神经网络模型构成。人工神经网络的节点相当于一个神经元,这些神经元接收外界的输入信息进行计算和调整,并将它们输送到其他神经元。神经元的计算函数由神经元输入连接的权重定义,通过恰当地改变这些权重大小可以学习得到计算函数,对输入数据建立相关模型。BP(back propagation,BP)神经网络是常见的神经网络算法,是一种基于误差反向传播算法的三层前馈神经网络,主要由输入层、隐含层和输出层构成。BP神经网络具有实现任何复杂非线性映射的功能,使
23、其适合求解内部机制相对复杂的问题,其网络结构如图3 所示。其中输入层、隐含层和输出层神经元个数分别为 M、I 和 J,Xm表示输入层第 m 个神经元,Ki表示隐含层第 i个神经元,Yj表示输出层第 j个神经元。图3BP神经网络Fig.3 BP neural network隐含层和输出层采用 Tan-Sigmoid 函数作为传递函数tansig(n)=2/(1+e-2n)-1(16)式中:n 为迭代次数。采用 Levenberg-Marquardt 算法对网络权值进行修正(n+1)=(n)-e(n)JTJ+J-1JT(17)式中:J为包含误差性能函数对网络权值一阶导数的雅克比矩阵;为一个需要设置
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 GA 算法 优化 Stacking 集成 学习 金属材料 大气 腐蚀 速率 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。