基于特征选择的SSA-XGBoost水质量预测研究.pdf
《基于特征选择的SSA-XGBoost水质量预测研究.pdf》由会员分享,可在线阅读,更多相关《基于特征选择的SSA-XGBoost水质量预测研究.pdf(12页珍藏版)》请在咨信网上搜索。
1、Modeling and Simulation 建模与仿真建模与仿真,2023,12(4),4183-4194 Published Online July 2023 in Hans.https:/www.hanspub.org/journal/mos https:/doi.org/10.12677/mos.2023.124381 文章引用文章引用:赵桐,刘媛华.基于特征选择的 SSA-XGBoost 水质量预测研究J.建模与仿真,2023,12(4):4183-4194.DOI:10.12677/mos.2023.124381 基于特征选择的基于特征选择的SSA-XGBoost水质量预测研究水
2、质量预测研究 赵赵 桐,刘媛华桐,刘媛华*上海理工大学管理学院,上海 收稿日期:2023年6月5日;录用日期:2023年7月21日;发布日期:2023年7月28日 摘摘 要要 为了能够更好的实现水资源的利用,针对目前对水质预测研究中存在的特征参数复杂、单一模型预测模为了能够更好的实现水资源的利用,针对目前对水质预测研究中存在的特征参数复杂、单一模型预测模型精度和适应度欠佳等问题,提出了一种基于型精度和适应度欠佳等问题,提出了一种基于XGBoost的水质预测模型。首先利用主成分分析方法对特的水质预测模型。首先利用主成分分析方法对特征进行选择,降低问题复杂度和计算成本,并对数据中的缺失值进行填充,
3、其次采用麻雀搜索算法征进行选择,降低问题复杂度和计算成本,并对数据中的缺失值进行填充,其次采用麻雀搜索算法(SSA)对对XGBoost模型中的参数进行优化,采用优化后的参数对水质进行预测。最后在不同实验条件下对水质模型中的参数进行优化,采用优化后的参数对水质进行预测。最后在不同实验条件下对水质进行预测,实验结果证明,本文提出的进行预测,实验结果证明,本文提出的SSA-XGBoost方法与现有方法相比,具有更优秀的性能。方法与现有方法相比,具有更优秀的性能。关键词关键词 水质预测水质预测,XGBoost,麻雀搜索算法麻雀搜索算法,特征选择特征选择 Research on SSA-XGBoost
4、Water Quality Prediction Based on Feature Selection Tong Zhao,Yuanhua Liu*Business School,University of Shanghai for Science and Technology,Shanghai Received:Jun.5th,2023;accepted:Jul.21st,2023;published:Jul.28th,2023 Abstract In order to better realize the utilization of water resources,a water qua
5、lity prediction model based on XGBoost is proposed in view of the problems existing in the current research on water quality prediction,such as complex characteristic parameters,poor precision and fitness of a sin-gle model prediction model,etc.Firstly,the principal component analysis method is used
6、 to select features,reduce problem complexity and computational costs,and fill in missing values in the da-ta.Secondly,the sparrow search algorithm(SSA)is used to optimize the parameters in the XGBoost *通讯作者。赵桐,刘媛华 DOI:10.12677/mos.2023.124381 4184 建模与仿真 model,and the optimized parameters are used t
7、o predict water quality.Finally,water quality was predicted under different experimental conditions,and the experimental results showed that the SSA-XGBoost method proposed in this paper has better performance compared to existing me-thods.Keywords Water Quality Prediction,XGBoost,Sparrow Search Alg
8、orithm,Feature Selection Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 水是一种巨大的自然资源,水资源在饮用水、农业、娱乐和工业用水等各种方面都至关重要,但这些水资源很大程度上会受到工业、人类行为或其他自然过程的污染,对环境和人类健康
9、都产生了直接影响,导致疾病和死亡率持续增加,准确、灵敏的水质预测模型,能够有效的服务于水污染的治理和水资源的利用,因此对水质进行预测是非常必要的一项研究。水质预测研究主要集中在机器学习模型研究方面,由于机器学习模型在处理非线性等复杂数据时具有更高精度、鲁棒性、有效性以及可靠性,因此在处理水质相关数据方面有显著的优势。Heddam 等人1使用了具有乙状激活功能、放射状、在线顺序和最佳修剪特性的 ELM 神经网络模型,并与 MLP 和 MLR进行了比较,对溶解氧指标进行预测,实验证明此 ELM 神经网络模型预测溶解氧的准确性更高。Mitrovi 等人2采用了 18 个水质特征指标作为蒙特卡洛模拟的
10、 ANN 模型的输入量,采用 WQ 单变量输出的方式,对水质进行预测,模型预测效果优秀,适用于多目标场景,具有高精度、效率高等特点。Tiwari 等人3采用多输入变量对水质指数(WQI)进行预测,此研究采用了两种聚类技术,即模糊 C-均值(FCM)和基于ANFIS 的减法聚类(SC1-ANFIS),通过实验证明,SC1-ANFIS 对 WQI 的预测性优于 FCM。Rankinen 等人4提出了可管理非正态误差分布的广义线性模型(GLM)和可处理非线性和缺失数据的增强回归树(BRT)模型,考虑到气候变化、农业措施和环境政策等间接因素,对未来各种情景下的水质情况进行预测。Ahmed 5等使用两个
11、 ANN 模型(即 FFNN 和 RBFNN)预测 Surma 河的溶解氧(DO),实验发现两个 ANN模型都具有较好的预测能力,相对而言 FFNN 比 RBFNN 预测精度更高一些,此水质预测模型可以应用于水管理和处理系统。查文舒等6通过全连接神经网络、卷积神经网络、循环神经网络等多种网络结构进行微分方程的求解,大幅提高泛化能力与应用价值。张皓等7提出一种多重 T-S 型模糊神经网络 PID温度控制算法,利用 T-S 型模糊神经网络的单输出特性,建立能分别输出 PID3 个参数的 3 重网络模型,模型稳定性高,抗干扰能力强。李晶晶等8以长短期记忆(LSTM)网络为基础提出了一种新的数据驱动空
12、间负荷预测方法,分析神经网络内部的时序,避免数据消沉现象,确定训练数据空间的相关性,提高了预测速度。陆继翔等9提出了一种基于卷积神经网络(CNN)和 LSTM 网络的混合模型短期负荷预测方法,将海量的历史负荷数据、气象数据、日期信息以及峰谷电价数据按时间滑动窗口构造连续特征图作为输入,先采用 CNN 提取特征向量,将特征向量以时序序列方式构造并作为 LSTM 网络输入数据,再采用LSTM 网络进行短期负荷预测,预测精度得到明显提升。在水质预测的相关研究中,存在着影响因子众多、数据指标复杂以及单一模型预测精度低等问题,Open AccessOpen Access赵桐,刘媛华 DOI:10.126
13、77/mos.2023.124381 4185 建模与仿真 因此本文采用主成分分析方法(PCA)作为特征选择的方法,采用 XGBoost 作为预测模型,并利用麻雀搜索算法(SSA)对 XGBoost 模型的参数进行优化。2.关键技术关键技术 2.1.PCA 主成分分析主成分分析 主成分分析法作为多元统计中的重要部分,是一种较为常见的无监督的数据降维方法,通过某种线性投影,将高维的数据映射到低维的空间中,并使得投影中维度上的数据方差最大。假设有 n 个样本,且每个样本有 p 个变量,则可以构成一个 n p 的原始数据矩阵,将原始数据进行标准化处理,计算方法如(1)所示:ijiijiXXS=(1)
14、式中,ij为标准化后的数据,ijX为原始数据,iX是第 i 个指标的样本均值;iS为第 i 个指标的标准差。基于标准化的矩阵,计算相关系数 R。根据相关系数矩阵 R 的特征方程,求解 R 的特征值和特征向量,R 的特征值为()1,2,iip=且12p,i是主成分特征向量所对应的特征值,即各主成分的方差值,其大小代表了原始样本在主成分中所占的比重,每个特征值对应的特征向量为()1,2,gilip=,通过这些特征向量把标准化的指标转化为主成分10,计算方法如(2)所示:()1,2,ggFZLgp=(2)计算贡献率i和累计贡献率i,计算方法如(3)(4)所示:()11,2,iipkkip=(3)()
15、111,2,ikkipkkip=(4)确定主成分并计算各主成分综合得分:首先要确定主成分的个数,主要方法有两种11 12,一是主成分方差累计贡献率大于 80%、二是各主成分特征值大于 1.0,然后由主成分的方差贡献率通过加权求和法得出主成分的综合得分。2.2.XGBoost 算法算法 XGBoost 是基于 CART 树的一种 boosting 算法,它是通过多个学习器的学习,来不断降低模型值和实际值的差。其基本思想是不断生成新的树,每棵树都是基于上一颗树和目标值的差值来进行学习。模型输出表达式为()1tikikyfx=,其中:K 为树的总个数,kf表示第 k 颗树,iy表示样本ix的预测结果
16、。模型的目标函数由两部分组成,一是模型误差,即样本真实值和预测值之间的差值,二是模型的结构误差,即正则项,用于限制模型的复杂度。目标函数的计算方法如(5)所示()()()11,nkikikObjl y yf=+(5)其中:(),il y y为样本ix的损失函数,()kf表示第 k 颗树的正则项。XGBoost 通过不断地分裂添加树,每次添加树的过程即为学习一个新函数()f x,去拟合前一次预测赵桐,刘媛华 DOI:10.12677/mos.2023.124381 4186 建模与仿真 的残差。当训练完成得到 k 棵树,对样本的分数进行预测,每个叶子节点对应一个分数,将每颗树的分数相加即可得到该
17、样本的预测值。计算方法如(6)所示:()()()(1)1tttkitiiikfxfxyy=+(6)其中:kf表示第 k 棵树,()tiy表示组合 t 棵树模型对样本ix的预测结果。优化目标函数。损失函数采用均方误差,目标函数为:()()()()()()()()()2(1)12(1)1121ntiititintiitititiObjyyfxfCyyfxfxfC=+=+(7)对于目标函数中的正则项,从每一棵回归树考虑,其模型可表示为:()(),:1,2,Tdtq xfxRq RT=(8)其中:为叶子节点 q 的分数,()q x表示样本 x 对应的叶子节点,T 为该树的叶子节点个数。2j为其中一棵回
18、归树。为了避免过拟合,对树上叶子节点的分数进行正则化,XGBoost 的目标函数可写为:()()()(1)2111,2nTtitijijObjl y yfxTC=+(9)其中:为叶子个数,2j表示的 L2 模平方。利用泰勒展开式去将目标函数进行进一步的变形,且令()(1)(1),ttiiygl y y=,()2(1),tiiyhl y y=,由于在第 t 棵树,iy是真实值,即已知,第 t 颗回归树是根据前面的 t 1 颗回归树的残差得来的,相当于 t 1 颗树的值(1)tiy是已知的,因此()(1),til y y是常数。去除所有常数项,并将()()2112nitiitiig fxh fx=
19、+看 作是每个样本在第 t 棵树的叶子节点的分数相关函数的结果之和,则目标函数可表示为:()()()221121112212jjnTtitiitijijTijijii Ii IObjg fxh fxTghT=+=+(10)式中:T 为第 t 棵树中总叶子节点的个数;()jiIi q xj=表示在第 j 个叶子节点上的样本;j为第 j 个叶子节点的分数值。定义jii IGg=,jii IHh=,通过对j求导等于 0,可以得到*jJjGH=+,则 目标函数表示为:2*112TjjjGObjTH=+(11)2.3.麻雀搜索算法麻雀搜索算法 麻雀作为一种群居类动物,种类繁多,对环境的适应性较强,有较高
20、的灵敏度,飞行能力强。在麻雀觅食过程中,具有不同的分工,具体可以分为发现者和加入者。发现者和加入者的身份是动态切换的,只要能够寻找到更丰富的食物来源,每只麻雀都可以成为发现者,但发现者和加入者所占整个种群数量赵桐,刘媛华 DOI:10.12677/mos.2023.124381 4187 建模与仿真 的比重是不变的。假设麻雀种群的初始规模数是 n,用1,11,22,1,n dXXXXX=表示。d 表示麻雀个体所附带的维度。算法中,发现者有较强搜索能力即具备较好适应度值,因此更容易搜寻到食物。在整个空间中,其位置更接近最优解的位置。在每轮迭代搜索的过程中,发现者会进行位置更新,计算方式为:()(
21、)(),max,exp,1,i ji ji jiXtRSTtXtXtQ LRST+=+(12)其中,ijX表示种群中第 i 只麻雀在第 j 维的位置;t 是算法当前的迭代次数,maxt是最大迭代次数;是(0,1之间的随机值;R 的取值范围是0,1,表示算法中麻雀个体遇到危险时的预警值;ST 的取值范围是0.5,1,表示安全值;Q 是服从正态分布的随机数;L 表示大下为ld,元素都是 1 的矩阵。当RST时,表示部分麻雀已发现危险,发现者按正态分布随机移动到当前位置附近。当RST+=+(13)其中,pX表示发现者适应度值最优的位置;X表示当前空间中适应度值最差的位置;A 是维度ld,元素都是 1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 特征 选择 SSA XGBoost 水质 预测 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。