基于改进的哈里斯鹰优化算法的特征选择.pdf
《基于改进的哈里斯鹰优化算法的特征选择.pdf》由会员分享,可在线阅读,更多相关《基于改进的哈里斯鹰优化算法的特征选择.pdf(9页珍藏版)》请在咨信网上搜索。
1、第49 卷第5期2023年10 月文章编号:16 7 3-5196(2 0 2 3)0 5-0 0 93-0 9基于改进的哈里斯鹰优化算法的特征选择赵小强*1,2.3,强睿儒(1.兰州理工大学电气工程与信息工程学院,甘肃兰州7 3 0 0 50;2 兰州理工大学甘肃省工业过程先进控制重点实验室,甘肃兰州730050;3.兰州理工大学国家级电气与控制工程实验教学中心,甘肃兰州7 3 0 0 50)摘要:特征选择是一项旨在通过移除不相关、余的数据来减少特征数量,同时可以保持较高的分类精度的机器学习任务.针对哈里斯鹰优化算法(HHO)不能在离散的特征空间进行特征选择,以及算法后期种群多样性减少、易陷
2、入局部最优等问题,提出了基于改进的哈里斯鹰的特征选择算法.首先使用混沌映射初始种群多样化,以确保在种群质量较优的前提下能够均匀分布于搜索空间;其次,通过引入高斯变异算子对免子的位置进行重新更新,以避免算法陷入局部最优;最后设计二次优化算法的二进制版本并将其应用于基于KNN分类器的包裹式特征选择问题中.通过在18 个经典的UCI数据集进行特征选择仿真实验,结果显示该算法在适应度值、平均分类准确度以及平均特征选择数量上比其他主流算法都能获得更好的结果,从而表明该算法能够进行有效的提取特征子集和得到更准确的数据分类,并能够实现更高的寻优精度.关键词:包裹式特征选择;哈里斯鹰优化算法;混沌映射;高斯变
3、异中图分类号:TM761Feature selection based on an improved Harris hawk optimization algorithm(1.School of Electrical Engineering and Information Engineering,Lanzhou Univ.of Tech.,Lanzhou 730050,China;2.Key Laboratory ofAdvanced Control of Industrial Processes of Gansu Province,Lanzhou Univ.of Tech.,Lanzhou
4、730050,China;3.National Electrical andControl Engineering Experimental Teaching Center,Lanzhou Univ.of Tech.,Lanzhou 730050,China)Abstract:Feature selection is a machine learning task that aims to reduce the number of features by re-moving irrelevant and redundant data while maintaining high classif
5、ication accuracy.In order to addressthe problems that Harris hawk optimization algorithm(HHO)cannot perform feature selection in the dis-crete feature space,and that the population diversity is reduced and is easy to fall into local optimality inthe later stage of the algorithm,a feature selection a
6、lgorithm based on an improved Harris Hawk is pro-posed here.First,chaotic mapping is used to diversify the initial population to ensure that it can be evenlydistributed in the search space under the premise of better population quality.Secondly,the position of therabbit is re-updated by introducing
7、a Gaussian mutation operator to avoid the algorithm falling into the lo-cal maximum.Finally,the binary version of the secondary optimization algorithm is designed and appliedto the wrapped feature selection problem based on the KNN classifier.Through feature selection simula-tion experiments on 18 c
8、lassic UCI data sets,the results show that the proposed algorithm in this papercan obtain better results than other mainstream algorithms in terms of fitness value,average classificationaccuracy and average feature selection number.So the proposed algorithm in this paper can effectively ex-tract fea
9、ture subsets and obtain more accurate data classification,and can achieve higher optimization accuracy.Key words:wrapped feature selection;Harris hawk optimization algorithm;chaotic mapping;Gaussianmutation兰州理工大学学报Journal of Lanzhou University of Technology文献标志码:AZHAO Xiao-qiang.-2.3,QIANG Rui-ruVol
10、.49No.5Oct.2023收稿日期:2 0 2 1-11-2 3基金项目:国家自然科学基金(6 2 2 6 3 0 2 1),甘肃省教育厅产业支撑计划项目(2 0 2 3 CYZC-24)通讯作者:赵小强(196 9-),男,陕西宝鸡人,博士,教授,博导.Email:x q z h a o l u t.e d u.c n94随着科学技术的不断发展与进步,,在商业、科学研究以及社交媒体等领域都在不断地产生庞大而复杂的数据,与此同时,数据特征的维度也在不断增加.处理海量数据是当今数据挖掘中出现的一个具有挑战性的问题,即使技术在不断进步,机器学习也正面临着“维数灾难”的问题.由于需要大量的存储空
11、间和计算时间,过高维度的数据会妨碍数据挖掘的过程2 1.作为数据挖掘中数据预处理的关键,特征选择可以基于某种评价准则,在原始拓展空间中选择有助于输出的信息特征最佳子集来减少计算时间,以此来改善数据挖掘的性能3.因此,如何研究特征选择问题并将其有效利用,成为数据挖掘当中的一项重点以及难点问题.为了解决特征选择问题,研究人员提出一系列的特征选择方法.基于特征选择和学习算法结合方式的不同,可以将特征选择方法分为过滤式、嵌人式、集成式和包裹式四种类型4.其中,过滤式的特征选择算法和学习算法互不相干,特征选择是后者的预处理过程;嵌人式算法可以将特征选择算法嵌入到学习算法中,特征子集随分类算法训练过程的结
12、束而得到;集成式算法借鉴了集成学习的思想,通过训练多个特征选择算法,对比多个特征选择方法的结果,可以得到比单个特征选择方法更好的性能;包裹式算法可以将选用的算法包装成黑盒并通过它在特征子集上的预测性能评价特征子集,然后结合搜索策略获取最优子集5.而在评估获得的特征子集的质量方面,包裹式算法通常会选择一种分类器来进行,例如K-近邻(KNN)、支持向量机(SVM)等.包裹式相较于过滤式可以获得性能更好的特征子集且效率高于嵌人式和集成式4,包裹式主要包括启发式优化算法6.启发式优化算法是由研究人员受到自然物理现象的启发或模仿生物行为而提出用以寻求最优解的算法.其中,优化算法主要分为进化类、基于物理原
13、理类和群智能类.进化类算法受到自然进化规律的启发,以遗传算法(genetic algorithm,G A)7 为代表,搜索过程通过模拟生物进化过程来找寻最优解;基于物理原理的算法通过模仿宇宙物理规则找寻最优解,最为经典的算法为模拟退火(simulated an-nealing,SA)8 和万有引力算法(gravitationalsearch algorithm,GSA)9等;群智能优化算法基于模仿动物群体社会行为而来,最具代表性的算法为粒子群算法(particle swarm optimization,PSO)101,其灵感来自于鸟类群体的搜索食物机制,个体值通过迭代来计算最优解.此类算法还包
14、括灰狼优化算法兰州理工大学学报(graywolf optimizer,GWO)11、鲸鱼优化算法(whale optimization algorithm,WOA)12和樽海鞘优化算法(salp swarm algorithm,SSA)13 等,尽管三类优化算法的机制不同,但搜索终值均为某域内最优解,在不同的领域中发挥着重要作用.嵇友迪等141通过设计响应全面试验,结合精英策略的非支配排序遗传算法对多目标优化函数进行优化求解,通过仿真验证汽车油箱托盘成形件质量得到改善;宋汶秦等15以风-光打捆发电系统为研究对象,模拟退火算法优化光热电站出力,有效降低了单位发电成本;朱昶胜等16 提出基于改进果
15、蝇算法随机森林回归模型用以风速预测,且经过实验证明了其模型具有更高的预测精确度.近年来,启发式优化算法凭借自身的优势,在特征选择上受到广泛关注。研究人员开始将二者结合以提高分类精度.Emary等11提出了灰狼优化算法的二进制版本并将其应用在特征选择中,相较于传统算法,有效地提高了分类精度.Tawhid 等17 提出了基于粗糙集的鲸鱼优化算法的二进制版本,并在C4.5 等分类算法下验证了其优越性.Mafarja 等18 提出了三个版本的二进制蚱算法并应用于特征选择问题,使用经典UCI数据集进行实验且效果良好.李琴等19基于黑寡妇算法开发了其二进制版本以此进行特征选择,分别在回归、分类等方面验证其
16、优越性.然而,元启发式优化算法本身具有易陷入局部最优、早熟收敛等问题,并且由于包裹式特征选择所选取的特征子集的性能对学习算法依赖度高,因此算法性能优劣也决定了特征选择的子集性能的好坏.以上优化算法在特征选择中的应用表明,使用元启发式优化算法进行特征选择可以灵活地利用智能优化机制自身的探索能力.每种算法根据自身的工作方式所控制的标准来随机地生成特征子集,并且已被证明2 0 它们可以有效地帮助减少执行时间并获得准确结果.但由于特征选择问题的复杂性,将单一的优化算法仅进行二进制改进很难取得更好的效果.根据No-Free-Lunch定理2 1可得,没有一种优化算法可以解决所有的优化问题,若想要将优化算
17、法具体应用在某一特定问题,需要对优化算法进行二次改进或优化.综合上述分析,本文主要对哈里斯鹰优化算法2 2 1进行改进,并将其应用于基于 KNN分类器的包裹式特征选择问题中.首先对哈里斯鹰优化算法后期种群多样性减少和易陷人局部最优的问题,引人混沌映射以及高斯变异来对其进行改进,提出了第49 卷第5期混沌哈里斯鹰优化算法,并分别设计哈里斯鹰优化算法和混沌哈里斯鹰优化算法的二进制版本,将二者应用在基于KNN分类器的包裹式特征选择问题中.通过对经典的UCI数据集进行测试,并与其他已有的特征选择算法进行对比,本文所提算法在求解精度方面有显著提升。1相关理论1.1口哈里斯鹰优化算法哈里斯鹰优化算法(HH
18、O)22是以哈里斯鹰的捕猎行为为基础进行模拟,于2 0 19年提出的启发式优化算法.HHO将鹰群捕猎行为分为全局探索阶段、由全局探索阶段向局部开发阶段转换和局部开发阶段三个部分,并且局部开发阶段展示出4种围攻策略,其流程图如图1所示.开始初始化种群Nmax结束Y计算适应度,确定最优个体更新E和J支E1NE0.5r0.5N渐近式快速硬围攻软围攻渐近式快速全局搜俯冲硬围攻俯冲软围攻索阶段图1HHO算法流程图Fig.1Framework of the HHO1.1.1全局探索阶段在HHO中,每只哈里斯鹰都被认为是候选解,并且在每次迭代中最优解被认作为预期的猎物位置.哈里斯鹰随机栖息在某些位置,并根据
19、两种策略来等待并发现猎物,该阶段哈里斯鹰的位置X更新如下式所示:Xrand(t)-r1|Xrand(t)-2r2X(t)|X(t+1)=(Xrabit(t)-X,(t)-rs(Lp+(r4(UB-LB)(q 0.5)其中:X(t 十1)表示下次迭代中鹰的位置向量;赵小强等:基于改进的哈里斯鹰优化算法的特征选择100r0.5YN95.Xrabbit(t)表示兔子的位置;X(t)表示当前老鹰的位置;r1、r 2、r 3、r 4和q为在(0,1)的随机数,r:为缩放系数,用以进一步增加规则的随机性,r4取接近1的值;UB、LB表示变量的上界与下界.当q0.5时,老鹰随机栖息在高大的树木上(群体家庭范
20、围内的随机位置);当q1时,鹰群搜索不同区域以探索兔子的位置,此时哈里斯鹰处于全局搜索阶段;当|E|1时,鹰群转向局部开发阶段.1.1.3局部开发阶段在此阶段,鹰群针对不同的情况展示了4种不同的捕猎策略.根据猎物的逃离威胁的情况,设r为猎物在突袭前成功逃离(r0.5)或者未逃离的机会,此时结合猎物逃逸能量E,进行不同围攻策略,具体如下:1)软围攻:当r0.5且IE10.5时,鹰群发动软围攻,其位置更新如下式所示:X(t+1)=X(t)-E|JXr a b it(t)-X(t)l(X(t)=Xr a b b i (t)-X(t)其中:X(t)为兔子在迭代次数t中的位置向量与400500(4)96
21、当前位置向量的差值;为每次迭代中用以表示兔子运动性质的随机变化的数值.2)硬围攻:当r0.5且|E0.5时发动硬围攻,位置更新如下式所示:X(t+1)=Xrbi(t)-E|X(t)/(5)3)渐进式快速俯冲的软围攻:当r0.5且E0.5时,免子有足够的能量逃脱,鹰群发动渐进式快速俯冲的软围攻,其位置更新如下:(Y=X rabbit(t)-E|JX rabbit(t)-X(t)|Z=Y+SXLF(D)LF(a)=0.01X元r(1+)X sin22(Y,if F(Y)F(X(t)X(t+1)=(Z,if F(Z)F(X(t)其中:LF()是为了模拟兔子逃跑阶段的欺骗性运动而引人的莱维飞行策略;、
22、为(0,1)内的随机值;为1.5的默认常数值.4)渐进式快速俯冲硬围攻:当|E|0.5且r0.5时,兔子已经没有足够的能量逃跑,鹰群在此时构筑硬围攻捕捉并且杀死猎物,位置更新如下:(Y=Xrabbit(t)-E|JXrabbit(t)-Xm(t)l(8)(Z=Y+SXLF(D)(Y,if F(Y)F(X(t)X(t+1)=(z,if F(Z)f(X(t)and rand 0.5Zm=lo,其他其中:Zm为解向量的离散形式.图3 为 CHHO在特征选择问题中的示例.00图3 特征选择中的 CHHO示例Fig.3CHHO example in feature selection2.3基于CHHO算
23、法的优化特征选择模型本文使用CHHO的二进制版本进行分类问题的特征选择.在特征选择中,对于一个特征数为N的数据集,其特征子集的组合具有2 N种情况,这是一个巨大的特征选择空间,需要使用二进制的CHHO在特征空间自适应搜寻特征子集组合.最佳的特征子集组合应是具有最大分类性能和最少特征选择数量的组合,在算法迭代过程中,通常选用适应度函数来评判每个解的质量,CHHO算法将分类的准确性以及特征子集作为指标,故用于评估CHHO在特征选择问题的适应度函数2 7 如下式所示:Fitness=Er(D)+其中:ER(D)为分类的错误率,其表达式如下:Er(D)=1-Accurcy其中:R为所选特征子集的长度;
24、C为特征长度;为分类的精确性,通常E(0,1);为所选特征在适应度函数中所占的权重,在本文中,取为0.9 9,且=1-.KNN算法是一种简单且常用的分类方法,作为一种监督学习方法,其精度高,对异常值不敏感.它事先了解存有标签的样本数据与所属分类的对应关系,当没有标签的新数据被输入后,算法将新数据的每个特征与原样本集中的数据特征进行比较,然后提取样本集中特征最相似(最近邻)的分类标签.因此,在该特征选择模型中,使用KNN算法进行分类以确保所选特征的优良性.在 CHHO中,使用KNN分类器(其中K=5)建立包裹式特征选择模型,以评估CHHO选定特征子集的质量.赵小强等:基于改进的哈里斯鹰优化算法的
25、特征选择(15)0197.本文提出的基于 CHHO的特征选择模型流程图如图 4 所示。开始输入数据集数据归一化处理数据特征二进制编码初始化改进后哈里斯鹰种群计算哈里斯鹰个体适应度10RI(16)TCI(17)计算数据特征并输入KNN分类器中进行特征子集选取更新哈里斯鹰种群位置TtmaxYN输出分类准确率、适应度和所选特征个数结束图4CHHO特征选择流程图Fig.4CHHO feature selection flowchart3实验与结果分析3.1实实验设置为了验证算法 CHHO在基于KNN分类器的包裹式特征选择问题中的有效性,本文采用UCI数据库中的18 个经典数据集进行实验,数据集在维度和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 里斯 优化 算法 特征 选择
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。