基于改进粒子群和K-means聚类的优化算法.pdf
《基于改进粒子群和K-means聚类的优化算法.pdf》由会员分享,可在线阅读,更多相关《基于改进粒子群和K-means聚类的优化算法.pdf(10页珍藏版)》请在咨信网上搜索。
1、第37 卷第3期2023 年 6 月Journal of Jiangsu University of Science and Technology(Natural Science Edition)D0I:10.20061/j.issn.1673-4807.2023.03.013江苏科技大学学报(自然科学版)Vol.37No.3Jun.2023基于改进粒子群和 K-means 聚类的优化算法孙林,张一曼,张辰珂,徐久成(河南师范大学计算机与信息工程学院,新乡4530 0 7)摘要:为了解决粒子群优化(particle swarmoptimization,PSO)收敛速度慢和迭代次数多,以及传统K
2、-means聚类算法采取的欧氏距离划分准则会导致聚类效果不理想等问题,构建了基于改进粒子群和K-means聚类的优化算法根据Sigmoid函数优势,对PSO算法中速度更新公式的惯性权重参数实施改进,得到新的惯性权重公式,有效提高PSO算法的收敛速度;在PSO算法的位置更新公式中引入时间权重,通过调整时间权重大小,控制粒子的空间搜索范围,增强粒子的搜索能力;在传统的欧氏距离中引入属性权值,得到新的欧氏距离计算公式,该公式在计算两个向量相似度时,同时考虑了两个向量间的累积差异以及它们之间的相似性,与改进的PSO算法相结合,设计了基于改进粒子群和K-means聚类的优化算法.在6 个基准测试函数和1
3、3个UCI数据集上,将所提出的优化算法与其他算法进行对比实验分析实验结果表明:所提算法在收敛速度和寻优稳定性方面得到了明显提升,有效地提高了聚类准确率并且降低了迭代次数.关键词:粒子群优化;K-means聚类;惯性权重;时间权重;欧氏距离中图分类号:TP181Optimization algorithm using improved particle swarm and K-means clusteringAbstract:To solve the problems that particle swarm optimization(PSO)has slow convergence and ma
4、ny itera-tions,and the traditional K-means clustering algorithms with the Euclidean distance partition criterion producethe unsatisfactory clustering effect,we propose an optimization algorithm based on improved PSO and K-meansclustering.Firstly,according to the advantages of Sigmoid function,the in
5、ertia weight parameter in the speedupdating formula of PSO is improved to obtain a new inertia weight formula,which can effectively improve theconvergence speed of PSO.Secondly,the position updating formula of PSO is improved by the time weight.Byadjusting the size of the time weight,the searching r
6、ange of particle is controlled to enhance the searching abilityof particles.Finally,after introducing the attribute weight into the traditional Euclidean distance,a new calcula-tion formula of Euclidean distance is achieved.When computing the similarity of two vectors,the cumulativedifference betwee
7、n two vectors and their similarity is taken into account simultaneously.By integrating the improved PSO algorithm with the K-means clustering,an optimization algorithm is designed.For the six test bench-mark functions and 13 UCI datasets,our designed optimization algorithm is compared with the other
8、 algorithms.Experimental results show that the convergence speed and optimization stability of our algorithm are significantlyimproved,and the clustering precision is effectively enhanced and the number of iterations is reduced.Key words:particle swarm optimization,K-means clustering,inertia weight,
9、time weight,Euclidean distanceK-means 算法是一种迭代求解的基于距离的划分聚类算法,由于该算法简易、收敛速度快等特文献标志码:ASUN Lin,ZHANG Yiman,ZHANG Chenke,XU Jiucheng(College of Computer and Information Engineering,Henan Normal University,Xinxiang 453007,China)文章编号:16 7 3-48 0 7(2 0 2 3)0 3-0 8 1-10点,已在基因表达、网络服务等领域广泛应用1-2 1但传统K-means聚类算法存
10、在过度依赖聚类初始收稿日期:2 0 2 2-0 7-2 1基金项目:国家自然科学基金资助项目(6 2 0 7 6 0 8 9,6 197 6 0 8 2);河南省科技攻关项目(2 12 10 2 2 10 136)作者简介:孙林(197 9一),男,博士,教授,研究方向为粒计算、数据挖掘、生物信息学等。E-mail:s l i n O K 12 6.c o m引文格式:孙林,张一曼,张辰珂,等.基于改进粒子群和K-means聚类的优化算法J.江苏科技大学学报(自然科学版),2 0 2 3,37(3):8 1-90.D01:10.20061/j.issn.1673-4807.2023.03.01
11、3.82条件、对噪声和离群点敏感等缺点文献3 在计算一个点到最近的两质心之间的距离时,将等距离阈值大于等距离指数的点消除,提高了K-means算法的聚类效果但该算法的运行时间有所增加文献4 对空间中两点使用加权平方欧氏距离,提高K-means算法估计目标点的位置但随环境的变化,该算法的寻优稳定性会下降从上述文献可以看出,大部分K-means聚类算法仍存在迭代时间长、性能不稳定等局限性.粒子群优化算法(particleswarmoptimization,PSO)是通过对鸟群觅食行为改进所提出的5,但存在容易陷人局部最优、后期收敛速度慢,以及一些改进模型的机制复杂、参数偏多等问题文献6提出基于灰狼
12、优化算法的PSO算法,增强了粒子群的全局搜索能力,但仍需要进一步改善其寻优稳定性文献7 采用自适应惯性权重和学习因子,提高了PSO算法的稳定性和收敛精度但该算法仍需要改进其收敛速度.为解决PSO算法收敛速度慢和迭代次数多,以及 K-means 聚类不稳定的问题,文献8 改进PSO算法并应用于K-means 聚类,解决算法易受初始聚类中心影响的问题但该算法的运行时间较长文献9 对PSO算法改进并将其应用于聚类分析中,有效提高了算法的收敛速度但该算法存在较多的迭代次数.文中将 PSO 引人K-means算法,构建基于改进粒子群和K-means聚类的优化算法,提高了算法的收敛速度、稳定性、聚类准确性
13、,并减少迭代次数.1基础理论1.1粒子群优化算法PSO算法的基本思想是将每个粒子看作一个具有位置和速度的个体,每个粒子在迭代过程中朝向粒子群全体最优和个体最优趋近,通过不断寻找并更新最优值6 .在d维的数据搜索空间中,假设有n个粒子组成一个群落,第i个粒子可以记为X,=(x i,x i 2,,xia),它的速度可以记为V,=(v i,Vi,,via),第i个粒子目前搜索到的最优位置将作为个体最优值:Pest=(Pi,Pia2.,Pia)式中:i=1,2,n.江苏科技大学学报(自然科学版)式中:g=1,2,n.在PSO中,若获得了个体最优位置和群体最优位置,则PSO中的粒子群速度和位置更新表达式
14、为:vi=wvia+Ciri(Pia-xa)+cr2(Pgd-xiu)(3)(4)式中:w为惯性权值,当w值较大时,说明其全局搜索能力被认为较强,则局部寻优能力将相对较弱,若w值较小时,说明其全局搜索能力较弱,局部寻优能力较强10 ;c和c为学习因子;r和r为0,1之间的随机数,PSO算法的具体过程参见文献10.为了获得算法的最优解,使用误差平方和作为适应度函数,即目标函数为:(x)=ZZ,d(x;,C,)xEC;式中:d(x j,C.)为粒子,到粒子群中心C,的距离,目标函数的值越小,则算法效果越好.1.2K-means 聚类传统K-means算法通过多次迭代来获得聚类结果,聚类结果的好坏由
15、初始聚类中心的选取以及聚类数目决定,因此传统的算法存在一些不足该算法的基本思想为:首先,从数据集合中随机选择出k个样本作为初始聚类中心;然后,对每个对象计算它到k个初始聚类中心之间的距离,依据最近邻的原则,将样本点划分到相应的簇中,形成k个簇;最后,通过计算每个簇的平均值得到新的聚类中心,在每次迭代的过程中重新计算,当聚类中心不再发生变化或者满足终止条件时,聚类结束并输出聚类结果.K-means聚类算法的具体流程参见文献1.2基于改进 PSO 和 K-means 聚类的优化算法2.1非线性惯性权重惯性权重是智能优化算法中重要的参数之二.当惯性权重较大时,可以有效提升PSO算法的全局搜索能力,当
16、惯性权重较小时,可以有效提高PSO算法的局部搜索能力12-13 由此线性递减惯性权重1为:(1)W=Wmax2023年Xi=Xia+Vid(5)Wmax-Wmin,tmax(6)t对于整个PSO种群而言,目前搜索到的最优位置可以被记作PSO群体最优位置:Gest=(Pgi,Ppa,.,Pga)式中:Wmax为惯性权重最大值;Wmin为惯性权重最小值;t为当前送代次数,tmax为总迭代次数.(2)在式(6)中,惯性权重与迭代次数成负相关.第3期在刚开始迭代的时候,惯性权重w比较大,反映在速度的计算公式上可以看出初始粒子的速度比较大,全局搜索能力较好,而局部搜索能力较弱12 当迭代次数被累加时,惯
17、性权重值会变得越来越小,PSO中的粒子速度也会变得越来越小,此时PSO中的粒子将呈现出良好的局部搜索能力,但是此时的全局搜索能力表现较弱12 另外,由于线性递减权重的斜率不变,致使速度改变总体上是保持不变的13 因此,对传统线性权重递减速度不平衡的情况进行优化,基于Sigmoid函数的S型增长趋势的特点对惯性权重进行改进.定义1改进的惯性权重的表达式为:w=WmaxWmax-Wmina式中:=1/(1+e-3)为改进的 Sigmoid函数变式.由于PSO算法收敛速度较慢,根据Sigmoid函数的特点,可以提高其后期速度,并且经多次实验发现,当a=1/(1+e-3)时引人惯性权重的优化效果较好改
18、进的惯性权重式(7)能够在PSO算法的迭代过程中有效平衡其搜索能力和粒子的收敛速度.2.2时间权重文献13 表明位移公式与时间、速度相关,传统PSO算法位置更新公式中潜藏了时间因素,且时间权重都为常数1,导致粒子在最优解附近来回震荡因此,在位置更新公式中引人时间权重的概念。定义2 在传统PSO算法的位置更新公式中引人时间权重,则改进的位置更新为:Wmax-Wmin)xia=xia+(10-t式中:xia为粒子更新后的位置;xia为粒子更新前的当前位置,Vi为粒子的当前速度,n的大小可以调整粒子的位置范围,依据文献13,n的数值取-0.02的时候效果最佳.在式(8)中可以通过调整时间权重的大小来
19、控制粒子的搜索范围,增强粒子的搜索能力在PSO算法开始时选择较大的时间权重,有利于该算法实现快速的全局搜索,当迭代进行到一定程度时,选择较小的时间权重有利于局部开发.2.3加权欧氏距离样本之间的相似度是用欧氏距离来衡量的,距离越小样本越相似14设有n个样本点集合X=xi,x 2,x,,孙林,等:基于改进粒子群和K-means聚类的优化算法md(x;,x,)=S=为了提高计算两个不同向量相似度的准确性,对欧氏距离进行加权,同时考虑两个不同向量间的累积差异以及对应元素间的相似性,以便有效提高K-means 聚类结果的稳定性和聚类精度.为了加大数据属性之间的区分程度,使用文献15中的权值公式得到不同
20、维度数据的权值为:(7)Wipn式(10)是根据每个样本点中各个分量的影响程度进行定义的,能够表现出样本点整体分布的特性;x,第i个样本点中的第p个分量;分母样本集中各个样本点的第p个分量的平均值;引人权重不仅没有改变传统K-means算法中欧氏距离的计算,而且加大了数据特征之间的区分程度.考虑到对应元素间的相似性,对应元素的值越相近,其对相似度的贡献越大,在最终的相似度结果中也会占有更大的权值14 计算对应元素间相似性的权值公式为:Wim=式中:设置g=1,m;=ee-1*):/,M=Zm:定义3两个样本点x;和x,加权后的欧氏距离表示为:Vid(8)83将两个样本点x;和x,之间的距离定义
21、为欧氏距离,其中x;是m维向量,则两个m维向量x=(xil,X2,x i m)与x,=(xji,Xj 2,,x m)之间的欧氏距离14 为:(9)xip(10)-I x;-y;1/oeMd(x,x)=/o(xg-x,)25=1式中:;=(,+m)/为改进后的权值,ip为计算距离时样本点不同维度数据的权值,im为计算对应元素相似性的权值,x;和x分别是在向量空间第s维下样本点x,和样本点x,的数据值.在式(9)中引入改进权值后得到新的欧氏距离计算公式,式(12)在计算两个向量相似度时同时考虑两个向量间的累积差异和对应元素间的相似性,避免了片面化,从而提高聚类结果的稳定性和精度.2.4算法步骤将基
22、于改进惯性权重和时间权重的PSO算法与欧氏距离加权的K-means聚类算法结合,设计了(11)(12)84为详细描述基于改进粒子群和K-means聚类的优化算法(optimization algorithm based on improvedparticle swarm optimization and k-means clustering,KCPSO)的具体步骤,其伪代码如下:算法1:KCPSO算法输人:数据集D输出:最优个体集合Stepl:初始化D=O,初始化粒子群及其参数Step2:将每个样本随机划分为某一类,计算各类的聚类中心cen作为初始粒子群的位置Step3:初始化粒子群Via、X
23、i a 和fgStep4:for i=1 to n doStep5:if fit2fit then 记录并更新 PbestStep6:if fitt2fg then 记录并更新 GbestStep7:end forStep8:根据公式(7)更新w;根据式(3)和式(8)更新所有粒子Via和xidStep9:for t=1 to m doStep10:for i=1 to n doStepl1:计算样本到各类的距离;按最近距离对粒子进行聚类划分;根据划分结果计算新的cen;记录粒子fgStep12:end for名称SphereSchwefelRosenbrockStepRastriginGri
24、ewank江苏科技大学学报(自然科学版)Step13:end forStep14:在符合终止条件时终止,否则进人Step5Step15:return最优个体集合在算法1中,Step2Step3为初始化粒子群和初始聚类划分,该过程的时间复杂度为0(n).Step4Step7为更新粒子个体和群体最优适应度值的过程,该过程的时间复杂度为O(n)St e p 8 为更新粒子速度和位置的过程,该过程的时间复杂度为0(n).St e p 9 St e p 13为新一代粒子优化的过程,该过程的时间复杂度为0(mn),其中m为最大迭代次数,n为粒子个数。综上所述算法1的时间复杂度为0(mn).3实验结果与分析
25、3.1实验准备为了验证KCPSO算法的有效性,实验分为两部分:第一部分从文献6 中选择6 个基准测试函数(表1)进行实验比较,第二部分使用13个UCI数据集(表2)进行实验比较.实验中使用Mat-lab2016b实现算法编程实验配置环境:Win-dows10操作系统,6 4位的基于x64的处理器,运行环境为 Intel CoreTMi5-6500CPU3.20 GHz和16 GB 内存.表16 个基准测试函数的描述Table 1Description of six benchmark functions函数i(a)=Z,(a)=Z(Z,)*f;(x)=-,100(xi+-x)+(1-x)J.(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 粒子 means 优化 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。