基于果蝇算法优化的粗糙C均值聚类算法.pdf
《基于果蝇算法优化的粗糙C均值聚类算法.pdf》由会员分享,可在线阅读,更多相关《基于果蝇算法优化的粗糙C均值聚类算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 卷 第 期 年 月南昌工程学院学报 收稿日期:基金项目:江西省教育厅科学技术研究项目();国家自然科学基金资助项目()作者简介:周浩岩(),男,硕士生,通信作者:叶军(),男,教授,硕士,文章编号:()基于果蝇算法优化的粗糙 均值聚类算法周浩岩,叶军,谢立,卢岚,李兆彬(南昌工程学院 信息工程学院,江西 南昌 ;江西省水信息协同感知与智能处理重点实验室,江西 南昌 )摘要:粗糙 均值聚类算法采用随机选取质心的方法,会导致聚类算法过早陷入局部最优;簇心更新中采用固定权值降低了聚类精度。针对此类问题,结合果蝇和粗糙 均值聚类两种算法,提出一种改进算法。该算法从三个方面进行了改进:一是为克服传统
2、果蝇算法中固定飞行半径带来的影响,给出一种自适应寻优步长策略的果蝇优化算法,提高果蝇优化算法的搜索精度;二是构造对应味道浓度值的目标函数,利用目标函数值引导果蝇进行位置更新,把最优味道浓度值的果蝇位置作为新的聚类中心进行次迭代;三是设计了一种动态调整簇心更新中上下近似权重和阈值的方案。最后通过 标准数据集对算法进行比对分析,实验结果证明了改进后算法的可行性和有效性。关键词:粗糙 均值;果蝇算法;适应度函数;权重因子;飞行策略中图分类号:文献标志码:,(;,):,:;聚类算法是一种经典的数据挖掘算法。聚类是指将数据有效划为若干个簇,使每个簇内的数据相似性较大,簇间数据相似性较小,从而找出数据中分
3、布的规律。均值聚类算法是一种无监督学习的聚类分析算法,具有计算速度快、可伸缩性强、易实现的特点,被广泛应用于文本分析、图像识别和人脸识别等诸多领域 。但 均值算法在处理类簇边界交叠严重、无法确定归属对象的数据时,精度有所降低,聚类效果差。为此,等 利用粗糙集在处理不确定数据上的优势,引入上、下近似两个算子,提出了一种粗糙 均值聚类算法。该算法将确定归属关系的对象划分至下近似集,将无法确定归属关系的对象划分至上近似集,后期通过迭代将上近似集中的对象不断划分至下近似集,较好地解决了边界交叠区样本归属的问题。但该算法延用了经典 均值聚类算法中随机初始质心的做法,以及在迭代过程中,人为给定上近似与边界
4、域权重,易导致聚类结果稳定性与精度下降问题。为此许多学者提出了改进方法。文献 提出了一种自适应参数的粗糙 均值聚类算法,优化了粗糙聚类效果、降低了对噪声的敏感程度。文献 针对 均值聚类算法中均值计算的特点,提出了基于密度加权粗糙 均值聚类算法。该算法在类均值计算中赋予每个对象不同权重值,有效降低了迭代次数,减小了孤立点对聚类的影响,提高了聚类精确度。文献 采用基于近邻密度的选取方法确定初始聚类中心。文献 提出了一种对维度加权的欧氏距离来计算样本权重方法,可自动获取聚类中心以及聚类数目。文献 提出了三支聚类的思想,引入距离阈值 ,有效地将离群点单独形成新的类簇,一定程度上解决了人工干预聚类个数对
5、 均值聚类算法稳定性的影响。群智能算法是一种仿生的寻优搜索算法,近年来,众多学者将群智能算法引入到粗糙 均值聚类算法中,解决粗糙聚类算法盲目初始簇心带来的聚类结果不稳定、精度下降等问题。例如文献 通过改进的遗传算法动态地划分 均值的聚类数目,并且根据最大和最小距离原则初始化聚类中心。文献 结合粒子群算法对粗糙聚类算法进行优化,通过引入随机粒子和动态学习因子来避免聚类结果陷入局部最优的情况,提升算法全局搜索能力与准确率。文献 将蚁群优化算法与粗糙 均值的聚类算法相结合,有效改善了原算法随机选取初始簇心带来聚类结果不稳定的问题,提高聚类算法的准确率。文献 将改进的鱼群算法引入到粗糙聚类中,结合粒计
6、算理论,依据粒密度和最大最小距离乘积法初始化聚类中心,该方法提高了全局搜索能力和聚类精度。文献 结合人工蜂群算法,将每次迭代蜂群得到的最优蜂源(适应度函数值)作为初始聚类中心,同时动态地调整下近似与边界域权重,提高算法的稳定性和聚类效果。上述结合群智能优化算法改进的粗糙 均值聚类算法虽然取得了较好的效果,但是还有改进空间,尤其是在减少迭代次数和降低时间复杂度方面改进空间较大。本文借鉴其他群智能优化方法,引入果蝇优化算法对粗糙 均值算法随机初始簇心问题进行改进。果蝇优化算法()是潘教授受果蝇觅食启发提出的群智能优化算法,是一种模拟果蝇搜索寻优行为进行全局搜索的算法 。该算法具有操作简单、参数少、
7、全局寻优能力强、鲁棒性较好以及算法复杂度低等优点,尤其是在求解多维背包问题、函数优化 、调度问题以及数学极值方面很有优势。不依赖于求解问题的具体信息,并且适合与其他算法混合使用,容易得到性能更出众的混合算法 ,本文在文献 基础上将双策略协同果蝇优化算法引入粗糙聚类算法中,对搜索步长进行了改进,提出新的步长搜索策略,提高算法稳定性和聚类精度,进一步减少了算法的迭代次数,降低了时间复杂度。相关知识 果蝇算法及其改进算法标准的果蝇算法引入了味道浓度判定值和味道浓度函数,根据味道浓度引导果蝇移动,该算法主要步骤如下:初始化阶段,果蝇的规模 、最大可以达到的迭代次数、以及果蝇的初始位置(,);:搜寻阶段
8、,赋予果蝇个体搜索方向和距离 ;():根据勾股定理计算出果蝇个体与原点之间的距离,味道浓度判定值 与 互为倒数;槡 ():将味道浓度判定值代入适应度函数中得出味道浓度 (),找出浓度值最高的果蝇并记录其位置(,);,()():果蝇种群向具有最优味道浓度的果蝇个体靠拢;()()():迭代阶段,重复搜寻阶段,直到迭代次数达到 。由于果蝇算法中的飞行方向与飞行距离都是随机的,会导致寻优结果非常不稳定,容易陷入局部最优,带来早熟的问题。许多研究者提出了改进算法。例如,马兵等 引入差分进化算法中的差分演化策略对果蝇算法进行优化,对果蝇种群进行变异、交叉、选择操作,增加了果蝇优化算法的多样性。郑晓龙等 将
9、 的全局搜索能力与模拟退火算法概率突跳机制进行结合,增加算法的鲁棒性。本文借鉴这些改进算法的研究成果,提出自适应调整寻优步长的果蝇优化算法。粗糙 均值聚类及其改进算法 等 将粗糙集中上下近似的概念引入到了 均值聚类算法中,从该算法定义可知,一个南昌工程学院学报 年数据样本最多只能属于一个类的下近似;若一个数据样本属于某个类的下近似则必将属于该类的上近似;若某个数据样本不属于任何类的下近似,则该样本至少属于两个或两个以上簇的上近似。算法的质心迭代如式()所示:,(),()式()中和分别表示类 的上、下近似;,为下近似权重,为上近似权重;表示集合中数据对象的个数。针对粗糙 均值聚类算法存在的不足,
10、许多研究者提出了改进算法。修正了簇心的迭代公式,当仅有下近似或上近似的情况时,权值设置为,用相对距离代替聚类算法中的绝对距离,有效减少了离群点的影响,中心迭代如式()所示:,(),(),()()但是,的改进方法依然采用人为设置权重和阈值的方法,没有考虑随着迭代次数的变化下近似和边界区域不同对质心更新造成的影响。文献 提出了一种加权距离自适应的粗糙 均值聚类算法,定义的密度函数如式()所示:(),()式中 为邻域有效半径,数据对象 对应的权重值定义为,()式中 为边界域,簇心的更新如式()所示:,()该算法在处理高维数据集时具有较高的时间复杂度,且聚类精度较低。文献 针对数据对象分布差异性的问题
11、,考虑到不同类簇中下近似和上近似分布的差异性,提出了一种空间距离自适应权重的粗糙 均值聚类算法,其簇心更新如式()所示:(,)(,()),()式中:(,)为下近似到簇心的平均距离;(,)为边界域到簇心的平均距离,有效地改善了不同簇间下近似和边界域权重分配的问题,提高了聚类算法的准确性。改进的粗糙 均值聚类算法 改进的果蝇步长搜索策略传统的果蝇算法,受固定步长的限制容易陷入局部最优,文献 提出基于 分布的步长更新策略,其步长更新公式如下:(,)(,)()()(),()(,)(),()式中:为第一自由度,为第二自由度,两者均为人为给定值。该公式虽然可以有效地改善果蝇算法过早收敛的缺点,但计算量比较
12、大,在处理一些高维数据的时候,时间复杂度较高。为减少计算工作量并防止果蝇算法过早收敛,提出一种基于标准正态分布的步长更新策略,公式如下:,(),()式中:为初始步长;为初始果蝇位置。其运行轨迹如图 所示。从运行轨迹可以看出,前期较大步长可以扩大搜索的范围,后期缩减步长能够避免在最优解附近震荡,找到全局最优解。运算比较简单,不仅可以降低计算工作量,而且能有效地提升果蝇算法的寻优能力。动态调整下近似和边界权重方法粗糙 均值聚类算法中,上下近似的权值均为人为给定的固定值。分析可知,采用定值的方式,无法合理动态地反映两个集合对质心造成的影响。事第 期周浩岩,等:基于果蝇算法优化的粗糙 均值聚类算法图
13、果蝇步长更新轨迹实上,搜索质心是一个动态迭代的过程,质心的权重会随着下近似与边界集合中数据空间分布变化而改变。文献 使用下近似与边界域中数据对象个数比值的方式来动态调整上近似及边界域权重,但是仅考虑数据对象个数对上近似和边界域的影响,忽视了数据对象分布的差异性;文献 中提出了空间距离自适应的方法来处理权重的问题,其考虑了空间样本分布的差异性,对下近似及边界域的权重进行了调整,但该算法忽视了类簇间规模不均衡的影响。文献 考虑到边界样本位于交叉类簇不均衡的情况,采用式()将边界域中数据对象对簇规模的影响进行度量。,()式中:表示第 个类中上近似样本的个数;表示数据样本 目前所在的交叉类簇。显然,式
14、()有效改善了文献 没有考虑边界样本处于交叉类簇不均衡的情况,提高了聚类精度。该公式也存在不足,经过分析可知,式()在如图 所示簇中样本分布密度差异小的情况下处理效果比较好,聚类精度较高。在图 中,黑色的方形表示原本应该归属于 类的数据样本,圆形表示原本应该归属于类的数据样本。图 类簇均衡示例但式()对图 所示在样本密度差异大的情况下将失去已有的调和作用,得到的聚类效果较差。因此,对该式进行了修正,定义如下:图 类簇不均衡示例,()式中:表示第 个簇 中上近似中样本点 距质心的距离与边界样本点 到簇心 距离的比值,称为边界样本 对于 的归属度;表示簇 中数据的个数。式()既考虑了式()中的样本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 果蝇 算法 优化 粗糙 均值
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。