基于类间相似性的聚类集成方法.pdf
《基于类间相似性的聚类集成方法.pdf》由会员分享,可在线阅读,更多相关《基于类间相似性的聚类集成方法.pdf(6页珍藏版)》请在咨信网上搜索。
1、收稿日期:2023-01-05摇 摇 摇 摇 摇 摇 修回日期:2023-05-08基金项目:国家自然科学基金项目(U1931209)作者简介:张栋超(1998-),男,硕士,研究方向为机器学习和数据挖掘;蔡江辉(1978-),男,教授,博士,山西省学术技术带头人,CCF 高级会员(74390S),研究方向为机器学习和数据挖掘;杨海峰(1980-),男,教授,博士,山西省“三晋英才冶支持计划青年优秀人才,CCF 高级会员(74391S),研究方向为特定背景的大数据挖掘方法及机器学习;通讯作者:郑爱宇(1990-),男,讲师,博士,研究方向为机器学习和数据挖掘。基于类间相似性的聚类集成方法张栋超
2、,蔡江辉,杨海峰,郑爱宇(太原科技大学 计算机科学与技术学院,山西 太原 030024)摘摇 要:聚类集成是聚类的一个重要分支,它用于融合多个基聚类,来生成具有鲁棒性和高质量的最终聚类划分。将原始信息转化为共协矩阵,通过共协矩阵得到最终聚类划分的聚类集成方法是目前很多研究者研究的内容,然而大多数研究者都忽略了聚类结果容易受到噪声的影响,且忽略了共协矩阵在数据量大时,时间以及空间复杂度高的问题。为了解决以上问题,该文设计了一种基于类间相似性的聚类集成方法(CSCE)。该方法首先基于证据积累模型找到原始对象之间的相似性,将原始对象划分为多个小簇。然后通过一种新的相似度计算方法,计算簇与簇之间的相似
3、度,形成簇与簇的相似矩阵。最后通过归一化切割(NCUT)切图的方法,将簇相似矩阵划分为最终聚类结果。该方法将低质量异常对象按相似度并入与之相似的簇中,并在 8 个数据集上进行了实验。结果表明,该方法不仅聚类效果好,而且解决了传统共协矩阵时间以及空间复杂度高的问题。关键词:聚类集成;共协矩阵;基聚类;证据积累;复杂度中图分类号:TP301.6摇 摇 摇摇摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)11-0156-06doi:10.3969/j.issn.1673-629X.2023.11.023Clustering Ensemble Method Bas
4、ed on Similarity Between ClustersZHANG Dong-chao,CAI Jiang-hui,YANG Hai-feng,ZHENG Ai-yu(School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024,China)Abstract:Clustering ensemble is an important branch of clustering,which is used to fuse multiple base c
5、lusters to generate robust and high-quality final clustering partitions.At present,many researchers focus on the clustering ensemble method of transforming the original in鄄formation into a co-association matrix to obtain the final clustering partition through the co-association matrix.However,mostre
6、searchers ignore that the clustering results are easily affected by noise,and the time and space complexity of the co-association matrix ishigh when the amount of data is large.In order to solve the above problems,we design a clustering ensemble method based on similaritybetween clusters(CSCE).The m
7、ethod firstly finds the similarity between the original objects based on the evidence accumulationmodel,and divides the original objects into several small clusters.Then a new similarity calculation method is used to calculate thesimilarity between clusters and form the similarity matrix between clu
8、sters.Finally,the cluster similarity matrix is divided into the finalclustering results by the method of normalized cut(NCUT).The proposed method combines low quality abnormal objects into similarclusters according to similarity,and experiments are conducted on 8 datasets.It is showed that the propo
9、sed method not only has a goodclustering effect,but also solves the problem of high time and space complexity of traditional co-association matrix.Key words:clustering ensemble;co-association matrix;base clusters;evidence accumulation;complexity0摇 引摇 言聚类是统计多元分析、数据挖掘和机器学习中的一个重要问题。聚类的目标是将一组对象分组成簇,以便同一
10、簇中的对象与其他簇中的对象高度相似但显著不同。在过去几十年中,已经开发了大量聚类算法,包括分区1、分层2、基于密度3和基于网格4的聚类等。但没有一种算法能够处理实践中遇到的所有聚类问题,即无法发现具有不同大小、形状和噪声水平的所有聚类。给定一个数据集,不同的算法通常返回不同的结果。事实上,由具有不同初始化和参数的相同算法返回的聚类结果通常是不同的。因此,用户可能会困惑于选择最合适的方法来解决他们的问题。集成第 33 卷摇 第 11 期2023 年 11 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇
11、 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.11Nov.摇 2023聚类方法已成为克服这一问题的有力工具。集成聚类是聚类的一个重要分支。聚类集成根据多个聚类结果找到一个最终的数据划分,该划分最大程度地共享了所有基聚类的信息。目前已经开发了几种类型的聚类集成方法,其中基于相似性的聚类集成方法受到很多研究者的青睐。很多学者通过寻找初始对象之间的相似性来构建共协矩阵5,然后通过该矩阵获得最终聚类划分。在矩阵元素的相似性计算过程中,大部分研究者将基聚类信息看的同等重要,而原始对象中往往会有一些噪声,导致基聚类结果变差,并影响了最终聚类结果,而且传统的共协矩阵空间复杂度往往是 O(n2),
12、在数据量较大时内存占用极大。因此,该文提出了一个基于簇间相似性的聚类集成方法。首先,设计了一种基于证据积累模型的相似度计算方法,将相似度大的样本点暂时划分为小簇;然后,提出一种新的相似度计算方法,将划分好的小簇作为相似矩阵的构成对象,构建相似矩阵;最后,通过对相似矩阵的切图,形成最终的聚类划分。主要贡献如下:(1)设计了一种基于证据积累模型的相似性计算方法,有效地将初始对象形成初始簇划分。(2)提出一种簇间相似性计算方法,用簇来构建相似矩阵,该方法相比直接使用原始对象构建共协矩阵,大大节省了空间复杂度。1摇 相关知识目前,聚类集成有两个重要任务:(1)如何生成不同的基聚类并保证其多样性;(2)
13、如何将多个不同的基聚类融合生成最终一致聚类。第一个任务已经提出了几种不同的方法,大致可以分为以下 3 类:(1)使用相同的方法(参数不同)来生成基聚类。比如用 k-means 作为基聚类器用不同的聚类数来生成聚 类 集5;随 机 选 择 不 同 的 聚 类 中 心 使 用 k-means6;使用不同的核参数运行谱聚类算法7等;(2)运行不同类型的聚类算法以生成基本聚类。比如使用多个层次聚类和 k-均值生成聚类集8;将具有不同目标函数的多个聚类算法作为基本聚类,并将聚类集成问题转化为多目标优化问题9;Yu 等人研究了如何整合多种类型的模糊聚类10等;(3)在数据集中的不同子空间或子样本上运行一个
14、或多个聚类算法。比如应用 bootstrap 方法获得了多个数据子集11;使用随机映射的方法获得多个特征子空间12;使用不同的核函数来描述数据13;结合boosting 和 bagging 的优点,提出一种新的簇集合混合采样方法14等。第二个任务开发了几种类型的聚类集成方法,大致可以分为以下 4 类:(1)成对相似性方法。利用所有数据对象两两之间的相似关系来聚合多个聚类。比如 Fred 和 Jain5提出了一种基于证据积累的集成算法,并构造了一个相似度矩阵;Iam On 等人定义了一个基于链接的相似度矩阵,该矩阵充分考虑了集群之间的相似度15;Huang等人提出了一种增强的共协矩阵16,该矩阵
15、能够同时捕获聚类中的对象共现关系以及多尺度集群关系。薛红艳等人17以及邵长龙等人18用信息熵对共协矩阵加权以达到更好的聚类效果。(2)基于图的方法。将基础聚类信息表达为一个无向图,通过图划分得到集合聚类。比如 Strehl 和Ghosh 提出了 3 种超图集成算法19:基于聚类的相似性划分算法(CSPA)、超图划分算法(HGPA)和元聚类算法(MCLA)。CSPA 创建一个相似图(对象视为顶点,相似度做边)。HGPA 构建了一个超图,其中顶点代表对象,而相同的加权超边代表簇。MCLA 生成一个图,其中顶点代表聚类,而边的权重反映聚类之间的相似性。Bai 等人20提出了从基聚类中提取可信度标签,
16、通过聚类的关系构建形成图,最后通过归一化谱聚类获得最终聚类结果。(3)基于重标记的方法。将基本聚类信息表示为标签向量,然后通过标签对齐聚类。其代表性方法有硬标签对齐和软标签对齐。比如将重标记问题转化为最小成本的一对一分配问题21;使用交替优化策略来解决软标签对齐问题22;Rathore 等人提出了一个有效的模糊集合框架23,该框架使用累积一致方案来聚集模糊聚类。(4)基于特征的聚类方法,将聚类集成问题作为分类数据的聚类。比如整合信息论和遗传算法来寻找最一致的聚类24;Topchyet 等人提出了一个概率框架25,并使用 EM 算法来寻找共识聚类等。除了以上 4 种,近年来也有部分学者提出使用加
17、权的方法。与现有的方法不同,笔者研究的对象被指定用 k-means 算法做基聚类器。首先,对原始对象进行相似度计算,形成多个小簇;然后,用另一种方法计算簇与簇之间的相似度;最后,通过 NCUT26切图的方式得到最终聚类划分,来实现多弱等于强的目的。2摇 文中算法2.1摇 相关定义设 X=X1,X2,Xn 是对象的集合,其中,xi=xi1,xi2,xid751摇 第 11 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 张栋超等:基于类间相似性的聚类集成方法d 为维度,n 为数据对象的个数。聚类集成方法首先要在数据集 X 上产生 M 个聚类结果,即:仪=仔1,仔2,仔M其中,仔h=Ch1,
18、Ch2,Chl是第 h 个基聚类,Chl表示第 h 个基聚类的第 l 个簇。该文主要使用的符号如表 1 所示。表 1摇 常用符号符号描述X数据集xi数据集 X 中的第 i 个对象N数据集 X 中对象的数量装基聚类集仔h第 h 个基聚类M基聚类集 装 中基聚类的个数Chl是 仔h的第 l 个簇k是 仔 中簇的个数CM多个基聚类聚合得到的相似矩阵Si第 i 个对象集T对象集的个数2.2摇 聚类集成方法该文使用 k-means 算法做基聚类器来生成基聚类。k-means 是聚类中最熟知的算法,它的聚类个数需要事先指定。由于各个基聚类器的随机初始化的中心不同,当类数较大时,同一个数据集聚类的效果可能会
19、完全不同。因此,将 k-means 作为基聚类器去生成聚类结果,也满足聚类集成的多样性要求。使用 k-means 做基聚类器,通常使用固定的 k 值即N,因此在文中 k 值选取为N,k-means 的目标函数如公式(1)所示:F(仔h)=移kl=1移仔h(xi)=l,xi沂Xd(xi,vhl)2(1)其中,vhl表示第 h 个基分区中第 l 个簇的中心点,d(xi,vhl)是目标点(xi)到聚类中心点(vhl)的欧氏距离。基于证据积累模型,该文提出一个相似度计算方法,用来将相似度高的一些对象预先划分为簇,随后将剩余的相似度较低等异常点进行归并处理。X(i,j)=1M移Mh=1移kl=1子(i,
20、j,Chl)(2)相似度量方法如公式(2)所示,其中,子(i,j,Chl)=1,xi沂 Chl疑 xj沂 Chl0,otherwize部分对象的基聚类结果如图 1 所示。仔1仔2仔3仔4仔5仔6x1111111x2222232x3111111x4111113x5222222x6221222x7333323x8232321图 1摇 部分基聚类结果示意图图 1 中,x1 x8是数据集中的 8 个对象,仔1 仔6是 6 次基聚类结果,表中元素代表 x 属于第几类。以图 1 中的对象为例,通过公式(2)计算相似度得知 x1与 x3的相似度为 1,x1与 x4相似度为 5/6,因此 S1=x1,x3,x
21、4将 3 个对象划分为 1 个簇;同理 S2=x2,x5,x6,x7,x82 个对象与其他对象间相似度较小,因此暂设为异常点 S3=x7,S4=x8。该过程每个对象只经过 1 次运算,其时间复杂度为 O(N)。使用数据集(S)设置得到以下相似矩阵,如图 2 所示。S1S2S3S4S111/271/181/9S211/97/18S311/2S41图 2摇 对象集的相似矩阵示意图簇间相似度计算如公式(3)所示,其中 p,q 为簇(S)中对象的个数。1pqM移pSi=1移qSj=1移Mh=1啄(Si,Sj,Chl)(3)其中,啄(Si,Sj,Chl)=1,xi沂 Chl疑 xj沂 Chl0,othe
22、rwize接着以图 1 为例,S1=x1,x3,x4,S4=x8。x1和 x8在 仔6同属一类,x3和 x8在 仔6同属一类,所以按公式(3)所得,S1和 S4的相似度为 2/(1伊3伊6)=1/9,其余 相 似 度 同 理 可 得。该 过 程 的 时 间 复 杂 度 为O(pqTN),qpT N2。得到相似矩阵以后,使用 NCUT算法25将相似度矩阵视作权重图,通过切图的方式得到最 终 聚 类 划 分,其 时 间 复 杂 度 最 终 可 优 化 为O(TN)。该方法总时间 复杂度为 O(N+pqTN+TN)。3摇 实验结果与分析3.1摇 实验数据集该方法在 8 个数据集上进行了测试,其中 4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 相似性 集成 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。