基于信息熵更新权重的数据自适应聚类研究.pdf
《基于信息熵更新权重的数据自适应聚类研究.pdf》由会员分享,可在线阅读,更多相关《基于信息熵更新权重的数据自适应聚类研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、电子设计工程Electronic Design Engineering第31卷Vol.31第16期No.162023年8月Aug.2023收稿日期:2022-05-13稿件编号:202205103基金项目:国家电网安徽电力有限公司科技项目(521207220002)作者简介:张福华(1987),男,陕西汉中人,助理工程师。研究方向:大数据、数据管理、数据治理。近年来,信息技术不断发展,互联网信息技术、工业信息技术、通信信息技术等行业迅速崛起,这些行业产生了大量的数据。在当前阶段,主要是通过自适应聚类对数据进行整合。数据通常以静态的形式存放在数据库中,以便随时提取。但由于信息产生方式、性质以及数
2、据库的存储量是有限的,数据的存放只能是短暂性的,并不能长期存放在数据库中,而在应对大量的数据产生时,数据库无法永久保存所有数据,因此数据的自适应聚类便成为解决该问题的方式。为了解决上述问题,一些学者进行了数据自适应聚类相关研究。文献1提出了基于信息熵加权的空间聚类算法,通过引入信息熵权重约束模式,完成对数据的自适应聚类,但此方式只适用于少量信息的多次自适应聚类,在应对大量数据时仍无法很好基于信息熵更新权重的数据自适应聚类研究张福华,刘 丽,朱俊东,朱再新,余大权(安徽明生恒卓科技有限公司,安徽 合肥 230000)摘要:数据聚类过程不稳定且容易出现概念漂移等问题,降低了聚类的准确性。针对当前聚
3、类方法存在的漂移点筛选能力和抗干扰能力较弱的问题,设计了一种基于信息熵更新权重的数据自适应聚类方法。采用IEWU算法求得信息熵值,将信息熵分为数值型与分类型,分别对不同类型的信息熵进行属性加权。设计基础聚类器,分别更新基础聚类器以及信息熵权重,利用聚类决策完成了数据自适应聚类。实验结果表明,所提方法具有较强的漂移点筛选能力和抗干扰能力,聚类准确率始终高于90%,聚类效果更好。关键词:信息熵更新;更新权重;数据自适应;自适应聚类;IEWU算法;基础聚类器中图分类号:TN911文献标识码:A文章编号:1674-6236(2023)16-0176-04DOI:10.14022/j.issn1674-
4、6236.2023.16.037Research on data adaptive clustering based on information entropy update weightZHANG Fuhua,LIU Li,ZHU Jundong,ZHU Zaixin,YU Daquan(AnHui Mingsheng Hengzhuo Technology Co.,Ltd.,Hefei 230000,China)Abstract:Because the data clustering process is unstable and prone to concept drift,the a
5、ccuracy ofclustering is reduced.Aiming at the weak ability of filtering drift points and antiinterference in currentclustering methods,a data adaptive clustering method based on information entropy updating weight isdesigned.The information entropy is obtained by IEWU algorithm.The information entro
6、py is dividedinto numerical type and type,and the attribute weights of different types of information entropy arecarried out respectively.The basic cluster is designed,the basic cluster and the information entropyweight are updated respectively,and the data adaptive clustering is completed by cluste
7、ring decision.The experimental results show that the proposed method has strong drift point screening ability and antiinterference ability,the clustering accuracy is always higher than 90%,and the clustering effect is better.Keywords:information entropy updating;update weight;data adaptation;adaptiv
8、e clustering;IEWUalgorithm;basic cluster-176地进行聚类,导致聚类准确性变差。文献2提出了基于信息流加权的集成分类算法,通过引入集成分类算法赋予数据更高的权重,并根据每个数据类别特征构建分类器,以此完成数据的自适应聚类,但此方式对于大量杂乱的数据无法做到精准聚类,实际应用效果并不好。针对目前聚类方法的漂移点筛选能力和抗干扰能力较弱的问题,设计了一种基于信息熵更新权重的数据自适应聚类方法,并通过实验对该方法的有效性进行了验证。1基于信息熵的数据属性加权利用信息熵的加权对混乱数据进行自适应聚类,在构建信息熵的加权机制前,设计一种混乱数据相异性度量方式3-4
9、。由于所研究的数据为混乱数据,因此采用 K-P算法统计当前数据集中相似数据出现的频率,并设定模糊类中心,以此能够更加直观地度量数据之间的相异性。根据信息熵权重建立模糊类中心,计算公式如式(1)所示:C=i=1nxi(1)其中,xi表示第i个数据集;C表示数据集数据的所属类别。而数据集中的单一对象也可表示为模糊类中心的形式,该式为模糊类中心一种特殊的表示形式5-6。信息熵具有两种形式,分别为数值型与分类型,针对数值型的数据属性进行加权时,需应用到二阶Renyi熵,Renyi熵具有良好的计算特性7-8。假设X是由独立分布的N个数据对象组成的数据集合,计算熵值f(X)如式(2)所示:f(X)=1Ni
10、=1NWi(2)其中,Wi为 parzen 窗口函数,通常为高斯核函数。通过 parzen 窗口估计法得到的熵通常为正数,上述定义给出的类内熵值反映了在聚类分化结果中某一类的值在不同属性数据情况下的分布状态,即一个类的类内熵越小,聚类过程的数据属性权重越大9-10。互补信息熵计算公式如式(3)所示:f1(x)=1N1i=1NtWi(3)根据以上分析可知,通过信息匹配得到数据熵,在完成数据聚类之后确定信息的不同属性,根据不同属性实现数据分离,从而实现数据属性加权。2基于信息熵更新权重的数据自适应聚类在完成基于信息熵的数据属性加权后,对数据进行自适应聚类,聚类流程如图1所示。图1基于信息熵更新权重
11、的数据自适应聚类流程根据图 1 可知,聚类过程首先构建一个数据自适应聚类器,然后完成聚类模型更新,同时进行基础聚类器更新和权重更新实现数据自适应聚类。构造一个数据自适应聚类器流程,假设E为一个由k个基础聚类器y组成的自适应聚类器,设S表示数据总量,将S平均分成大小相等的数据块B,此时自适应聚类器开始初始化,当一个新的数据块到达时。若数据块中的所有数据都能够被识别,则可将该数据块转变为一个基础聚类器,当基础聚类器的个数未达到阈值k时,将不断转化可识别的数据块为基础聚类器,直到基础聚类器的数量达到k个11-12。自适应聚类器由多个基础聚类器组成,若要建立一个性能完好的自适应聚类器,则需要保证基础聚
12、类器具有多样性与准确性。满足基础聚类器的多样性条件是数据块都建立在不同维度的子空间中,因此每个数据块的维度与空间特征都是随机的。为了解决数据不稳定的问题,需要使用 IEWU算法对自适应聚类器进行更新,更新分为基础聚类器的更新以及基础聚类器权重的更新两部分。由于 IEWU算法的中心思想与自适应聚类器的构建过程相似,因此在相似数据的数量达到一定程度时便可组建一个数据块,通过数据块得到一个基张福华,等基于信息熵更新权重的数据自适应聚类研究-177电子设计工程 2023年第16期础聚类器。基础聚类器的权重随着数据块属性与性能的变化而变化,以此解决数据不稳定问题。数据块的大小决定了基础聚类器的性能。较大
13、的数据块可以组建成性能更好的基础聚类器,分类性能更佳。因此在基础聚类器更新过程中,需要筛选出较大的数据块来提升基础聚类器的性能13-14。由于使用 IEWU算法构建了一个混合类型的自适应聚类器,因此在 IEWU算法应用过程中,需要不利用新的基础聚类器来替换旧的基础聚类器,并需要对已有的基础聚类器进行学习,结合信息熵对每个基础聚类器的权重进行更新。通过此方式可以筛选出性能更好的基础聚类器,提高整个自适应聚类器在面对不稳定数据时的处理能力15。信息熵为此次研究的重要参数,利用 IEWU 算法计算信息熵的计算公式如下:H=E(-lgP)(4)式中,H表示信息熵;P表示聚类器参数。采用 IEWU 算法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 信息 更新 权重 数据 自适应 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。