一种基于EFD的混合属性聚类算法.pdf
《一种基于EFD的混合属性聚类算法.pdf》由会员分享,可在线阅读,更多相关《一种基于EFD的混合属性聚类算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、第2 9 卷第1期2024年1月doi:10.13682/j.issn.2095-6533.2024.01.012西安邮电大学学报JOURNAL OF XIAN UNIVERSITY OF POSTS AND TELECOMMUNICATIONS一种基于EFD的混合属性聚类算法Vol.29No.1Jan.2024王文庆12,向孜瑞1,2(1.西安邮电大学自动化学院,陕西西安7 10 12 1;2.物联网应用技术联合示范实验室,陕西西安7 10 12 1)摘要:为了提高混合属性聚类效率,提出一种基于扩张翻转距离(Expand Flip Distance,EFD)的混合属性聚类算法。以信息及嫡权法
2、为基础,通过定义扩张属性和属性扩张量得到EFD,将其作为待聚类对象属性区分的依据,进行聚类对象的属性约简,最终对约简后的属性构建混合属性聚类模型,实现混合属性聚类。实验结果表明,所提算法获得的聚类谱系图和聚类结果均优于对比算法,验证了该算法的合理性和有效性。关键词:混合属性聚类;扩张属性;属性扩张量;扩张翻转距离;属性差异化中图分类号:TP181Clustering algorithm for mixed attribute based on EFD(1.School of Automation,Xian University of Posts and Telecommunications,X
3、ian 710121,China;2.Internet of Things Application Technology Joint Demonstration Laboratory,Xian 710121,China)Abstract:In order to improve the clustering efficiency of mixed attributes,a mixed-attribute cluste-ring algorithm based on the expand flip distance(EFD)is proposed.Based on the information
4、entro-py and entropy weight method,the EFD is obtained by defining the expansion attribute and the at-tribute expansion amount,which is used as the basis for the attribute differentiation of the object tobe clustered,and the attribute reduction of the clustered object is carried out,and finally the
5、mixedattribute clustering model is constructed for the reduced attribute to realize the mixed attribute clus-tering.Experiment results show that the clustering pedigree map and the clustering results obtainedby the proposed algorithm are better than those of the comparison algorithms,which verifies
6、its ra-tionality and effectiveness.Keywords:mixed attribute clustering;expansion properties;the amount of attribute expansion;ex-pand flip distant;attribute differentiation随着数据获取的便捷化,混合属性数据不断增加1。聚类分析作为数据研究领域的基本技术,可从复杂数据中提取有价值的信息,被广泛应用于数据挖掘和数据聚类的研究中2 混合属性数据聚类问题主要包括聚类融合算法的研究3、数据距离计算的研究以及对特定性质混合数据的研究等。
7、文献4利用基于聚类的相似度分区算法计算出多个聚类结果之间的相似度,进收稿日期:2 0 2 3-0 9-0 2基金项目:陕西省重点研发计划项目(2 0 18 ZDXM-GY-039)引文格式:王文庆,向孜瑞。一种基于EFD的混合属性聚类算法J.西安邮电大学学报,2 0 2 4,2 9(1):10 3-110.WANG W Q,XIANG Z R.Clustering algorithm for mixed attribute based on EFDEJJ.Journal of Xian University of Posts and Tele-communications,2024,29(1)
8、:103-110.文献标识码:AWANG Wenqingl2,XIANG Ziruil.2文章编号:2 0 9 5-6 533(2 0 2 4)0 1-0 10 3-0 8而通过层次化的分割算法将相似度进行叠加,通过对聚类结果合成提高化学结构聚类的质量。谱聚类和量子聚类融合算法5对具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集更显优势。文献6 通过定义名义尺度变量的距离度量,改善了经典聚类分析技术,如系统聚类法和K-means 等处理名义尺度变量不适合的问题。文献7 对有相似趋势的数据流提出了时间距离度量的方法,改善104.了数据对象值域差距悬殊的多数据流聚类问题。文献8 对混合型数据
9、的概率据基聚类进行了扩展,适用于连续数据的聚类,具有模糊隶属度和鲁棒性的优点。文献9通过扩展模糊C-means,探究了针对周期型名义变量的模糊聚类方法,获得了最佳聚类数。然而,上述算法虽不同程度探究了分类数据或混合数据的聚类,但均没有考虑数据属性的差异化,忽略了特殊属性对数据聚类结果的性能影响10。当前大多数据是以混合类型为主,在连续性、周期型和有序性等方面有所欠缺,使得处理过程变得相对复杂和困难11。同时,混合属性数据中的分类属性存在概念界定不清楚、难以度量的问题12,且分类属性在不同场景中,表达的待分类对象的特征敏感程度不同,因此,合理体现分类属性之间的差异,区分属性特征对于高效聚类显得尤
10、其必要。区分属性特征包括属性数据重要程度的确定、属性参数的计算和属性特征对目标结果的影响等因素。为了改善上述混合属性数据存在的聚类问题,拟提出一种基于扩张翻转距离(Expand FlipDistance,EFD)的混合属性聚类算法。通过定义扩张属性和属性扩张量得到EFD,以差异化区分待聚类对象的属性,进而构造混合属性聚类模型,分析属性扩张处理后对聚类结果的影响,以期提高混合属性数据聚类效率。1度量指标定义数据聚类中常用的度量指标主要应用于数值型属性数据,通过精确的距离度量实现数据的定量分析13。而混合属性数据特征多样化,通常无法进行数值运算,因此很难进行度量选择。扩张翻转距离14类似于生物学上
11、的“放大镜”,其思想是通过将重要属性的细微差别放大,便于观察事物内在的联系,以及在海量信息中进行检索,判断出扩张属性对聚类效果的影响,达到快速聚类且准确聚类的目的。下面将通过定义扩张翻转距离,对分类型属性数据特征进行度量。定义1扩张翻转距离。给定两个名义尺度变量1 和2,基于翻转距离6 概念,利用翻转次数定义i和2的距离度量,从而定义扩张翻转距离为ai-az=w.d(ar,a2)(1)式中:W为属性扩张量,用于区别特定的分类属性,即在一定程度上放大其对整体数据的影响度。例如,两个待聚类样本的分类属性分别为1,2,3)和西安邮电大学学报(1,1,2),其名义尺度变量依次为a1,a 2,a 3,通
12、过扩张量的计算得出对2进行扩张,则其扩张翻转距离为0+w1+1=w十1。假设待聚类样本总数为N,分类属性的总数为P,待聚类样本个数为i,分类属性个数为i,则两个样本间的扩张翻转距离可以表示为NP2D=ai-ai+wat-a(2)i=1j-1式中:i为第i个样本的第个分类属性;K为扩张属性。信息熵15是描述信息源可能发生的不确定性,将其作为属性区分的依据定义扩张属性及属性扩张量。扩张属性依据信息摘的大小确定,就属性值而言,重复值越多,信息熵越低,也就越容易预判。对易预判的属性进行扩张,才更易分类。因此选取信息小的属性作为扩张属性。定义2 扩张属性。设数据集中含有N个待聚类样本i=1,2,N,P个
13、分类属性j=1,2,P,其扩张属性K可定义为e(K)=e(at)=-22式中:R为第i个样本的第i个分类属性的类别样本属性值个数;D丨为样本元组数;RiD 丨为类别样本概率。例如,待聚类样本分别为(1,2,3)、(2,1,1)、(2,3,2),其分类属性依次为ai,a,a,则e(a)=e(1,2)=0.9,e(a?)=e(a)=e(1,1,1)1.59。由此可得为扩张属性。定义3属性扩张量。在给定数据集中,分类属性的间隔能力和属性值的疏密存在差异。根据属性扩张量偏重于选择属性间隔能力比较弱或属性值比较单一稀疏的情况,其属性扩张量W定义为w(ak)=-e-de-e(K)其中,d=I 1-e(K)
14、I1=NPi-1j-1式中:d为信息效用值;为影响因子。例如,待聚类样本的分类属性分别为(1,2,3)、2,1,1)、(2,3,2),根据已选取的扩张属性l,计算其扩张量w(al)=e-(1-0.9)/(1/3)X e-0.9 6.68。属性扩张量依据熵权大小确定,属性在综合评价中所能起到的作用越大,则其权即扩张量也就越大。因此,一个属性重复的内容越多,不确定性2024年1月N-1NP2R-1og2TDTR(3)D(4)第2 9卷第1期越小,则信息越小,待估事件需要查询该属性信息量越少16,即该属性在待估事件本身存在的信息量大,则该属性在综合评价中所起到的作用越大,其扩张量也就越大,所得到的聚
15、类结果更具代表性。2混合属性聚类算法在确定了待聚类样本的扩张属性后,基于EFD的混合属性聚类算法借鉴基于目标函数聚类的思想,构建数值型属性与分类型属性的混合属性聚类模型,并分析模型的收敛性及算法复杂度。2.1模型描述设数据集有N个待聚类样本,每个样本有P个属性,其中Pi个属性为数值型,P个属性为分类型,混合属性数据集记为H:R P),R 为实数域,P=Pi+P2 0.样本s的属性满足s=(,v)EN式中:为数值型属性样本数据点;v为分类型属性样本数据点。第i个待聚类样本的完整属性可表示为si=(ci,c?,afi,i,i,f2)式中:pi为第i个样本的第P1个数值型属性;v2为第i个样本的第P
16、个分类型属性。利用混合属性聚类模型对混合属性数据进行聚类的具体步骤如下。步骤1对数据集H进行标准化数据预处理。步骤2 对P个分类属性进行量化处理。根据属性值划分区域,给予特定的量化值,得到分类属性量化后的数据集。步骤3根据式(3)确定扩张属性K,从中得到更有用的聚类信息。步骤4根据式(4)确定属性扩张量w,从中判断扩张属性对聚类效果的影响。步骤5根据式(2)计算扩张翻转距离,结合欧氏距离,对混合属性数据进行聚类,并绘制聚类谱系图17。2.2模型收敛性分析基于聚类代价18 的概念,给出混合属性聚类模型的目标函数,分析模型的收敛性。2.2.1目标函数确定目标函数包括数值型属性和分类型属性两部分,通
17、过计算样本数据点的类代价和确定最终目标函数。王文庆,等:一种基于EFD的混合属性聚类算法类的总代价为G=2(-2)i=1j=0cEi对于分类型属性,采用EFD进行计算。假设分类型属性样本数据点EC,则与类C的距离可看作该数据点与类C内所有数据点之间的距离之和,即类C的代价为Z=D(vC)P2(5)由式(9)可得到分类型属性样本数据点的所有类的总代价为NP2G-22w v,i=0j=0P2(6)最终混合属性聚类模型的目标函数为T=Gi+G2在对分类属性进行扩张处理19后,目标函数式(11)中G的敏感属性会被提取出,聚类结果的子类簇将得到优化。假设待聚类数据点以数列形式(;)存在,那么在二维视角中
18、,其聚类中心值属于待聚类样本点所在的方形区域内,如图1所示。4第1类3F第2 类*聚类中心21F0-1-2-3-3图1中,数列(i)中的点被聚成的每一类,类内所有点的距离之差都最大程度靠近聚类中心。,且满足。Ea i,p,即0aamax105.对于数值型属性,采用欧氏距离的平方进行计算。假设数值型属性样本数据点EC,则与类C之间的距离可看作该数据点与类C的类中心之间的距离,即类C的代价为Z=D(x,C)=(-)2式中,为类C的类中心,cEi。由式(7)可得到数值型属性样本数据点的所有NP(8)P22w.v.v.1P2-2-1图1聚类中心区域(7)(9)(10)(11)101X轴234(12)1
19、06式中,max为最大待聚类数据点。目标函数极值f()Eo,m a x T 与聚类中心。的关系为函数极值点存在,则聚类中心存在。2.2.2收敛性分析混合属性聚类收敛思想为在非空有限集上,对任一函数值数列(f(),若(;)为函数f()的定义域内有限集,且满足(i)=(i,2,,n)可被分为若干个类,则每一类存在唯一常值。属于定义域,则该函数值数列收敛。设a1,2,,p,是欧氏空间的Pi个数值属性数据点,对式(8)中(一z.)求偏导,即=Z-2(-2.)可得式(8)为严格凸函数,因此Gi存在唯一最小值点。当式(13)结果为0 时,G可以取最小值,计算PI得到。=1/;是该函数的一个驻点,且满足i=
20、1。Ea i,a p,是这组数据点的中心位置,即为类中心。分类属性扩张后,对式(11)分母部分进行偏导求解,可得G2亦是严格凸函数。根据定义2 和定义3可知,式(2)满足定义1,可作为样本分类属性的相似性度量依据2 0,其目标函数必定存在最小值(最小值不唯一)。考虑到混合属性聚类模型复杂度较高,无法直接求出目标函数的极值点,因此选择从Gi、G 2 出发逐步进行迭代,求得使目标函数T代价最小时的极值点,即为聚类中心,由此得出混合属性聚类模型收敛。2.3算法复杂度分析假设数据集中包含N个数据点,P1个数值属性,P个分类属性,k为聚类数,I为迭代次数。若只考虑其中个分类属性进行聚类,则所提算法的时间
21、复杂度为O(kNI(Pl十m)。将所提算法的时间复杂度与文献5中翻转聚类法的时间复杂度O(kNIP),以及在此基础上融合后的传统混合属性聚类算法的时间复杂度O(kNI(P1十P2)对比可知,所提算法时间复杂度相对较低,这是因为所提算法在分类属性的维度从P减少到m,通过加入属性扩张量对敏感属性扩张,达到对分类属性进行缩减的目的,即只考虑对其中剩余部分属性进行聚类,复杂度有所降低。2.4算法实现基于EFD的混合属性聚类算法伪代码如下。西安邮电大学学报算法:基于EFD的混合属性聚类算法输人:一个混合属性数据集H,N个待聚类样本,包含P1个数值属性和P2个分类属性。输出:扩张属性e(K),属性扩张量w
22、和聚类谱系图。1:A-H;/数据预处理并且对分类属性量化2:shuzhi=A(:,1:Pi);3:fenlei=A(:,Pi:P2);/区别数值属性和分类属性4:repeatif shuzhi(l)=s h u z h i(?)shuzhi=dist(shuzhi(l),s h u z h i(?));/计算数值属性if fenlei(以)=fenlei()e(K),w;/计算扩张属性,属性扩张量fenlei=w(l);/计算分类属性扩张翻转距离(13)5:s h u z h i十fenlei;/欧氏距离距离与扩张翻转距离结合6:dendrogram(shuzhi+fenlei);/得到聚类结
23、果基于EFD的混合属性聚类算法流程如图2所示。开始数据采样和预处理数据量化及标准化构建量化后数据集数值型属性分类型属性区分属性类型确定扩张属性立确定属性扩张量计算欧氏距离计算扩张翻转距离绘制聚类谱系图结束图2 混合属性聚类算法流程3仿真实验及结果分析为了验证所提算法的有效性,将进行两组对比仿真实验,实验硬件配置环境为Intel(R)C o r e(TM)i5-11400H处理器、16 GiB内存和Windows11操作系统。3.1第1组实验选取文献2 1中某小区保安预警系统采集的门禁抓拍出入小区人员体貌特征数据作为采样2024年1月第2 9卷第1期数据集,并将所提算法与文献2 1算法进行仿真实
24、验对比。该数据集是混合属性数据集,采样所得的原始数据集如表1所示,其中9号数据为公安系统发布的犯罪嫌疑人体貌特征。表1原始数据集数值属性分类属性序号体重/年龄/身高/性别胖瘦用肤色衣着发型脸型kg岁cm168277368469576673769880979应用基于EFD的混合属性聚类算法对原始数据集进行分类属性量化,如表2 所示,得到量化后的数据集如表3所示。表2 分类属性的量化属性(指标)量化处理(用字符代替特征)性别男:1,女:2胖瘦胖:1,中;2,瘦:3肤色黄:1,白:2,黑:3衣着长袖:1,中袖:2.短袖:3发型长:1,中:2,短:3脸型长:1,圆:2,方:3表3量化后的数据集数值属性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 EFD 混合 属性 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。