多粒度粒球粗糙集模型.pdf
《多粒度粒球粗糙集模型.pdf》由会员分享,可在线阅读,更多相关《多粒度粒球粗糙集模型.pdf(12页珍藏版)》请在咨信网上搜索。
1、西北大学学报(自然科学版)2024年4月,第54卷第2 期,Apr.,2024,Vol.54,No.2Journal of Northwest University(Natural Science Edition)JNWU粒计算与概念知识获取多粒度粒球粗糙集模型蒋珊珊”,林国平1.2.3,林艺东,寇毅(1.闽南师范大学数学与统计学院,福建漳州36 30 0 0;2.数字福建气象大数据研究所,福建漳州36 30 0 0;3.福建省粒计算及其应用重点实验室,福建漳州36 30 0 0)摘要基于粒球计算的粗糙集理论作为知识发现和数据挖掘的重要工具之一,已成功地应用于标记预测、属性约简等。而现有的粒球
2、粗糙集模型仅仅是从单粒度出发,无法从多粒度角度对数据进行分析和处理,实际生活中仍有很多应用场景需从多粒度角度进行思考。将粒球计算思想结合到多粒度粗糙集模型,提出了多粒度粒球粗糙集模型,并讨论了该模型的相关性质。该模型通过纯度的设定对数据进行粒球划分,能够有效地刻画数据之间的内在联系,以此设计多粒度粒球粗糙集的正域生成算法。实验分析表明该模型的可行性和有效性。关键词粒球计算;粒球粗糙集;多粒度粗糙集;纯度中图分类号:TP391Multi-granulation rough set model based on granular-ball computingJIANG Shanshan,LIN C
3、uoping-,LIN Yidong,Kou Yi!(1.School of Mathematics and Statistics,Minnan Normal University,Zhangzhou 363000,China;2.Institute of Meteorological Big Data-Digital Fujian,Zhangzhou 363000,China;3.Fujian Key Laboratory of Granular Computing and Applications,Zhangzhou 363000,China)Abstract As one of the
4、important tools for knowledge discovery and data mining,rough set theory based ongranular-ball computing has been successfully applied to label prediction and attribute reduction.However,the existing granular-ball rough set models only consider a single granulation,and cannot analyze and processdata
5、 from a multi-granulation,and there are still many application scenarios that need to be considered fromthe perspective of multi-granulation.Based on this,this paper proposes a multi-granulation rough set based ongranular-ball computing by embedding the idea of granular-ball in the multi-granulation
6、 rough set model,anddiscusses the relevant properties of the model.The model divides the data by setting the purity,which can ef-fectively depict the internal relationship between the data,and thus design a position region generation algo-rithm for multi-granulation granular-ball rough set.Experimen
7、tal analysis shows the feasibility and effective-ness of this model.Keywords granular-ball computing;granular-ball rough set;multi-granulation rough set;purityD0I:10.16152/ki.xdxbzr.2024-02-006收稿日期:2 0 2 3-0 9-1 5基金项目:国家自然科学基金(1 1 8 7 1 2 59,1 2 1 0 1 2 8 9,1 2 2 0 1 2 8 4);福建省自然科学基金(2 0 2 1 J01983,
8、2 0 2 1 J0 1 97 9)。第一作者:蒋珊珊,女,从事粒计算与粗糙集理论及其应用研究,J_SS。通信作者:林国平,女,博士,教授,从事粒计算与人工智能研究,。198粗糙集理论是Pawlak1于1 98 2 年提出的一种能够有效分析和处理不精确、不一致、不完整信息的数学方法。粗糙集理论 2-7 已经广泛地应用于模式识别、数据挖掘、机器学习、决策支持系统等领域。为了处理不同类型的信息系统,许多学者将Pawlak粗糙集模型扩充为容差关系、相似关系、限制容差关系、优势关系和模糊关系粗糙集等 8-1 。然而,经典粗糙集模型基于单个不可分辨二元关系的单一粒度框架,无法从多粒度、多层次的角度对数据
9、进行分析和处理,单一粒度框架下的数据处理方法已经不能满足实际应用的需求。基于此,Qian等人从粒计算的角度出发,考虑多个二元关系,将单粒度粗糙集模型拓展至多粒度结构,提出多粒度粗糙集思想,建立基于“求同存异”思想的乐观多粒度粗糙集和基于“求同排异 思想的悲观多粒度粗糙集 1 2-1 4。此外,传统的粗糙集模型只能处理离散数据,而现实中的数据多为连续数据,离散化不可避免地造成信息的丢失。为了解决这一问题,Hu等提出了邻域粗糙集,利用邻域来描述样本之间的关系,能够有效地处理连续型数据 1 5。基于它的诸多优势,许多学者对其进行了相关的研究和改进。李和谢提出了一种基于邻域粗糙集的特征子集增量式更新N
10、RS加速方法 1 6 。胡和赵等根据样本的分布提出了基于不确定性和邻域关系粗糙集的增量属性约简方法 1 7 。彭和刘等设计了一个适应度函数,它结合了数据集和分类器的属性,从给定的邻域半径区间中选择最优邻域半径 1 8 然而,邻域粗糙集的上下近似是由样本点组成,而不是等价类,因此使邻域粗糙集失去了可解释性。基于此,Xia 等人提出了一种基于粒球计算 1 9 的粒球粗糙集 2 0 ,通过引入粒球计算来表示邻域,用等价类来表示上下近似,从而实现Pawlak 粗糙集和邻域粗糙集的统一。Xia等提出的粒球计算是一种基于颗粒认知计算的新型、高效、鲁棒的粒计算方法,其核心思想是利用“粒球 覆盖或部分覆盖样本
11、空间 1 9。此外,Xia等还将粒球计算进行改进和发展,提出粒球分类器、粒球聚类2 、粒球邻域粗髓集-和粒球采样方法 2 3。其中,粒球邻域粗糙集可以自动优化邻域半径。粒球计算还拓展到基于伪标签粒球粗糙集的约简 2 4、粒球生成树聚类算法 2 5 等研究。受文献 1 2、2 0 的启发,本文借鉴粒球计算的思想,结合多粒度粗糙集模型,提出“多粒度西北大学学报(自然科学版)粒球粗糙集模型”,将粒球粗糙集从单一粒度拓展为多粒度。此外,讨论了该模型的重要性质,给出了多粒度粒球粗糙集正域的生成算法,并通过实验验证该模型的可行性和有效性。1相关知识本节主要回顾多粒度粗糙集、粒球粗糙集的相关知识。1.1多粒
12、度粗糙集Qian等将Pawlak粗糙集模型扩展为多粒粗糙集模型,该模型通过论域上的多重等价关系定义集合近似 1 2 定义1 2】设DS=U,A T,V,J是一个完备的信息系统,任意B=24T,B=(BI,Bz,Bml,B,CAT,i=1,2,m。对于任意X C U,则X关于B的上、下近似表示为mB,(X)=(x:x CXxa,CX.1x.mCX,xe UmmB(X)=(Z B.(X)i=1m称(B,(X),B(X)为多粒度粗糙集模型。m=11.2粒球粗糙集Xia等提出粒球计算方法,此方法能够在信息粒化过程中,自适应地生成粒球信息粒 1 9。进一步提出粒球粗糙集,从而实现了Pawlak粗糙集和邻
13、域粗糙集的统一表示。定义2 2 0 设GB=x;,i=1,2,N为粒球,x;表示粒球GB内的样本,N为粒球GB中样本的个数。粒球GB的中心 C和半径r分别定义为N(3)1NN1 x;-C1定义3 2 0 设粒球GB=(x,i=1,2,N,x;表示粒球GB的样本,N为粒球GB中样本的个数。设M为粒球GB样本标签占比最大的样本数,则可定义粒球GB的纯度为Purity(GB):M二N在粒球的生成过程中,首先,将整个数据集视为一个粒球;其次,计算粒球纯度,纯度不满足时将粒球均分为2 个子球,依次进行迭代,直到所有第54卷(1)(2)(4)(5)第2 期粒球的纯度满足要求时,边界最清晰且算法收敛。其主要
14、步骤如下:1)假设m表示当前粒球的数量,将论域U初始化为一个粒球,令m=1;2)利用k-means聚类算法对每个粒球进行聚类,令k=2,则每个粒球分裂为两个子粒球,此时粒球数量为2 m;3)计算所有的子粒球的纯度Purity,若所有的子粒球纯度达到要求或粒球半径r达到指定的阈值,则算法结束;否则,则返回步骤2)。定义418 设DS=是一个完备的信息系统,任意EU,其中c,和r,分别表示粒球 GB,的中心和半径,则粒球 GB,定义为GB,=(xl x E U,A(x,c)r,l其中:A(x,c)表示任意的对象EU与中心c,的距离度量。本文中(x,c)=Z(f(x,a)-1Zf(xi,a)),f(
15、x,a)表示对象在属性a下IU的属性值,U表示为k-means聚类算法每次迭代的类样本。定义 52 0 设DS=是一个完备的信息系统,任意x,yU且BCAT,粒球 GB基于属性集B下的不可分辨关系定义为INDGB(B)=(x,y)=UIf(x,a)=f(y,a)=GB,Va E Bl。根据定义5,存在(x,y)E IND G B(B),则x与y等价。论域U在GB下的划分表示为U/GB(B),粒球GB在不可分辩关系INDGB(B)下的等价类表示为xcB(B)=(UI(x,y)IND G B(B)1,x cB(B)是U/GB(B)的元素。定义6 2 0 设DS=是一个完备的决策信息系统,U是非空有
16、限集合,AT是属性集,决策D将论域U划分为L个等价类,表示为 U/D=Xi,X2,X,I,任意 B CAT,在 U上存在着相应的等价关系GBRB。D 关于属性集B的上、下近似分别定义为GBR,D=U GBR,X,i=1LGBR;D=U GBR,X;i=1其中,对于任意x E U,GBR:X,=U xB E U/GB(B)1x cB(B)n X,+1;GBR,X,=n xB E U/GB(B)I蒋珊珊,等:多粒度粒球粗糙集模型个完备的决策信息系统,任意 B AT,DS关于属性集B的正域和边界域定义为POS:(D)=GBR,DBNB(D)=GBR,D-GBR,D2多粒度粒球粗糙集模型在本节内容中,
17、借鉴粒球计算的思想,结合多粒度粗糙集模型,构造多粒度粒球粗糙集模型。定义8 设DS=U,AT,V,f是一个完备的信息系统,U是非空有限集合,AT是属性集。任(6)意B 2Ar,B=(BI,B2,Bml,B,CAT,i=1,2,m。在U上存在基于B;的粒球GBB,相应的等aeB价关系GBRB;。对于任意XCU,X关于B的上、下近似定义为mGBR,X=U(x;E U/GB(B,)Ix cB(Bi)nX+xcB(Bb)nX+.x cB(B,)n X+1mGBRB,X=U(x B;=U/GB(B,)Ii=1x cB(B)C X V c(ba)X V.Vx cB(B,)C Xm称(ZGBRB,X,Z G
18、GBR:;X)为多粒度粒球粗糙台集,并称POS(X)=G BR:(X)为X关于B的正域,BND(X)=GBR(X)-G BR(X)为X关于B 的边界域。性质1设DS=是一个完备的信息系统,U是非空有限集合,AT是属性集。任意B2AT,B=(Br,B2,Bm),B,B,在U上存在基于B和B;的粒球 GB和 GBB;,其相应的等价关系为GBRB、G BRB。对任意XCU,X关于B的(7)上、下近似有以下的性质:(8)m1)2GBR;,X C GBR,X;i=1m2)GBRB,X2GBRBX,证明1)由定义8 得,任意x,Z GBRs,X,199.x cB(B)C X,l。定义7 2 0 设DS=是
19、一(9)(10)(11)(12)m200则至少存在i=jGm),使得x,Z又因X/GB(B)=X1,X2,X1,则任意X(i b)GB(B),存在X,(ja)C GB(B,),使得X,C X,则 GB(B)C GBR,X。综上,有 ZGBRB,Xi=C GBR,X。2)由Pawlak粗糙集理论的相关性质可得GBRBX=(G BRs)X,又根据性质(1)有GBRBX=(GBRa)X C(Z GBRn)mGBR,X。设DS=U,AT,V,f是一个完备的性质2信息系统,U是非空有限集合,AT是属性集。任意B24,B=(Br,B2,Bml,在U上存在基于B;的粒球 GBB,相应的等价关系 GBRB;。
20、假设有X二U,则X关于属B的上、下近似的性质有m1)GBRaXCX CZGBRB,X;mm2)GBRB;O=二=mGBR,U=U:=1mm3)GBR;(X):mCBRe(X)=ZmGBR;(X);m4)GBRB,X=GBRB,X U.U GBR.X;i=1mGBR.,(X)=GBRB,X n.n5)i=1GBRB.X。证明1a)令x,yEGBRB;X,且有 X/GB(B,)X,则至少存在一个划分 X/CB(B),使得 EX/GB(B,),且y E X/GB(B,);又因x,y E X,则mGBRB,X C X。i=11b)令x,y X,则有x=X/CB(B,)nX,且E X/GB(B)nX;又
21、X/GB(B,)nX=,所以m2CBR.X.XCZGmx,yEGBRB,X。i=11西北大学学报(自然科学版)GBR,X。mCGBRBO(空集是任何集合的子集),则有i=1mmGBR,;假设U=Z GBR,U,据定义有X/GBRB;n,而X/GBRBn=,这m与假设矛盾,因此有之GBR,0=0。m2b)根据1)可得)GBRB,U C U,若x E U,mm)X=x/GBRB,C U。则x Em因此,U=GBRB,U。i-1m3a)GBRB,(X)=13b)根据3a),令X=X,则mGBRr,(X)=Z GBRs,(X)=mmGBRB;(X)=-1GBR,O;GBR:;(X);i=1m4)任意
22、U,如果有 X/GB(B,)X,则xGBRB,U;mEGBRB,X,若存在y,使GBRB;(X);i=1Ei=1UxeuX/GB(B,)-.-UxeuX/CB(Bm)=O。则 X/GB(B,)=,所以mGBR,X=GBR.,X U GBR,XU.UGBR.X。5)根据性质4)可得mGBR(X)=Z(GBRg,(X)U.U GBRBm(X)=(GBRB,X U.U GBRB.X)GBR.,XnGBRXn.nGBR.X。性质3设DS=是一个完备的信息系统,U是非空有限集合,AT是属性集。任意B24,B=(Bt,B2,Bm1,在U上存在基于B,的粒球GBB;相应的等价关系GBRB;。假设有X,Y第5
23、4卷m2a)根据1)可得GBR,0 C 0,又有 0=1mGBR,U,UC Zi-1mGBRB;(X)。mi=1mGBRB,X-U xeuX/GB(BI)-GBRB,U,GBRB;(X):二第2 期C U,则X,Y关于B的上、下近似的性质有m1)2GBRB;(X n Y)=(GBRB,GBRB)U.U(GBRmn GBR.Y);m2)ZGBR;(Xn Y)=(GBR,Xn GBRB,Y)U.U(GBR.Xn GBRmY);m3)GBRa(X n Y)ZmGBRB,Y;m4)2GBRB,(X n Y)2mGBRBY;1m5)X C Y-GBRB.XCGBRBi=m6)X CJGBRBX Ci-1
24、1mm7)GBRB;(X U Y)2GBRB,X Ui=1=GBR,Y;m8)GBRB;(X n Y)Ci=1GBRB,Y证明先证明1)。mGBRs,(X n Y)=GBRs,(X n Y)Ui=GBRB,(X n Y)U.UGBRB;(X n Y):二(GBRB,X n GBRB,Y)U.(GBR.Xn GBRB.Y)2)与1)类似可以证得。mGBRB,(XnY)=GBRB,(XnY)Ui=1GBRB(X n YU.U GBR.(X n Y)=(GBR.,XnGBR,OU.U(CBRB.XnGBRB.Y)。由1)可以得出3)的证明。mGBRB;(X n Y)=(GBRB,X n GBRB,Y
25、)U.蒋珊珊,等:多粒度粒球粗糙集模型mGBR,X nmGBRB;-1mGBRBmGBR,X n201(GBRBmX n GBRBm(GBRB,X n GBRB,Y)GBRB,X U.U GBR.X)(GBRB,X n GBRB,Y)UGBR.,YU.UGBR.(GBRB,XUGBRB,XU.UGBRBm(GBR,YUGBRB,XU.UGBRB.X)n(GBR,XUGBRB,YU.UGBRB.)(GBRB,YU GBRB,YU.UGBR.)YmmGBR,XnGBR.Ynm(GBRB1YUm(GBRB,X UGBRB,Y)C-22CBRXnmmGBR,Y。由2)可得出4)的证明。mGBRB(X
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 粒度 粗糙 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。