新条件熵下协调不完备的信息系统属性约简.pdf
《新条件熵下协调不完备的信息系统属性约简.pdf》由会员分享,可在线阅读,更多相关《新条件熵下协调不完备的信息系统属性约简.pdf(10页珍藏版)》请在咨信网上搜索。
1、第36卷第2期2023年6月Vol.36 No.2Jun.2023闽南师范大学学报(自然科学版)Journal of Minnan Normal University(Natural Science)新条件熵下协调不完备的信息系统属性约简孙亚超1,陈锦坤1,2*,金铭1(1.闽南师范大学数学与统计学院,福建 漳州 363000;2.闽南师范大学 福建省粒计算及其应用重点实验室,福建 漳州363000)摘要:针对不完备信息系统的属性约简方法较少考虑含有缺失对象集对决策类造成的影响问题,根据缺失对象集含有的对象不同,给出一种新的条件熵,用来更加精确地度量知识的不确定性.其次给出了在协调不完备信息系
2、统下关于该新条件熵的相关定理,并构造了一种基于新条件熵的属性约简算法.最后,通过实例证明了该算法的可行性.关键词:条件熵;属性约简;不完备信息系统中图分类号:TP181 文献标志码:A 文章编号:2095-7122(2023)02-0017-10Attribute reduction of consistent incomplete information systemsbased on new conditional entropySUN Yachao1,CHEN Jinkun1,2,JIN Ming1(1.School of Mathematics and Statistics,Minna
3、n Normal University,Zhangzhou 363000,China;2.Fujian Key Laboratory of Granular Computing and Applications,Minnan Normal University,Zhangzhou 363000,China)Abstract:Attribute reduction methods of incomplete information systems seldom consider the impact of missing object sets on decision classes.To so
4、lve this problem,a new conditional entropy is proposed according to the different objects in the missing object set,which is used to measure the uncertainty of knowledge more accurately.Secondly,the related theorems about the new conditional entropy in the coordination incomplete information system
5、are given,and an attribute reduction algorithm based on the new conditional entropy is constructed.Finally,an example is given to prove the feasibility of the algorithm.Key words:conditional entropy;attribute reduction;incomplete information systems粗糙集理论1-2是由Pawlak提出的,是一种能有效处理不精确、不完整和模糊信息的数学工具,已被成功应
6、用到决策支持、图像处理、数据挖掘等方面.近年来,许多专家学者以粗糙集理论为基础进行了大量的属性约简算法研究,这些研究可以分为两类:一类是基于代数的属性约简算法.首先由Hu3提出的基于正域的属性约简算法和Skowron4提出的基于辨识矩阵的属性约简算法;后来研究者对这两种约简算法进行改进,即有张玉等5以变精度粗糙集为背景,提出基于极大正域的属性约简;陈志恩等6对可辨识矩阵进行改进,得到以最大分布核属性集为起点,然后对其余属性按其在可辨识属性矩阵中出现的频数大小逐次添加到核属性集中的属性约简算法.另一类是由王国胤7提出的基于信息论的属性约简算法.唐鹏飞等8以集值决策表为背景进行改进,提出基于近似条
7、件熵的属性约简.以上专家学者是在不含有缺失值的信息系统(也称为完备的信息系统)中进行研究的.收稿日期:2022-12-26基金项目:国家自然科学基金项目(62076116);福建省自然科学基金项目(2020J01792,2021J02049).作者简介:孙亚超(1997),男,山东菏泽人,硕士生.*通信作者.E-mail:2023年闽南师范大学学报(自然科学版)上述研究都是以完备信息系统为研究对象,但在现实生活中,由于不确定性因素或者条件限制等原因会造成属性值缺失,使得以上研究在信息系统含有缺失值的情况下不能完全适用.基于此,Kryszkiewicz9在1997年通过考虑信息系统中含有缺失属性
8、值,首先提出了基于容差关系的不完备信息系统的属性约简.紧接着Stefanowski10提出了基于非对称相似关系的不完备信息系统的属性约简,随之又研究提出基于量化容差关系的不完备信息系统的属性约简.后来王国胤11把上述3种关系进行融合改进,提出了基于限制容差关系的不完备信息系统的属性约简.后续专家学者又在以上众多模型下进行研究得到新的不完备信息系统的属性约简算法.如姚晟等12提出的非平衡数据下不完备信息系统的属性约简,丁棉卫等13提出的基于二进制区分矩阵的不完备信息系统的增量式属性约简,Li等14利用属性值之间的相似度,提出基于-属性重要度的约简算法.随着三支决策思想的提出,文献15-19提出了
9、基于三支决策的不完备信息系统的属性约简算法.文献20-22中以信息量为启发信息,设计了以信息熵为启发信息的不完备信息系统的属性约简算法,滕书华等23虽然提出基于条件熵的前向添加启发式约简算法,但是没有单纯的考虑缺失对象集这一因素对决策类造成的影响.滕书华等23的属性约简算法中没有考虑缺失对象集对决策类造成的影响,当两个及以上属性的条件熵值相等的情况下如何选取属性.因此针对这一问题,在滕书华等23的基础上考虑了缺失对象集对决策类的影响,重新定义了条件熵的概念,通过实例得出了新的条件熵可以解决当两个属性的条件熵值相等的问题;其次通过新的条件熵给出了在协调的不完备信息系统上的一些主要结论;然后从条件
10、熵出发,设计出基于新条件熵的协调不完备信息系统的属性约简算法;最后通过实例证明了算法的有效性.1 基本概念定义定义124 设信息系统S=(UAVf),其中U是非空有限对象集.A=CD是非空有限属性集,C是条件属性集,D是决策属性集,CD.V=aAVa是属性值的集合,Va是属性a的值域,f:UAV表示属性到值域的一个映射,即对任意的aA,xU,都有f(xa)Va.如果信息系统中至少存在一个属性a,使得Va是一个空值,用*表示空值,即f(xa)=*,则称其信息系统是不完备信息系统.定义定义 224 在不完备信息系统S=(UAVf)中,A=CD,BC,记缺失值为“*”,*V=aAVa,对于aB,容差
11、关系定义为T(xixj)=(xixj)UU|f(xia)=*f(xja)=*f(xia)=f(xja).显然,容差关系满足自反性(xixi)T(xiU),以及对称性,即当(xixj)T时(xjxi)T(xixjU),但不满足传递性(xixj)T(xjxk)T则(xixk)T(xixjxkU).由此可以继续定义容差类为TB(xi)=xj|xjUTB(xixj).从而可以定义论域U对属性A的划分覆盖为A=U/T(A)=TA(x1)TA(x2)TA(x|U|).其中:U=x1x2x|U|,|U|表示集合U的基数.相应的上、下近似集定义为-TBX=xi|TB(xi)X,-TBX=xi|TB(xi).定
12、义定义324 在不完备信息系统S=(UAVf)中,属性集A=ak|k=1m,设xiU,对象xi的缺失属性集MASi和不完备信息系统S的缺失对象集MOS可定义为MASi=ak|ak(xi)=*k=1m,MOS(x)=i|MASii=1n.18孙亚超,等:新条件熵下协调不完备的信息系统属性约简第2期定义定义49 在不完备信息系统S=(UAVf)中,A=CD,BC,S中的广义决策函数定义为B:UVdBCB(xi)=f(dxj)|xjTB(xi).若xiU|C(xi)|=1,则称不完备信息系统是协调的,否则是不协调的.定义定义59 给定一个不完备信息系统S=(UAVf),A=CD,EBC,对于xiU,
13、都有B(xi)=C(xi),且对于任意EB,$xiU,E(xi)C(xi),则称B为约简集.定义定义625 给定一个不完备信息系统S=(UAVf),A=CD,BC,记B=U/T(B)=TB(x1)TB(x2)TB(x|U|),D=U/T(D)=TD(x1)TD(x2)TD(x|U|),U/RD=D1D2Dn.其中:Di=xi1xi2xisi,|Di|=si,i=1m|Di|=|U|.则有mB(xi)=maxD(Di|TC(xi):in,xiU,其中:D(E|F)=|EF|F|是包含度.最大决策函数B为B(xi)=Di|D(Di|TC(xi)=mB(xi),xiU.若对于任意xiU有B(xi)=
14、A(xi)成立,则称B是S的最大分布协调集.若B是最大分布协调集,且B的任何真子集都不是S的最大分布协调集,称B是S的最大分布约简集.定义定义726 给定一个不完备信息系统S=(UAVf),PQA,若xiUTP(xi)TQ(xi),则称Q是粗于P的,记作P-Q;如果P-Q,PQ,则称Q是严格粗于P的,记作PQ.因此,PQ当且仅当xiUTP(xi)TQ(xi),$xjUTP(xj)TQ(xj).所以QP当且仅当P-Q.定义定义 826 给定一个不完备信息系统S=(UAVf),A=CD,若S是协调不完备信息系统当且仅当C-D.因此,由定义5、8可得,当不完备信息系统是协调时,等价于xiU,TC(x
15、i)TD(xi);当B为约简集时,等价于xiU,有TC(xi)TD(xi),TB(xi)TD(xi),且对EB,$xiU有TE(xi)TD(xi).2 不完备信息系统的条件熵定义定义927 在不完备信息系统S=(UAVf)中,A=CD,属性集BC的信息熵定义为E(B)=1-i=1|U|TB(xi)|U|2.属性集BC的联合信息熵定义为E(DB)=1-i=1|U|TD(xi)TB(xi)|U|2.定义定义1023 在不完备信息系统S=(UAVf)中,A=CD,BC,关于决策属性D相对于条件属性集B的条件信息熵定义为E(D|B)=i=1|U|TB(xi)|-|TB(xi)TD(xi)|U|2.注注
16、1 当xiU,TD(xi)=U时,E(D|B)取最小值0;当xiU,TB(xi)=U,TD(xi)=xi时,E(D|B)取最大值1-1|U|.192023年闽南师范大学学报(自然科学版)例例1 表1给定一个不完备决策表S=(UCDVf),其中论域U=x1x2x3x4x5x6x7,条件属性C=c1c2c3c4,决策属性D=d.由表1可知根据属性c1得到的容差类为 Tc1(x1)=x1x3x4x5,Tc1(x2)=x2x3x5x6x7,Tc1(x3)=x1x2x3x4x5x6x7,Tc1(x4)=x1x3x4x5,Tc1(x5)=x1x2x3x4x5x6x7,Tc1(x6)=x2x3x5x6x7,
17、Tc1(x7)=x2x3x5x6x7.根据属性c2得到的容差类 Tc2(x1)=x1x2x3x4x5x6,Tc2(x2)=x1x2x3x4x5x6x7,Tc2(x3)=x1x2x3x4x5x6x7,Tc2(x4)=x1x2x3x4x5x6x7,Tc2(x5)=x1x2x3x4x5x6x7,Tc2(x6)=x1x2x3x4x5x6,Tc2(x7)=x2x3x4x5x7.根据属性c3得到的容差类 Tc3(x1)=x1x2x3x4x5x6x7,Tc3(x2)=x1x2x3x4x5x6x7,Tc3(x3)=x1x2x3x4x5x6x7,Tc3(x4)=x1x2x3x4x5x6x7,Tc3(x5)=x1
18、x2x3x4x5x6x7,Tc3(x6)=x1x3x4x5x6x7,Tc3(x7)=x1x2x3x4x5x6x7.根据属性c4得到的容差类 Tc4(x1)=x1x2x6x7,Tc4(x2)=x1x2x6x7,Tc4(x3)=x3x4x5x6x7,Tc4(x4)=x3x4x5x6x7,Tc4(x5)=x3x4x5x6x7,Tc4(x6)=x1x2x3x4x5x6x7,Tc4(x7)=x1x2x3x4x5x6x7.由决策属性d所得的容差类 Td(x1)=x1x4x6,Td(x2)=x2x3x7,Td(x3)=x2x3x7,Td(x4)=x1x4x6,Td(x5)=x5,Td(x6)=x1x4x6,
19、Td(x7)=x2x3x7.由定义10可得E(d|c1)=i=1|U|Tc1(xi)|-|Td(xi)Tc1(xi)|U|2=i=17|Tc1(xi)|-|Td(xi)Tc1(xi)|72=0.449.同理可得:E(d|c2)=0.531,E(d|c3)=0.571,E(d|c4)=0.449.因而可得E(d|c3)E(d|c2)E(d|c1)=E(d|c4).由例1可知:不仅属性c1和c4相对于决策属性d的条件熵值相等,而且在两个属性下含有缺失值的对象个数也相等;如果按照滕书华等23的条件熵约简算法,则从这两个属性中随机选择一个,有可能导致选择的属性约简不是最优的.然而,从表1可以看出,对于
20、属性c1和c4中含有缺失值的对象个数都为2,但属性c1中缺失值所对应的决策类为d=3或d=1,而在属性c4下的两个缺失值所对应的决策类为d=1或d=2.而d=3所对应的对象仅有x5.因此在实际问题中,对于c1和c4两个属性,更倾向于选择属性c1.表1 不完备决策表Tab.1 Incomplete decision tableUx1x2x3x4x5x6x7c121*2*11c22*21c3*1*2*c411222*d211232120孙亚超,等:新条件熵下协调不完备的信息系统属性约简第2期在实际问题中,希望尽可能选择缺失值带来影响更少的属性.因此,从缺失对象集上对条件熵的定义进行改进.定义定义1
21、1 给定一个不完备信息系统S=(UAVf),其中U=x1x2x|U|,A=CD,BC,则条件属性集B相对于决策属性集D的新条件熵定义为:H(D|B)=i=1|U|(1-|MOS(x)TD(xi)|U|)|TB(xi)|-|TD(xi)TB(xi)|U|2.注注2 由于引入缺失对象集,新条件熵H(D|B)和联合信息熵H(DB)、信息熵H(B)三者之间没有关系,即不满足H(D|B)=H(DB)-H(B).例例2 根据不完备决策表1得:H(d|c1)=i=1|U|(1-|MOS(x)Td(xi)|U|)|Tc1(xi)|-|Td(xi)Tc1(xi)|U|2=i=17(1-|MOS(x)Td(xi)
22、|7)|Tc1(xi)|-|Td(xi)Tc1(xi)|72=0.408.同 理 可 得:H(d|c2)=0.426,H(d|c3)=0.437,H(d|c4)=0.397.因 此 可 得H(d|c3)H(d|c2)H(d|c1)H(d|c4),即对于不同属性下的缺失对象集不同,所得的条件熵的值不同,对不完备信息系统的分类能力也不同.注注3 当MOS(x)TD(xi)=时,H(D|B)=i=1|U|TB(xi)|-|TD(xi)TB(xi)|U|2,则定义11可以退化成定义10.引理引理1 给定一个不完备信息系统S=(UAVf),A=CD,对xiU,BC,则有MOSB(x)MOSC(x).证明
23、证明 由定义3知,显然引理成立.定理定理1 给定一个不完备信息系统S=(UAVf),A=CD,BC,则H(D|C)H(D|B).证明证明 因为BC,则由定义 6 和引理 1 得,对xiU,有MOSB(x)MOSC(x),TC(xi)TB(xi).即有MOSB(x)TD(xi)MOSC(x)TD(xi),TD(xi)TC(xi)TD(xi)TB(xi),则有|TC(xi)|TB(xi)|,|MOSB(x)TD(xi)|MOSC(x)TD(xi)|,|TD(xi)TC(xi)|TD(xi)TB(xi)|.从而有|MOSB(x)TD(xi)|U|MOSC(x)TD(xi)|U|,|TB(xi)|-|
24、TC(xi)|-|TD(xi)TB(xi)|-|TD(xi)TC(xi)|=|TB(xi)|-|TC(xi)|-|TD(xi)TB(xi)-TC(xi)|0.则有1-|MOSC(x)TD(xi)|U|1-|MOSB(x)TD(xi)|U|,|TC(xi)|-|TD(xi)TC(xi)|U|2|TB(xi)|-|TD(xi)TB(xi)|U|2,即(1-|MOSC(x)TD(xi)|U|)|TC(xi)|-|TD(xi)TC(xi)|U|2(1-|MOSB(x)TD(xi)|U|)|TB(xi)|-|TD(xi)TB(xi)|U|2.所以有H(D|C)H(D|B),证毕.定理定理 2 给定一个不
25、完备信息系统S=(UAVf),其中U=x1x2x|U|,A=CD,PC,QC,如果xiU,TP(xi)=TQ(xi),MOSP(xi)=MOSQ(xi),则有H(D|P)=H(D|Q).证明证明 如果xiU,TP(xi)=TQ(xi),MOSP(xi)=MOSQ(xi),则有MOSP(xi)TD(xi)=MOSQ(xi)TD(xi),TP(xi)TD(xi)=TQ(xi)TD(xi),212023年闽南师范大学学报(自然科学版)即|TP(xi)|-|TD(xi)TP(xi)|U|2=|TQ(xi)|-|TD(xi)TQ(xi)|U|2,|MOSP(x)TD(xi)|U|=|MOSQ(x)TD(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 条件 协调 完备 信息系统 属性
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。