合理进行多元分析——定性资料对应分析和Shannon信息量分析.pdf
《合理进行多元分析——定性资料对应分析和Shannon信息量分析.pdf》由会员分享,可在线阅读,更多相关《合理进行多元分析——定性资料对应分析和Shannon信息量分析.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 年第 36 卷第 S1期四川精神卫生http:/合理进行多元分析定性资料对应分析和Shannon信息量分析胡纯严1,胡良平1,2*(1.军事科学院研究生院,北京 100850;2.世界中医药学会联合会临床科研统计学专业委员会,北京 100029*通信作者:胡良平,E-mail:)【摘要】本文目的是介绍与定性资料对应分析和Shannon信息量分析有关的基本概念、计算方法、两个实例以及SAS实现。基本概念包括列联表与 Burt表、边缘概率、行剖面与列剖面、信息和信息量、熵;计算方法涉及定性资料对应分析和Shannon信息量分析;两个实例分别为“某医院3年间不同季节4种甲状腺疾病的检出情况
2、”和“不同专业学生的4种气质类型分布”;借助SAS软件,对两个实例中的数据分别进行了定性资料对应分析和Shannon信息量分析,并对SAS输出结果做出了解释。【关键词】列联表;边缘概率;行剖面;信息量;信息熵中图分类号:R195.1 文献标识码:A doi:10.11886/scjsws20230726002 Reasonably carry out multivariate analysis:qualitative data correspondence analysis and Shannon information quantity analysisHu Chunyan1,Hu Lian
3、gping1,2*(1.Graduate School,Academy of Military Sciences PLA China,Beijing 100850,China;2.Specialty Committee of Clinical Scientific Research Statistics of World Federation of Chinese Medicine Societies,Beijing 100029,China*Corresponding author:Hu Liangping,E-mail:)【Abstract】The purpose of this arti
4、cle was to introduce the basic concepts,calculation methods,two examples and SAS implementation related to the qualitative data correspondence analysis and Shannon information quantity analysis.Basic concepts included contingency table and Burt table,marginal probability,row profile and column profi
5、le,information and information volume,entropy.The calculation method involved the qualitative data correspondence analysis and Shannon information quantity analysis.The two examples were detection of 4 kinds of thyroid diseases in different seasons in a hospital in 3 years and distribution of 4 temp
6、erament types of students in different majors.With the help of SAS software,qualitative data correspondence analysis and Shannon information quantity analysis were carried out on the data in the two examples,and an explanation was made for the SAS output results.【Keywords】Contingency table;Marginal
7、probability;Row profile;Information volume;Information entropy二维列联表资料是一种最常见的定性资料,卡方检验是处理这种资料的最常见的统计分析方法。然而,卡方检验的结果不能明确回答两个属性变量各水平之间是否存在一定程度的关联性问题。本文介绍定性资料对应分析和Shannon信息量分析,这两种分析方法在一定程度上弥补了卡方检验的不足。此外,定性资料对应分析还可以用于分析Burt表资料,以一种简化的方式实现对高维列联表资料的分析。1 基本概念 1.1列联表与Burt表大样本定性资料通常以列联表的形式呈现。所谓列联表,就是将定性的原因和结果变
8、量分别放置在表格的左边和表头上,各行与各列分别代表定性变量的具体水平,而行与列交叉处则是相应位置上出现的频数。当列联表中只有2个定性变量时,就称为二维列联表;当列联表中有 k 个(k3)定性变量时,就称为高维列联表1。在高维列联表资料中,若将横向和纵向上的多个定性变量分别进行水平组合,形成一个复合型定性变量,此时,就将高维表转化成为二维表了。在统计学上,称此种列联表为Burt表2。1.2边缘概率在二维列联表中,分别求出各行与各列频数的合计,再求出总合计N。若分别用各行合计频数除79四川精神卫生 2023 年第 36 卷第 S1期http:/以N,就得到各行的频率,被称为行边缘概率;若分别用各列
9、合计频数除以N,就得到各列的频率,被称为列边缘概率3。1.3行剖面与列剖面在二维列联表中,设横向变量为A、纵向变量为B;又设A有n个水平、B有m个水平,若以各行上合计频数为分母,分别以各行上每个频数为分子,求出各行上m个相对数。第i(i=1,2,n)行上m个相对数构成的一个行向量,被称为一个“行剖面”;同理,可得到第j(j=1,2,m)列上n个相对数构成的一个列向量,被称为一个“列剖面”4。1.4信息和信息量早年的信息与消息是同义词,而现今人们通常把信息看作由语言、文字、图象表示的新闻、消息或情报。信息是人类认识世界、改造世界的知识源泉。人类社会发展的速度在一定程度上取决于人类对信息利用的水平
10、。信息、物质和能量被称为构成系统的三大要素。系统的状态往往具有多样性,例如生物多样性、环境多样性、人类社会活动的多样性等。信息是人们在认识多样性问题中所获得知识的反映,而知识总是与事物存在的多种状态及每个状态发生的可能性(随机性)有关。信息论中的信息是描述系统状态多样性丰富度的一个概念。信息量是指信息含量的多少,用来定量地描述信息。信息的获得与情况不确定度的减少相关。信息获得愈多,不确定度愈少;信息获得足够,不确定度为零5。1.5熵设X是一个离散随机变量,它有m个可能的取值,记作 a1,am,它们出现的概率分别为 p(a1),p(am)。于是,统计学家用下式来定义熵,见式(1)。H(X)=-j
11、=1mp()ajlog2p(aj)(1)在信息论中,统计学家采用式(1)来度量随机变量X的平均信息量。2 计算方法 2.1定性资料对应分析设拟分析的定性资料是一个二维列联表(包括标准的二维列联表和Burt表),则可以参照定量资料对应分析中的变量变换方法6-7,对表中的频数进行变换,基于变换后的数据构造矩阵Z,进而基于Z矩阵构造出两个协方差SR和SQ,分别对它们进行因子分析。在两次因子分析中,都取前两个公因子,以两个公因子为坐标轴,构成一个二维直角坐标系。可以证明,基于前述两个协方差矩阵导出的两个二维直角坐标系是重合的。于是,二维列联表横向上定性变量的各水平点(可视为“样品”点)与纵向上定性变量
12、的各水平点(可视为“变量”点)可以呈现在同一个二维直角坐标系内8-9。2.2Shannon信息量分析在热力学中,“熵”是系统无序度大小的度量。1948年,Shannon把熵的概念引入信息论中,他所定义的信息熵,实际上就是平均信息量。熵是系统的无序度的度量,而获得信息却使不确定度(熵)减少5。对于只取有限个状态的随机变量X=x1,x2,xn,形成了一个状态空间,其状态称为信息符号。信息符号xi出现的概率为Pi(i=1,2,n),即X的概率向量为P=(P1,P2,Pn)。包含信息符号出现概率的状态空间,称为信源,表示见式(2)。X,P 或X:x1,x2,.,xnp1,p2,.,pn(2)式(2)中
13、,Pi0,i=1nPi=1。可以证明,信息符号xi的信息量是其概率的单调递减函数f(Pi),见式(3)。f(Pi)=-logbPi(3)式(3)中,b的取值决定了信息量的单位,b=2,e,10,信息量的单位分别为bit(比特)、nat(奈特)和hart(哈特)。它们的换算关系见式(4)和式(5)。1 hart=3.32 bit(4)1 nat=1.44 bit(5)如何定义信源式(2)中的整个信息量?Shannon的定义为各信息符号信息量的平均信息量(即信息熵),用S(X)表示,见式(6)。S(X)=-i=1nPilogbPi(6)通常情况下,均以nat为单位,见式(7)。S(X)=-i=1n
14、PilnPi(7)由式(3)、式(6)和式(7)可以看出,Shannon 信息量仅与信源的概率向量P=(P1,P2,Pn)有关,而与信息符号的具体状态获取值无关。802023 年第 36 卷第 S1期四川精神卫生http:/3 实例与SAS实现 3.1问题与数据结构3.1.12个实际问题及数据【例1】某医院观察了3年间不同季节中4种甲状腺疾病的检出情况,结果见表15。试对此资料进行对应分析。【例2】某大学对计算机专业、金融专业、传媒专业各50名学生进行心理测试,并判断每名学生属于哪一种典型气质类型,结果见表25。试对此资料进行Shannon信息量分析。3.1.2对数据结构的分析例1中,甲状腺疾
15、病分类和季节是两个不同的属性变量,前者可以被称为原因变量,但后者不应被称为结果变量,它只是人们关注的一种情境。表中的数据是两个属性变量不同水平组合下的“人数”,这种表为二维列联表。例2中,专业和气质类型是两个不同的属性变量,前者可以被称为原因变量,后者可以被视为结果变量。表中的数据是两个属性变量不同水平组合下的“人数”,它也是一个二维列联表。3.1.3创建SAS数据集分析例1资料,设所需SAS数据步程序如下:data a1;input disease$C X Q D;cards;K 411 451 294 284 1440Y 249 329 331 204 1113L 60 61 59 52
16、232W 45 50 46 40 181;run;【SAS 程序说明】disease 代表“疾病类型”,K、Y、L、W分别代表“甲亢”“亚甲炎”“甲低”和“甲状腺瘤”;C、X、Q、D 分别代表“春”“夏”“秋”“冬”。每个属性变量的每个水平都用一个字母表示,代表两个属性变量各水平的字母不应重复,以便在二维图上呈现两个属性变量不同水平组合下的关联性。分析例 2 资料,设所需要的 SAS 数据步程序如下:%let nr=3;%let nc=5;data a1;do a=1 to&nr;do b=1 to&nc;input f;output;end;end;cards;16 13 7 1412 15
17、 10 1318 9 8 14;run;【SAS程序说明】首先利用宏变量“nr”和“nc”分别指定列联表中行变量和列变量的水平数。通过数据步建立原始sas数据集“a1”,利用doend循环语句和inputoutput语句,输入变量a、b、f,分别读入行变量、列变量、频数变量。3.2用SAS实现统计分析3.2.1分析例1的资料设所需要的SAS过程步程序如下2:proc corresp data=a1 OUTC=aaa;var C X Q D;表1某医院3年间不同季节4种甲状腺疾病的检出情况Table 1Detection of four thyroid disease in different
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 合理 进行 多元 分析 定性 资料 对应 Shannon 信息量
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。