合理进行多元分析——变量聚类分析.pdf
《合理进行多元分析——变量聚类分析.pdf》由会员分享,可在线阅读,更多相关《合理进行多元分析——变量聚类分析.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 年第 36 卷第 S1期四川精神卫生http:/合理进行多元分析变量聚类分析胡纯严1,胡良平1,2*(1.军事科学院研究生院,北京 100850;2.世界中医药学会联合会临床科研统计学专业委员会,北京 100029*通信作者:胡良平,E-mail:)【摘要】本文目的是介绍与变量聚类分析有关的基本概念、计算方法、两个实例以及SAS实现。基本概念包括变量聚类分析、相似系数、变量聚类方法、类成分和类结构;计算方法涉及相似系数法计算过程和特征值法计算过程;两个实例涉及的资料分别是“60名正常男性10项指标的测定结果”和“36只兔子的7项指标测定结果”;借助SAS对两个实例中的定量资料进行了全
2、面的变量聚类分析,并对输出结果给出了解释。【关键词】聚类统计量;聚类分析;相似系数;类成分;类结构中图分类号:R195.1 文献标识码:A doi:10.11886/scjsws20230605003 Reasonably carry out multivariate analysis:variable clustering analysisHu Chunyan1,Hu Liangping1,2*(1.Graduate School,Academy of Military Sciences PLA China,Beijing 100850,China;2.Specialty Committee
3、 of Clinical Scientific Research Statistics of World Federation of Chinese Medicine Societies,Beijing 100029,China*Corresponding author:Hu Liangping,E-mail:)【Abstract】The purpose of this article was to introduce the basic concepts,calculation methods,two examples and SAS implementation related to th
4、e variable cluster analysis.Basic concepts included variable cluster analysis,similarity coefficient,variable clustering methods,class composition and class structure.The calculation approaches involved the calculation process of the similarity coefficient method and the eigenvalue method.The data i
5、nvolved in the two examples were measurement results of 10 related indicators in 60 normal males and measurement results of 7 indicators in 36 rabbits.With the help of SAS software,a comprehensive variable cluster analysis was carried out on the quantitative data in the two cases,and a reasonable ex
6、planation was given for the output results.【Keywords】Cluster statistic;Cluster analysis;Similarity coefficient;Class component;Class structure在医学研究等众多科学研究中,由于研究问题的复杂性,研究者往往需要观测很多定量指标的数值,以便对事物或现象的本质及其隐含的规律进行深入的了解和把握。面对多项定量指标,研究者常需要将它们分成不同的类,希望被聚在同一类中的变量具有某些相同的特性。本文将介绍多种变量聚类方法,并结合实例对聚类结果做出解释。1 基本概念 1.
7、1变量聚类分析变量聚类分析是“物以类聚”的一种统计分析方法,用于对事物类别及其类别的数量尚不清楚的情况下进行分类的场合1-2。具体地说,就是依据某种原理或规则,将全部变量划分成几类,分入同一类的变量被认为是彼此最密切或最接近的。1.2相似系数变量聚类分析实质上是寻找一种能客观反映变量之间亲疏关系的统计量,然后根据这种统计量把变量分成若干类。变量聚类统计量通常以相似系数表示。相似系数有多种定义,反映定量变量之间密切程度的相似系数有相关系数和夹角余弦3;文献4提出将相关系数作如下调整,见式(1)和式(2)。Cij=|rij|(1)Cij=1+rij(2)在式(1)和式(2)中,rij为第i个与第j
8、个变量之间的Pearson相关系数。对于同一个资料而言,基于式(1)与式(2)聚类的结果可能不一样。相似系数定义式的选择,取决于聚类结果能否在专业上做出解释。61四川精神卫生 2023 年第 36 卷第 S1期http:/1.3变量聚类方法从形式上来看,变量聚类方法大致可分为系统聚类法、分解法和动态聚类法。系统聚类法:首先将n个元素(样品或变量)看成n类,然后将性质最接近(或相似程度最大)的两类合并为一个新类,得到n1类,再从中找出最接近的两类加以合并,变成了n2类,如此下去,最后所有的元素全聚在一类之中。分解法:其程序与系统聚类相反,首先所有的元素均在一类,然后用某种最优准则将它们分为两类,
9、再用同样准则将这两类各自分为两类,从中选1个使目标函数最符合要求者,这样由两类变成了三类。如此下去,一直分裂到每类中只有1个元素为止,有时即使是同一种聚类方法,因聚类形式(距离或相似度的定义方法)不同而有不同的停止规则。动态聚类法:首先将n个元素大致分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至无法调整为止。从计算角度来看,变量聚类方法大致可分为相似系数法和特征值法。相似系数法:首先把每个变量视为一类,基于选定的相似系数定义式,计算出任意两类变量之间的相似系数值,将最大相似系数值对应的两类合并成一类,这样,类的个数就减少了一个。依此类推,直到所有变量都聚成一类时为止。特征值法:
10、首先把全部 m 个变量视为一类,基于相关矩阵计算其特征值和特征向量。若第一特征值除以m所得的贡献率大于事先设定的停止分裂的标准,则表明全部变量属于同一类,停止分裂;反之,需要继续分裂,此时,需要把一类划分成两类。依此类推,直到所有子类都不需要继续分裂时为止。SAS/STAT中的varclus过程采取的是特征值法。1.4类成分基于一个变量集合构造出相关矩阵或协方差矩阵(简称矩阵),求出矩阵的第一特征值及其特征向量,将k个原变量与特征向量的k个元素对应相乘并求和,见式(3)。Z=v1x1+vkxk(3)式(3)中,“Z”被称为“类成分”,它实际上就是第一主成分。显然,类成分也可以是第二主成分、第三
11、主成分1.5类结构若用语言表达前文的式(3),即Z是原变量或标准化变量的线性组合。同理,可以写出类成分的线性组合,见式(4)。xi=ci1Z1+cikZk(4)式(4)中,xi代表第i个原变量或标准化变量;cik代表与第i个类变量对应的系数。2 计算方法 2.1相似系数法计算过程选定相似系数定义式,计算任意两个变量之间的相似系数值,将具有最大相似系数的两个或多个变量聚成一类,这样,类数至少会减一。并类原则是选最相似的两类合为一类,若最相似的有多类,则把它们同时合为一类。未并类间的相似性不作改变,但要重新计算新类与其他未并类之间的相似性,之后再按以上做法并类,并类一次,至少减少一类。直到所有变量
12、合并成一个大类为止。在上述的聚类过程中,最关键的问题在于如何计算“变量(特指1个变量)”与“类(至少包含2个变量)”之间的相似系数、“类”与“类”之间的相似系数。这涉及“最小相似系数法”“最大相似系数法”和“折中法或平均法”。因篇幅所限,详见文献 4。2.2特征值法计算过程SAS/STAT 中 varclus 过程的算法既具有分裂性,又具有迭代性。默认情况下,proc varclus 以单个类中的所有变量开始。然后重复以下步骤:选择一个类进行拆分。根据指定的选项,选定的类具有由其类成分解释的最小变化百分比(使用比例=选项)或与第二个主成分相关的最大特征值(使用maxeigen=选项)。通过找到
13、前两个主成分,执行正交旋转(特征向量上的原始四次最大旋转5),并将每个变量分配给与其具有较高平方相关性的旋转成分,将所选类拆分为两个类。将变量迭代地重新分配给类,以最大化类成分所占的方差。用户可以要求重新分配算法来维护类的层次结构。当满足以下任一条件时,该过程将停止拆分:类的数量大于或等于由maxclusters=选项指定的最大类数量;每个类都满足由proportion=选项(解释的变异百分比)或maxeigen=选项(第二特征值)或两者指定的停止标准。默认情况下,当每个类只有一个大于1的特征值时,varclus过程停止分裂,从而满足确定单个底层维度的充分性的最流行标准。变量到类的迭代重新分配
14、分两个阶段进行。622023 年第 36 卷第 S1期四川精神卫生http:/第一阶段是最近邻成分排序(NCS)阶段,原理上类似于Anderberg6描述的最近邻质心排序算法。在每次迭代中,计算类成分,并将每个变量分配给与其具有最高平方相关性的成分。第二阶段是搜索阶段,涉及搜索算法,检验每个变量,了解将其分配给不同的类是否会增加解释的方差。如果在搜索阶段重新分配了一个变量,那么在检验下一个变量之前,将重新计算所涉及的两个类成分。NCS阶段比搜索阶段快得多,但更有可能被局部最优捕获。如果使用主成分,NCS阶段则是一种交替最小二乘法,并且收敛迅速。对于大量变量来说,搜索阶段可能非常耗时。但是,如果
15、使用默认的初始化方法,搜索阶段很少能够显著改善 NCS 阶段的结果,因此,搜索需要很少的迭代。如果使用随机初始化,则NCS阶段可能被局部最优捕获,搜索阶段可以从该局部最优中逃脱。如果使用质心成分,NCS阶段则不是交替最小二乘法,并且可能不会增加所解释的方差;因此,默认情况下,它被限制为一次迭代。用户可以让varclus过程通过限制变量的重新分配来进行分层聚类,从而使类保持树结构。在这种情况下,当一个类被拆分时,两个结果类中的一个类中的变量可以重新分配给拆分后的另一个类,但不能重新分配给不属于原始类(被拆分的类)的类。3 实例与SAS实现 3.1问题与数据结构3.1.1两个实际问题及数据【例1】
16、为研究人脑老化的严重程度,某研究者测定了60名不同年龄的正常男性10项指标,包括年龄、图片记忆、数字广度记忆、图形顺序记忆、心算位数、心算时间、规定时间内穿孔数、步距、步行时双下肢夹角、步速,测定结果见表17。试对这些指标作变量聚类分析。【例2】某研究测定了36只兔子的7项指标,包括尿钠浓度(mmoL/L)、渗透清除率(mL/min)、尿钠排 出 量(mmoL/min)、尿 量(mL/min)、尿 渗 透 压mOsm/(kgH2O)、尿与血浆渗透压之比、游离水清除率(mL/min)。欲通过聚类分析,减少指标以节省人力物力。7 项指标两两之间的相关系数见表23。3.1.2对数据结构的分析例1中,
17、研究者测定了60名不同年龄的正常男性10项指标,故这是一个单组设计10元定量资料。例2中,研究者测定了36只兔子7项定量指标的取值,故这是一个单组设计7元定量资料。3.1.3创建SAS数据集分析例 1 资料,设所需要的 SAS 数据步程序如下:表160名正常男性10项指标的测定结果Table 1Measurement results of 10 indicators in 60 normal males编号125960年龄16187879图片记忆1712913数字广度记忆9875图形顺序记忆141441心算位数5.143.578.209.50心算时间4520规定时间内穿孔数91146步距544
18、61338步行时双下肢夹角35.3230.669.4425.53步速3.923.308.913.24表27项指标之间的相关系数矩阵Table 2Correlation coefficients matrix among 7 indicators指标X1X2X3X4X5X6X7X110.9360.9950.9740.6100.4400.705X210.8960.9770.4900.3670.890X310.9490.6210.4410.640X410.6120.4770.773X510.7490.150X610.715X71注:X1为尿钠浓度;X2为渗透清除率;X3为尿钠排出量;X4为尿量;X5
19、为尿渗透压;X6为尿与血浆渗透压之比;X7为游离水清除率63四川精神卫生 2023 年第 36 卷第 S1期http:/data a1;infile c:saspalllhyj.dat;input age tj sg ts xx xs ck bj jj bs;run;【SAS 程序说明】infile 语句的含义是打开 c 盘saspal文件夹中数据文件llhyj.dat,通过下面的input语句读取10个定量变量的数值。数据文件llhyj.dat中包含表1中60行10列数据,以文本格式存储,数据的第一行没有变量名。分析例2资料,设所需SAS数据步程序如下:data a2(type=corr);
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 合理 进行 多元 分析 变量 聚类分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。