6聚类分析实习.doc
《6聚类分析实习.doc》由会员分享,可在线阅读,更多相关《6聚类分析实习.doc(22页珍藏版)》请在咨信网上搜索。
1、聚类分析实习一、实验目的1)熟悉聚类分析中Q型和R型的区别,掌握SPSS软件中实现聚类分析的过程和参数选择。2)结合专业背景知识解释聚类结果。二、实验原理1聚类分析是研究“物以类聚”的一种科学有效方法,人们在认识世界的过程中,需要把某些方面相似的东西归成类,以便从中发现规律性,寻找其中共同与不同的特征。聚类分析的主要思想是:根据事物本身的特性研究个体的分类,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。2聚类分析的实质是建立一种分类方法,它能将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类,这里的类就是一个具有相似性的个体的集合,不同类之间具有明显的区别
2、。3.聚类分析是一种探索性的分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类,因此聚类分析不需要建模。4.在地质研究领域,由于地质对象的复杂性,单靠定性标志或少量定量标志进行分类,常常不能揭示客观事物内在的本质差别和联系。很多分类常具有很大的主观性和任意性,分类常常不能反映客观实际,分类方案又经常因人而异,因此,多元统计分析中对客观事物进行分类的聚类方法已在地质研究中取得日益广泛的应用。5.在具体进行聚类分析时,出于不同的目的和要求,可能选择不同的统计量和聚类方法,因此可出现不同的聚类结果。三、相似性统计指标 聚类分析可以分为R型和Q型,对m个变量进
3、行分类的方法,称为R型聚类法,常用的统计量称为“相关系数”;对n个样品进行分类的方法称为Q型聚类法,常用的统计量称为“距离”。怎样衡量样品或者变量之间的相似性大小?假定有N个样品,每个样品有P变量来描述,可测的一个数组,以矩阵X表示: 比较N个样品间相似性的Q型聚类分析,实际上是矩阵X的N列数据之间相似性对比;同理,p个变量之间的相似性的R型分析,是矩阵X的p行之间的比较。矩阵X中任意两个样品或两个变量之间的相似性,表现在以下三个基本方面:描述两个样品或变量的两列或两行对应元素接近的程度两列或两行对应元素成比例的程度两列或两行对应元素消长关系的密切程度因此,用于表示相似性的统计指标通常有距离系
4、数、相似系数及相关系数三种。(一)距离系数(dik)常用于Q型聚类分析,每个样品视为p维空间中的一点,dik相当于p维空间中两点之间的距离,既两样品点接近的程度。聚类时聚类相近的样本属于一个类,聚类远的样本属于不同的类。常用的方法有:欧氏距离(Euclidean):欧氏距离平方(Squared Euclidean):Chebychev: max|xi-yi|Block(绝对距离): |xi-yi|Minkowski:Customized距离(用户自定义距离):类Gp与类Gq之间的距离Dpq:(d(xi,xj)表示点xi Gp和xj Gq之间的距离)最短距离法:最长距离法:重心法:类平均法:离差
5、平方和法。dik越小,两样品越相似,即 X矩阵中第i列与第k列对应的元素越接近。用距离系数时,如果变量之间相关性大时,相关性越大,dik越不可靠。因此,若变量不独立时,进行Q型聚类前可先进行R型因子分析,把变量变为互不相关的新变量(用因子得分去代替原始变量),再求距离系数主因子距离系数。(二)相似性系数常用于Q型聚类分析,是把第i、k样品看成p维空间中的两向量,两个样品之间的相似程度可由其向量间夹角的余弦来表示,公式为:式中:i、k1,2,,N(ik)为样品号,j1,2,p为变量号。(三)相关系数多用于R型聚类分析以表示研究对象之间的相关性,其公式为: 式中:t、j1,2,,p(tj)为变量号
6、;i1,2,n为样品号。r的取值范围是1与1之间,|r|值越大表示两变量之间关系越密;r|值越小表示关系越不密切注意:在应用上述所有相似性统计指标计算时,由于测定样品的各种特征所用的量纲及各种标志值的变化幅度可能不同。为了避免过分突出那些绝对值较大的变量在分类中的作用,在进行聚类分析之前,需要对原始数据进行处理,应对数据进行标准化或正规化变化。四、聚类方法层次聚类法、K-均值聚类法(快速聚类法)。(一)层次聚类法:基本思想是:先将要归类的n个样品(或者变量)各自看成一类,共有n类;然后按照事先规定好的方法计算分类统计量,即某种距离或某种相似系数,将关系最密切的两类并为一类,其余不变,即得n-1
7、类;又按前面使用的计算新类与其它类的距离或者相似系数,又将关系最密切的两类并成一类,其余不变,即得n-2类;如此进行下去,每次重复都减少一类,直到最后所有样品(或者变量)归为一类为止。显然,越是后来合并的类,距离就越远。最后再利用一些相应的指标来确定聚为几类的结果是最为合适的。(二)快速聚类法 (K-均值聚类法):类别个数需要在分析前就加以确定,整个分析过程使用迭代的方式进行,首先起步于一个初始的分类,然后通过不断的迭代把数据在不同类别之间移动,直到最后达到一定的标准为止,整个计算过程中不需要存储基本数据或者距离矩阵,因此不会出现多个互相嵌套的聚类结果,而计算速度也要快得多。快速聚类法先对数据
8、进行初始分类,然后逐步调整,得到最终分类。计算过程如下:首先需要用户指定聚类成多少类(比如k类)然后对数据进行初始分类,即确定k个类的初始类中心点。SPSS会根据样本数据的实际情况,选择k个有代表性的样本作为初始类中心点。如果用户的经验比较丰富,初始类中心点也可以由用户自行指定,需要指定k组样本数据作为初始类中心点。计算所有样本数据点到k个类中心点的欧氏距离,按照距离最短原则,把所有样本分配到各中心点所在的类中,选出一个新的k类,完成一次迭代过程。重新确定k个类的中心点。计算每个类中各个变量的变量值平均数,并以此均值点作为新的类中心点。重复上面两步计算过程,直到达到指定的迭代次数或终止迭代的判
9、别要求为止。五、SPSS实现聚类分析过程参数说明(一)层次聚类分析中的Q型聚类【例】对一个班10位学生的数学水平进行聚类,数据见下表:在菜单中选择层次聚类如下图:在弹出的对话框中作如下选择:这里选择姓名变量作为标签变量将增强聚类分析结果的可读性。l 点击统计量按钮,见如下对话框:本例选择如图所示。凝聚状态表项,将输出层次聚类分析的凝聚状态表。近似性矩阵项,将显示各样本的距离矩阵。聚类成员框中:无:不显示类成员构成。单解:其后的聚类数目中的数值n表示仅显示聚类成n类时,各个类的成员。解的范围:指定显示聚类成n1类到n2类时,各个类的成员。l 点击绘图按钮,得到如下对话框:本例选择如图。SPSS层
10、次聚类的图形结果有两种方式输出树形图(Dendrogram) 树形图以树的形式展现聚类分析的每一次合并过程,SPSS首先将各类之间的距离重新转换到 025之间,然后再近似地表示在图上。树形图可以粗略地表现聚类的过程。选中系统树形图项,即可输出树形图。 输出冰柱图(Icicle)冰柱图通过表格中的“X”符号显示,其样子很像冬天房屋下的冰柱。SPSS默认输出聚类全过程的冰柱图(所有聚类)。选择指定聚类范围项,并输入从第几类开始显示 (Start:),到第几类结束显示(Stop),中间几个几类(By:),则可以指定显示聚类中某一阶段的冰柱图。如果选择None则不输出冰柱图。l 点击方法按钮,得到如下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 实习
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。