6聚类分析实习.doc

上传人：w****g

文档编号：3142192

上传时间：2024-06-19

格式：DOC

页数：22

大小：364KB

下载积分：10 金币

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

10 金币

下载 开通VIP

还剩页未读，继续阅读

举报
申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：
如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

特殊限制：
部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。

关键词：
聚类分析实习

资源描述：

聚类分析实习一、实验目的 1）熟悉聚类分析中Q型和R型的区别，掌握SPSS软件中实现聚类分析的过程和参数选择。 2）结合专业背景知识解释聚类结果。二、实验原理 1．聚类分析是研究“物以类聚”的一种科学有效方法，人们在认识世界的过程中，需要把某些方面相似的东西归成类，以便从中发现规律性，寻找其中共同与不同的特征。聚类分析的主要思想是：根据事物本身的特性研究个体的分类，原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。 2．聚类分析的实质是建立一种分类方法，它能将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类，这里的类就是一个具有相似性的个体的集合，不同类之间具有明显的区别。 3..聚类分析是一种探索性的分析，在分类过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类，因此聚类分析不需要建模。 4.在地质研究领域，由于地质对象的复杂性，单靠定性标志或少量定量标志进行分类，常常不能揭示客观事物内在的本质差别和联系。很多分类常具有很大的主观性和任意性，分类常常不能反映客观实际，分类方案又经常因人而异，因此，多元统计分析中对客观事物进行分类的聚类方法已在地质研究中取得日益广泛的应用。 5.在具体进行聚类分析时，出于不同的目的和要求，可能选择不同的统计量和聚类方法，因此可出现不同的聚类结果。三、相似性统计指标聚类分析可以分为R型和Q型，对m个变量进行分类的方法，称为R型聚类法，常用的统计量称为“相关系数”；对n个样品进行分类的方法称为Q型聚类法，常用的统计量称为“距离”。怎样衡量样品或者变量之间的相似性大小？假定有N个样品，每个样品有P变量来描述，可测的一个数组，以矩阵X表示：比较N个样品间相似性的Q型聚类分析，实际上是矩阵X的N列数据之间相似性对比；同理，p个变量之间的相似性的R型分析，是矩阵X的p行之间的比较。矩阵X中任意两个样品或两个变量之间的相似性，表现在以下三个基本方面： ①描述两个样品或变量的两列或两行对应元素接近的程度 ②两列或两行对应元素成比例的程度 ③两列或两行对应元素消长关系的密切程度因此，用于表示相似性的统计指标通常有距离系数、相似系数及相关系数三种。（一）距离系数（dik）常用于Q型聚类分析，每个样品视为p维空间中的一点，dik相当于p维空间中两点之间的距离，既两样品点接近的程度。聚类时聚类相近的样本属于一个类，聚类远的样本属于不同的类。常用的方法有：欧氏距离(Euclidean）：欧氏距离平方(Squared Euclidean)： Chebychev: max|xi-yi| Block(绝对距离): Σ|xi-yi| Minkowski： Customized距离(用户自定义距离)：类Gp与类Gq之间的距离Dpq: (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离) 最短距离法: 最长距离法: 重心法: 类平均法: 离差平方和法。 dik越小，两样品越相似，即 X矩阵中第i列与第k列对应的元素越接近。用距离系数时，如果变量之间相关性大时，相关性越大，dik越不可靠。因此，若变量不独立时，进行Q型聚类前可先进行R型因子分析，把变量变为互不相关的新变量（用因子得分去代替原始变量），再求距离系数—主因子距离系数。（二）相似性系数常用于Q型聚类分析，是把第i、k样品看成p维空间中的两向量，两个样品之间的相似程度可由其向量间夹角的余弦来表示，公式为：式中：i、k＝1，2，…,N（i≠k）为样品号，j＝1，2，…，p为变量号。（三）相关系数多用于R型聚类分析以表示研究对象之间的相关性，其公式为：式中：t、j＝1，2，…,p（t≠j）为变量号;i＝1，2，…，n为样品号。r的取值范围是＋1与－1之间，|r|值越大表示两变量之间关系越密；｜r|值越小表示关系越不密切注意：在应用上述所有相似性统计指标计算时，由于测定样品的各种特征所用的量纲及各种标志值的变化幅度可能不同。为了避免过分突出那些绝对值较大的变量在分类中的作用，在进行聚类分析之前，需要对原始数据进行处理，应对数据进行标准化或正规化变化。四、聚类方法层次聚类法、K-均值聚类法(快速聚类法)。（一）层次聚类法：基本思想是：先将要归类的n个样品（或者变量）各自看成一类，共有n类；然后按照事先规定好的方法计算分类统计量，即某种距离或某种相似系数，将关系最密切的两类并为一类，其余不变，即得n-1类；又按前面使用的计算新类与其它类的距离或者相似系数，又将关系最密切的两类并成一类，其余不变，即得n-2类；如此进行下去，每次重复都减少一类，直到最后所有样品（或者变量）归为一类为止。显然，越是后来合并的类，距离就越远。最后再利用一些相应的指标来确定聚为几类的结果是最为合适的。（二）快速聚类法 (K-均值聚类法)：类别个数需要在分析前就加以确定，整个分析过程使用迭代的方式进行，首先起步于一个初始的分类，然后通过不断的迭代把数据在不同类别之间移动，直到最后达到一定的标准为止，整个计算过程中不需要存储基本数据或者距离矩阵，因此不会出现多个互相嵌套的聚类结果，而计算速度也要快得多。快速聚类法先对数据进行初始分类，然后逐步调整，得到最终分类。计算过程如下： ①首先需要用户指定聚类成多少类(比如k类) ②然后对数据进行初始分类，即确定k个类的初始类中心点。SPSS会根据样本数据的实际情况，选择k个有代表性的样本作为初始类中心点。如果用户的经验比较丰富，初始类中心点也可以由用户自行指定，需要指定k组样本数据作为初始类中心点。 ③计算所有样本数据点到k个类中心点的欧氏距离，按照距离最短原则，把所有样本分配到各中心点所在的类中，选出一个新的k类，完成一次迭代过程。 ④重新确定k个类的中心点。计算每个类中各个变量的变量值平均数，并以此均值点作为新的类中心点。重复上面两步计算过程，直到达到指定的迭代次数或终止迭代的判别要求为止。五、SPSS实现聚类分析过程参数说明（一）层次聚类分析中的Q型聚类【例】对一个班10位学生的数学水平进行聚类，数据见下表：在菜单中选择层次聚类如下图：在弹出的对话框中作如下选择：这里选择‘姓名’变量作为标签变量将增强聚类分析结果的可读性。 l 点击‘统计量’按钮，见如下对话框：本例选择如图所示。 ‘凝聚状态表’项，将输出层次聚类分析的凝聚状态表。 ‘近似性矩阵’项，将显示各样本的距离矩阵。 ‘聚类成员’框中： ‘无’：不显示类成员构成。 ‘单解’：其后的‘聚类数目’中的数值n表示仅显示聚类成n类时，各个类的成员。 ‘解的范围’：指定显示聚类成n1类到n2类时，各个类的成员。 l 点击‘绘图’按钮，得到如下对话框：本例选择如图。 SPSS层次聚类的图形结果有两种方式输出树形图（Dendrogram）树形图以树的形式展现聚类分析的每一次合并过程，SPSS首先将各类之间的距离重新转换到 0～25之间，然后再近似地表示在图上。树形图可以粗略地表现聚类的过程。选中‘系统树形图’项，即可输出树形图。输出冰柱图（Icicle）冰柱图通过表格中的“X”符号显示，其样子很像冬天房屋下的冰柱。SPSS默认输出聚类全过程的冰柱图(所有聚类)。选择‘指定聚类范围’项，并输入从第几类开始显示 (Start:)，到第几类结束显示(Stop)，中间几个几类(By:），则可以指定显示聚类中某一阶段的冰柱图。如果选择None则不输出冰柱图。 l 点击‘方法’按钮，得到如下对话框：本例选择如图。 ‘聚类方法’下拉框中指定的是小类之间的距离计算方法。SPSS提供了7种方法供用户选择: 1 Between-groupslinkage:类间平均链锁法。 2 Within-groupslinkage:类内平均链锁法。 3 Nearestneighbor:最近距离法。 4 Funhestneighbor:最远距离法。 5 Centroidclusting:重心法。 6 Medianclustering:中间距离法。 7 Ward's method:离差平方和法。 SPSS默认的是类间平均链锁法。在‘测量’框中选择计算样本距离的方法，选项如下： ‘间距’适合于连续性变量，系统提供8种方法供用户选择 1 Euclidean distance，欧氏距离。 2 Squared Euclidean distance(系统默认方式)，欧氏距离平方。 3 Cosine:变量矢量的余弦，这是模型相似性的度量。 4 Pearson correlation:相关系数距离，适用于R型聚类。 5 Chebychev，Chebychev距离。 6 Block:City-Block或Manhattan距离。 7 Minkowski，Minkowski距离。 8 Customized, 用户自定义距离。 ‘计数’适合于顺序或名义变量，系统提供两种选择方式： 1 Chi-square measure，SPSS默认方式。 2 Phi-square measufe，这是φ2统计量。 ‘二值’适用于二值变量，系统提供多种选择方式，默认的是二元欧氏距离平方。 l 点击‘保存’按钮，得到如下对话框：本例选择如图。该对话框中将SPSS层次聚类分析的最终结果以变量的形式保存到SPSS数据编辑窗口中。输出结果：层次聚类分析的概要结果：可见，10个样本全部参与了聚类。下表为各样本的距离矩阵：从该表可以看出各个样本之间的距离。凝聚状态表：上表中共有七列，第一列表示聚类分析的步骤，本例共进行了9个步骤的分析。第二列、第三列表示某步聚类分析中，哪两个样本或类聚成了一类。第四列表示该步聚类的两个样本或类间的距离。第五列、第六列表示该步聚类分析中，参与聚类的是样本还是类，0表示参与聚类的是样本，非零数字n表示参与聚类的是第n步聚类所产生的类。第七列表示本步聚类结果将在下面聚类的第几步中用到。下表为层次聚类分析聚成3个类时，样本的类归属表：冰柱图：图中第一列表示类的数目。观察时一般从最后一行开始。最后一行中，类的数目为9，即样本聚成了9类，其中样本5和样本8用■连接在了一起，表示两个样本聚成一类，其余每个样本构成一类。倒数第二行中，类的数目为8，即样本聚成了8类，其中样本1和样本10聚成一类。树形图： * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 王五 5 òø 陈八 8 òôòòòø 张三 3 ò÷ ùòòòòòòòòòòòòòòòòòòòø 吴二 2 òòòûòú ó 韩七 7 òòò÷ ó ùòòòòòòòòòòòòòòòòòòòòòòòø 李四 4 òòòòò÷ ó ó 周大 1 òûòòòòòòòòòòòòòòòòòòòòòòò÷ ó 钱十 10 ò÷ ó 赵六 6 òòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 魏九 9 òòò÷ 聚类成3类时，各个样本的类归属情况保存为一个变量：（二）层次聚类分析中的R型聚类【例】对一个班同学的各科成绩进行聚类，数据如下：各参数设置如下：输出结果： * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 语文 3 òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 政治 4 ò÷ ó 数学 1 òòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 物理 2 òòò÷ （三）快速聚类【例】对一个班10位学生的数学水平进行快速聚类，数据见下表：各参数设置如下：在上表的‘方法’框中，选择类中心点的确定方法。有两种确定方法： Iterate and classify(迭代和聚类)：先定初始类中心点，然后按k-均值计算作迭代分类。 Classify only(仅仅聚类)：仅按初始类中心点分类，仅作一次迭代计算。点击Iterate(迭代)按钮，打开如下对话框：该对话框用于确定快速聚类分析的迭代终止条件。 Maximum Iterations(最大迭代次数)框：指定最大的迭代次数，迭代达到该次数时，终止聚类分析过程。SPSS默认为10次。 Convergence Criterion(收敛准则)框：为迭代的距离收敛标准。当新一次迭代形成的若干个类中心点和上次的类中心点间的最大距离小于该指定值时，终止聚类分析过程。SPSS默认值为0。 Use running means(使用运行中的平均值)：选中该项，表示每当一个样本分配到一类后，重新计算新的类中心点，快速距离分析的类中心点将与样本进入的先后顺序有关；不选中该项，则完成所有样本依次类分配后计算各类中心点，这种方式可以节省运算时间，尤其是样本容量较大的时候。点击Save(保存)按钮，打开如下对话框：该对话框可以指定将SPSS快速聚类分析的结果以变量的形式保存到SPSS的数据编辑窗口中。 Cluster membership(聚类成员)：表示将所有样本所属类的类号保存到变量QCL_1中。 Distance from cluter center(从聚类中心的距离)：表示将所有样本距所属类中心点的欧氏距离保存到变量QCL_2中。点击Options(选项)按钮，打开如下对话框：该对话框可以选择输出其他哪些聚类分析的结果，并指定对缺失数据的处理方法。输出结果： SPSS指定的初始类中心点：快速聚类分析的迭代历史过程表：可见总共进行了两次迭代。其中的数值为每次迭代后形成的类中心点与前次类中心点的距离。快速聚类分析后的各个类包含样本的情况：最终的类中心点位置：最终的类中心点之间的距离：快速聚类分析后形成的各类样本之间的单因素方差分析结果：由上表可见，对于变量‘入学数学’，它的平均组间平方和为781.533，平均组内平方和为27.619，F统计量为28.297，F统计量的相伴概率小于显著性水平0.01，因此认为，对该变量3个类的成绩之间存在显著差异。对于‘复试’变量，它的平均组间平方和为744.133，平均组内平方和为26.548，F统计量为28.030，F统计量的相伴概率小于显著性水平0.01，因此认为，对该变量3个类的成绩之间存在显著差异。因此从3个类的单因素方差分析看，将样本分成3个类的快速聚类分析是成功的，聚类效果比较理想。三个类中分别包含的样本个数：两个新变量，分别表示样本所属类及样本和类中心点的距离：下表是前面用层次聚类分析聚类成3类时的情形，可以比较一下两种方法的聚类结果：五、聚类分析方法作业现有某矿床围岩测试分析数据见下表，应用SPSS统计软件对数据进行：①层次聚类分析处理；②快速聚类分析处理。并解释其地质意义。编号岩石类型矿化情况含量（%） Ni Co Cu Cr S As 1 蛇纹岩 a组矿化 3.28 2.44 2.2 3.07 3.91 0.6 2 蛇纹岩无矿化 3.37 1.9 0.78 3.5 2.77 1.15 3 蛇纹岩无矿化 2.87 1.41 0 2.92 2.63 0.48 4 滑镁岩 b组矿化 3.44 2.44 2.18 3.38 3.92 1.57 5 滑镁岩无矿化 3.25 1.97 1.11 3.5 1.73 0 6 滑镁岩无矿化 2.02 1.64 0.78 3.32 2.02 0.6

展开阅读全文

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

关于本文

本文标题：6聚类分析实习.doc
链接地址：https://www.zixin.com.cn/doc/3142192.html

w****g

内容提供者实名认证

平台协调中心【客服】

相似文档自信AI助手

水浒传的人物介绍.ppt
前厅部服务明星评选活动方案.doc
热风循环烘箱URS.doc
市县级国家综合档案馆测评办法.doc
岩土工程勘察文件审查要点中华人民共和国住房和城乡建设部.doc
3月三级网络技术上机讲义和南开100题.doc
药品GMP日常检查及突发检查应急预案管理流程.doc
长三角地区深化推进国家社会信用体系建设区域合作上海发改委.doc
折弯工作吨位.doc

搜索标签自信AI导航

聚类分析 实习