SPSS聚类分析详解.ppt
《SPSS聚类分析详解.ppt》由会员分享,可在线阅读,更多相关《SPSS聚类分析详解.ppt(82页珍藏版)》请在咨信网上搜索。
聚类分析 聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元素的集合。分类:1、系统聚类法-(分层聚类)系统聚类法是应用最广泛的一种 (Hierarchical Cluster过程)1)、聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为 一类。2)、分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类 (R型)。2、非系统聚类法-(快速聚类法-K-均值聚类法)(K-means Cluster)3、两步聚类法-一种探索性的聚类方法(TwoStep Cluster)1K-均值聚类分析K-means Cluster 又称为快速样本聚类法,是非系统聚类中最常用的聚类法。优点:是占内存少、计算量小、处理速度快,特别适合大样本的聚类分析。缺点:应用范围有限,要求用户制定分类数目(要告知),只能对观测量(样本)聚类,而不能对变量聚类,且所使用的聚类变量必须都是连续性变量。2基本原理具体做法1、按照指定的分类数目n,按某种方法选择某些观测量,设为Z1,Z2,Zn,作为初始聚心。2、计算每个观测量到各个聚心的欧氏距离。即 按就近原则将每个观测量选入一个类中,然后计算各个类的中心位置,即均值,作为新的聚心。3、使用计算出来的新聚心重新进行分类,分类完毕后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时,或者到达迭代次数的上限时,停止迭代。34数据标准化处理:5存储中间过程数据6数据标准化处理,并存储。78指定5类9收敛标准值10存储最终结果输出情况,在数据文件中(QCL-1、QCL-2)11初始聚心选项,输出方差分析表12初始聚类中心表13具体城市看后表最终聚类中心表14聚类结果:QCL-1说明聚类结果,QCL-2说明聚类的长度情况15系统聚类法Hierarchical Cluster系统聚类法优点:既可以对观测量(样品)也可对变量进行聚类,既可以连续变量也可以是分类变量,提供的距离计算方法和结果显示方法也很丰富。16应用实例某电冰箱厂开发某一新产品,在投放市场前希望对以往经销的国内6个地区征集对新产品的评价,若对新产品的评价指标有三项:式样、性能、颜色,评价的调整表采用10分制,调查结果的数据如下表 1 2 3 4 5 6 性能 9 1 10 9 2 8 颜色 8 2 7 9 4 6 式样 7 2 8 3 5 7 地区(样品)指标用分类法对6个样品进行分类,以估计哪些地区最有可能经销这类新产品?17按公式计算两两样品间的相似系数,得相似矩阵 1 2 3 4 5 6 123456Q=按四条原则进行分类18作聚类分析图X3X6X1X4X2X510.9940.9550.9940.93319一、问题提出聚类分析对一批样品或指标进行分类的一种统 计方法。具体处理方法:(思路)1、具体研究的分类对象:样品或指标2、方法:把“性质相似”或“相互关系密切”的样品或指标聚在一起。3、步骤:1)首先给出度量“相似”或“关系密切”的统计指标 202)形成一个由小到大的分析系统。3)把整个分类系统画成一张分类图(3)相关系数(4)关联系数 指标:(1)统计指标是相似系数。根据相似性归为一类,否则为另一类。(2)统计指标是样品(空间的点)之间的距离 将距离近的点归成一类,否则为另一类。21二、聚类统计量首先定义一些分类统计指标 刻画样或指标之间的相似程度(这些统计指标称为聚类统计量)在市场研究中,样品 用作分类的事物 指标 用来作为分类依据的变量。(如:年龄、收入、销售量)(一)相似系数(夹角余弦)一般式:假定每个样品包含有P项指标,若有几个样品的调查数据每一个样品都可看成P维空间中的一个向量22对于任意两个样品Xi和Xj的相似程度可用这两个向量之间的夹角余弦 来表示:Xi和Xj相重合时,夹角相似程度为Xi和Xj相互垂直时,相似程度为相似密切解析几何知识:相似系数其中:23如果把上述n个样品的任何两个样品的相似系数都计算出来并排列成一个矩阵:根据算出的,就可对n个样品进行聚类24用相似系数作为聚类统计量时的分类方法1、分类原则:(1)若选出一对样品,在已分好的类中未出现,则形成一个独立新类。(2)若选出两个样品中,有一个是在已分好的类中出现过,则把另一个样品也加入到该类中去。(3)若选出一对样品,都分别出现已经分好的两类中,则把这两个类联结在一起。(4)若选出的一对样品都出现在同一组中,则这对样品就不用再分组了。按上述四条原则反复进行,直到把所有样品都分类完毕,最后以分类图形式表示252、分类方法例:设有7个样品,每个样品测得P个指标,数据如表 X1 X2 X3 X4 X5 X6 X7样品指标26要求对此7个样品进行聚类,采用的聚类统计量是相似系数(夹角余弦)首先计算所有的两个样品间的相似系数27 1 2 3 4 5 6 71234567Q=按矩阵中的数值对7个样品(按四个原则)进行聚类28 1 2 3 4 5 6 71234567Q=顺序 连结样品 相似系数123456 X1 X5 0.97 X1 X5 X3 0.94 X2 X4 0.91 X2 X4 X6 0.67 X1 X5 X3 X2 X4 X6 0.51 X1 X5 X3 X7 0.24 X2 X4 X6按矩阵中的数值对7个样品(按四个原则)进行聚类1、记下Q中最大值q15=0.97,划去Q中的第5行第5列2、记下Q中剩余元素最大值q13=0.94,划去Q中的第3行第3列行29(3)记下Q中剩余元素最大值q24=0.91,划去Q中的第4行第4列(4)记下Q中剩余元素最大值q26=0.67,划去Q中的第6行第6列(5)记下Q中剩余元素最大值q12=0.51,划去Q中的第2行第2列(6)记下Q中剩余元素最大值q17=0.2430作聚类图:X1X5X3X2X4X6X70.970.940.910.670.510.24312)利用相关作聚类分析例:设有n个样品,每个样品测得8个指标X1,X2,X8。要求对8个指标进行聚类,聚类统计量采用相关系数设相关矩阵R=()为:32 1 2 3 4 5 6 7 812345678顺序 连结样品 相似系数1234567 X1 X6 0.99 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94 X2 X4 X7R=33按矩阵R中数值对8个指标(按四个原则)进行聚类:1)记下矩阵中的最大值,划去第6行第6列2)记下矩阵中的最大值,划去第3行第3列以此类推。34作聚类图:X1X6X3X4X2X7X5X80.990.960.930.680.490.47-0.9435主要城市日照时数36注:连续变量3738SPSS提供不同类间距离的测量方法1、组间连接法2、组内连接法3、最近距离法4、最远距离法5、重心法6、中位数法7、Ward最小偏差平方和法39观测量概述表402024/5/22 周三41聚类步骤,与图结合看!424、54344聚类方法有系统聚类和逐步聚类,输入数据集可以是普通数据集、相关矩阵(CORR过程产生)或协方差矩阵(FACTOR等过程产生)。SAS提供的聚类过程有:1、CLUSTER对坐标数据或距离数据的观测值用11种方法进行系统聚类,当观测值数太多时,不宜直接采用。2、FASTCLUS对于坐标数据,用K-均值法对观测值进行逐步聚类,当观测值很多时,则先用FACTCLUS过程对其进行初步聚类,然后再用CLUSTER过程进行系统聚类。3、VARCLUS通过斜交多组分量分析对变量进行系统聚类或逐步聚类。4、TREE为CLUSTER或VARCLUS过程产生的输出画树状图。45CLUSTER过程开始每个观测值自成一类,然后求两两之间的距离,将距离最近的两个观测值合成一类。这个过程一直进行下去,每次减少一类,直到合成一类为止。聚类方法有11种,可根据问题的性质选用,它们的区别在于怎样计算两类之间的距离。METHOD=指定方法AVERAGE(平均法)、CENTROID(重心法)、COMPLETE(最大距离法)、DENSITY(密度法)、MEDIAM(中位数法)等46美国十个城市的分类根据两个城市见航空距离将美国十个大城市作分类47聚类分析SAS程序:原始数据是两两之间距离的三角阵(而不是坐标)输入格式55列为城市15位平均法重心法最小距离法输出F及t统计量48观测值之间距离的均方根输出结果:类数指出被合并的类新类中的观测值数类间距离除以观测值间距离均方根得来F、t*2峰值(起伏)越大说明分类显著495051525354研究各种饮料在市场消费的分配规律,试确定各种饮料消费类型55565758596061聚类分析的第几步哪两个样本或小类聚成一类相应的样本距离或小类距离指明是样本(0)还是小类(n)下面第几步用到62垂直冰柱图显示层次聚类分析从冰柱图最后一行开始观察,第一列表示类数63两步聚类法TwoStep Cluster 一种探索性的聚类方法,是随着人工智能的发展起来的智能聚类方法中的一种。用于解决海量数据或具有复杂类别结构的聚类分析问题。两步聚类法特点:1、同时处理离散变量和连续变量的能力2、自动选择聚类数3、通过预先选取样本中的部分数据构建聚类模型4、可以处理超大样本量的数据64简单介绍基本原理分两步进行第一步:预聚类。对记录进行初始的归类,用户自定义最大类别数。通过构建和修改特征树(CT Free)完成。第二步:正式聚类。对第一步完成的初步聚类进行再聚类并确定最终的聚类方案,系统根据一定的统计标准确定聚类的类别数目。以后,可以通过传统的聚类方法进行聚类(SPSS中采用合并型分层聚类法)。65666768输出各变量在聚类中比重图输出出聚类饼分图每个变量做一张条图每一各类别做两张,分别为连续与离散聚类重要性测度691、质心表和频数表2、聚类分析表3、自动聚类结果表70聚类数目数值越小效果越好BIC相邻两项差值看数据的峰值,看聚类效果。4、8、10、14类。BIC准则-Schwartz Bayesian Criterion717273747576离散变量频数表的图形表示7778连续变量在各个类别中的误差图794个类别中离散变量重要性图80812024/5/22 周三82- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 聚类分析 详解
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文