第九章SPSS的聚类分析PPT课件.pptx
《第九章SPSS的聚类分析PPT课件.pptx》由会员分享,可在线阅读,更多相关《第九章SPSS的聚类分析PPT课件.pptx(36页珍藏版)》请在咨信网上搜索。
第九章 SPSS的聚类分析1聚类分析概述概念:聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法.例如:细分市场、消费行为划分聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.2聚类分析概述两类两类:(A B)(C D E)三类三类:(A B)(C)(D E)l依据平均得分依据平均得分的差距的差距,差距较差距较小的为一类小的为一类.l分类过程中分类过程中,没有事先指定没有事先指定分类的标准分类的标准.完完全根据样本数全根据样本数据客观产生分据客观产生分类结果类结果.3亲疏远程度的衡量指标亲疏远程度的衡量指标相似性相似性:数据间相似程度的度量数据间相似程度的度量距离距离:数据间差异程度的度量数据间差异程度的度量.距离越近距离越近,越越“亲密亲密”,聚成一类聚成一类;距离越远距离越远,越越“疏远疏远”,分别属于不同的类分别属于不同的类定距型个体间的距离:定距型个体间的距离:把每个个案数据看成是把每个个案数据看成是n n维空间上的点维空间上的点,在点和点之间定义某种距离在点和点之间定义某种距离.一般适用于定距数一般适用于定距数据据欧氏距离欧氏距离(EUCLID)EUCLID)平方欧氏距离平方欧氏距离(SEUCLIDSEUCLID)聚类分析概述4个体距离矩阵l定距型个体间的距离聚类分析概述5l品质型个体间的距离姓名 授课方式 上机时间 选某门课程张三 1 1 1 李四 1 1 0王五 0 0 1聚类分析概述6品质型个体间的距离品质型个体间的距离简单匹配简单匹配(simple matching)simple matching)系数系数:适用二值变量。适用二值变量。个体j个体i 1 01 a b0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。聚类分析概述7l品质型个体间的距离l简单匹配(simple matching)系数:适用二值变量。姓名 授课方式 上机时间 选某门课程张三 1 1 1 李四 1 1 0王五 0 0 1(张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3张三距李四近聚类分析概述8品质型个体间的距离品质型个体间的距离根据临床表现研究病人是否有类似的病根据临床表现研究病人是否有类似的病姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4张三 男 1 0 1 0 0 0李四 女 1 0 1 0 1 0王五 男 1 1 0 0 0 0.聚类分析概述9品质型个体间的距离品质型个体间的距离雅科比(雅科比(JaccardJaccard)系数系数:适用二值变量适用二值变量个体j个体i 1 01 a b0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化聚类分析概述10l品质型个体间的距离l雅科比(Jaccard)系数:适用二值变量姓名 授课方式 上机时间 选某门课程张三 1(0)1(0)1(0)李四 1(0)1(0)0(1)王五 0(1)0(1)1(0)(张三,李四)1:a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(张三,李四)2:a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3(相同)(张三,李四)1:a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3(张三,李四)2:a=0 b=0 c=1 d=2 J(x,y)=1/1=1(不相同)聚类分析概述11品质型个体间的距离品质型个体间的距离JaccardJaccard系数举例系数举例:根据临床表现研究病人是否有类似的病根据临床表现研究病人是否有类似的病姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4张三 男 1 0 1 0 0 0李四 女 1 0 1 0 1 0王五 男 1 1 0 0 0 0.结论:张三和李四最有可能得类似的病;李四和王五不太有可能聚类分析概述12l品质型个体间的距离卡方距离:计数变量聚类分析概述姓名选修课门数(期望频数)专业课门数(期望频数)得优门数(期望频数)合计张三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合计171293813说明说明聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。例如例如:样本的欧氏距离 元 万元(1,2)26500081.623(1,3)218000193.700(2,3)47000254.897聚类分析概述14聚类分析概述l说明l聚类分析中的变量选择问题变量应和聚类分析的目标密切相关(如;学校科研能力的评价。如:科研经费 项目 获奖 人数 办学性质)聚类结果仅是所选定变量所具数据特点的反应.变量之间不应具有高度相关性,否则相当于给这些变量进行了加权l聚类分析包括:个案聚类和变量聚类两种。l聚类分析包括:分层聚类和快速聚类15分层聚类思路:聚类过程具有一定的层次性以合并(凝聚)的方式聚类(SPSS采用)首先,每个个体自成一类其次,将最“亲密”的个体聚成一小类然后,将最“亲密”的小类或个体再聚成一类重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止可见,随着聚类的进行,类内的“亲密”性在逐渐减低16分层聚类思路思路以分解的方式聚类以分解的方式聚类首先首先,所有个体都属于一类所有个体都属于一类其次其次,将大类中最将大类中最“疏远疏远”的小类或个体分离出去的小类或个体分离出去然后然后,分别将小类中最分别将小类中最“疏远疏远”的小类或个体再分离出去的小类或个体再分离出去重复上述过程重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止即:把类分解成越来越小的小类,直到所有的个体自成一类为止可见可见,随着聚类的进行随着聚类的进行,类内的亲密性在逐渐增强类内的亲密性在逐渐增强17分层聚类“亲疏亲疏”程度的衡量对象程度的衡量对象个体间距离个体间距离个体和小类间、小类和小类间的距离个体和小类间、小类和小类间的距离182024/2/29 周四19分层聚类个体和小类、类和类间的距离个体和小类、类和类间的距离最短距离法最短距离法(nearest neighbor):nearest neighbor):两类间的距离定义为两类中距离最近的两个个案之间的距离两类间的距离定义为两类中距离最近的两个个案之间的距离最长距离法最长距离法(furthest neighbor)furthest neighbor):两类间的距离定义为两类中距离最远的两个个案之间的距离两类间的距离定义为两类中距离最远的两个个案之间的距离平均链锁法平均链锁法(within-groups linkage)within-groups linkage)两类之间的距离定义为两类个案之间距离的平均值。包括:两类之间的距离定义为两类个案之间距离的平均值。包括:组间平均链锁法组间平均链锁法(between-groups linkage):between-groups linkage):只考虑两类间个案的距离只考虑两类间个案的距离组内平均链锁法(组内平均链锁法(With-groups linage)With-groups linage):考虑所有个案间的距离考虑所有个案间的距离20分层聚类基本操作步骤基本操作步骤1.1.基本操作基本操作A.A.菜单选项菜单选项:analyze-classify-hierachical clusteranalyze-classify-hierachical clusterB.B.选择参与聚类分析的变量入选择参与聚类分析的变量入variablesvariables框框C.C.选择一字符型变量作为个案的标记变量选择一字符型变量作为个案的标记变量(label cases)label cases)D.D.选择个案聚类还是变量聚类选择个案聚类还是变量聚类21分层聚类基本操作步骤基本操作步骤2.2.选择距离计算方法(选择距离计算方法(methodmethod选项)选项)cluster method:cluster method:计算类间距离的方法计算类间距离的方法measure:measure:计算样本距离的方法计算样本距离的方法transform values:transform values:对数据进行标准化处理对数据进行标准化处理by variable:by variable:以以变量为单位标准化,适于个案聚类变量为单位标准化,适于个案聚类 by case:by case:对个案为单位标准化,适于变量聚类对个案为单位标准化,适于变量聚类22分层聚类进一步的工作进一步的工作1.1.数据输出(数据输出(statisticsstatistics选项)选项)agglomeration schedule:agglomeration schedule:凝聚状态表(默认)凝聚状态表(默认)distance matrix:distance matrix:样本的距离矩阵样本的距离矩阵cluster membership:cluster membership:类成员类成员none:none:不输出类成员(默认)不输出类成员(默认)single solutionsingle solution:聚成聚成n n类时各样本的归属类时各样本的归属range of solutions:range of solutions:聚成聚成mnmn类时各样本的归属类时各样本的归属(mnmnclassify-k means clusteranalyze-classify-k means clusterB.B.选定参加快速聚类分析的变量到选定参加快速聚类分析的变量到variablesvariables框框C.C.确定快速聚类的类数确定快速聚类的类数(number of clusters).number of clusters).类数应小类数应小于个案总数于个案总数D.D.选择聚类方法选择聚类方法(method)method):默认默认iterate and classifyiterate and classify,即:即:在聚类的每一步都重新计算新的类中心在聚类的每一步都重新计算新的类中心E.E.确定聚类终止条件(确定聚类终止条件(iterate)iterate)30K-means快速聚类(四四)其他其他1.1.保存快速聚类的结果保存快速聚类的结果(save)save)cluster membership:cluster membership:将各个案所属类的类号保存到将各个案所属类的类号保存到qcl_qcl_1 1变量中变量中distance from cluster center:distance from cluster center:将各样本距所属类中心将各样本距所属类中心的距离保存到的距离保存到qcl_2qcl_2变量中变量中.31K-means快速聚类(四四)其他其他2.2.输出选项输出选项(option)option)initial cluster centers:initial cluster centers:输出输出初始类中心点初始类中心点ANOVA table:ANOVA table:输出各类的方差分析表输出各类的方差分析表cluster information for each case:cluster information for each case:输出每个样本的分类输出每个样本的分类结果和距离结果和距离32K-means快速聚类(四四)其他其他3.3.useuse running means running means项项:选中:表示每个样本被分配到一类后立即计算新的类中心。聚类结果选中:表示每个样本被分配到一类后立即计算新的类中心。聚类结果与个案的先后次序有关与个案的先后次序有关.不选中:表示完成了所有个案的依次分配后再计算类中心不选中:表示完成了所有个案的依次分配后再计算类中心.省时省时.33K-means快速聚类(四四)其他其他4.4.用户指定类中心用户指定类中心(center)center)read initial from:read initial from:若不指定则系统自动确定初始类中心。若不指定则系统自动确定初始类中心。指定则从某指定则从某.savsav文件中读入初始类中心数据(应设一个名为文件中读入初始类中心数据(应设一个名为Cluster_Cluster_的变量名)的变量名)。Write final as:Write final as:在分析的最后将各类中心写入某在分析的最后将各类中心写入某.savsav文件文件34K-means快速聚类(五五)例子例子商厦评价快速聚类商厦评价快速聚类综合成绩评判综合成绩评判指定初始类中心指定初始类中心(read initial from)read initial from)classify only:classify only:聚类始终聚类始终以初始类中心为聚类中心以初始类中心为聚类中心.352024/2/29 周四36- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 SPSS 聚类分析 PPT 课件
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文