聚类分析的思路和方法.ppt
《聚类分析的思路和方法.ppt》由会员分享,可在线阅读,更多相关《聚类分析的思路和方法.ppt(79页珍藏版)》请在咨信网上搜索。
聚类分析Cluster Analysis4/21/20241.什么是聚类分析?v聚类分析是根据“物以类聚”的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。2.聚类分析的基本思想v基本思想是认为研究的样本或变量之间存在着程度不同的相似性(亲疏关系)。v根据一批样本的多个观测指标,找出一些能够度量样本或变量之间相似程度的统计量,以这些统计量作为分类的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些相似程度较大的样本(或指标)聚合为一类,直到把所有的样本(或指标)都聚合完毕,形成一个由小到大的分类系统。3.聚类分析无处不在v谁经常光顾商店,谁买什么东西,买多少?v按会员卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类v这样商店可以v识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)v刻画不同的客户群的特征4.聚类分析无处不在v挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户v针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!5.聚类分析无处不在v谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!这样银行可以制定更具吸引力的服务,留住客户!比如:v一定额度和期限的免息透支服务!v赠送百盛的贵宾打折卡!v在他或她生日的时候送上一个小蛋糕!6.聚类的应用领域v经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类v生物学领域推导植物和动物的分类;对基因分类,获得对种群的认识v数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究7.例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424248.9.10.聚类分析根据一批样本的许多观测指标,按照一定的数学公式具体地计算一些样本或一些指标的相似程度,把相似的样本或指标归为一类,把不相似的归为一类。11.样本或变量间亲疏程度的测度v研究样本或变量的亲疏程度的数量指标有两种:v一种叫相似系数,性质越接近的变量或样本,它们的相似系数越接近于1 1或一l l,而彼此无关的变量或样本它们的相似系数则越接近于0 0,相似的为一类,不相似的为不同类。v另一种叫距离,它是将每一个样本看作p p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。12.v设有n个样本单位,每个样本测得p项指标(变量),原始资料矩阵为:13.定比变量的聚类统计量:距离统计量v绝对距离v欧式距离v明考斯基距离v兰氏距离v马氏距离v切氏距离14.v1.绝对距离(Block距离)v2.欧氏距离(Euclidean distance)15.v3.明考斯基距离(Minkowski)v4.兰氏距离v5.马氏距离v6.切比雪夫距离(Chebychev)16.17.v1.相关系数v2.夹角余弦定比变量的聚类统计量:相似系数统计量18.计数变量(Count)(离散变量)的聚类统计量v对于计数变量或离散变量,可用于度量样本(或变量)之间的相似性或不相似性程度的统 计 量 主 要 有 卡 方 测 度(Chi-square measure)和 Phi方 测 度(Phi-square measure)。19.二值(Binary)变量的聚类统计量20.聚类的类型v根据聚类对象的不同,分为Q型聚类和R型聚类。vQ型聚类:样本之间的聚类即Q型聚类分析,则常用距离来测度样本之间的亲疏程度。vR型聚类:变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。21.聚类的类型v根据聚类方法的不同分为系统聚类和K均值聚类。v系统聚类:又称为层次聚类(hierarchical cluster),是指聚类过程是按照一定层次进行的。vK均值聚类(K-means Cluster)22.层次聚类v基本思想:在聚类分析的开始,每个样本(或变量)自成一类;然后,按照某种方法度量所有样本(或变量)之间的亲疏程度,并把最相似的样本(或变量)首先聚成一小类;接下来,度量剩余的样本(或变量)和小类间的亲疏程度,并将当前最接近的样本(或变量)与小类聚成一类;再接下来,再度量剩余的样本(或变量)和小类间的亲疏程度,并将当前最接近的样本(或变量)与小类聚成一类;如此反复,直到所有样本(或变量)聚成一类为止。23.v系统聚类法不仅需要度量个体与个体之间的距离,还要度量类与类之间的距离。类间距离被度量出来之后,距离最小的两个小类将首先被合并成为一类。由类间距离定义的不同产生了不同的系统聚类法。24.类间距离的度量方法v最短距离法(Nearest Neighbor)v最长距离法(Further Neighbor)v组间平均连接法(Between-group linkage)v组内平均连接法(Within-group linkage)v重心法(Centroid clustering)v中位数法(Median clustering)v离差平方和法(Wards method)25.最短距离法(Nearest Neighbor)v以两类中距离最近的两个个体之间的距离作为类间距离。26.x21x12x22x1127.最长距离法(Further Neighbor)v以两类中距离最远的两个个体之间的距离作为类间距离。28.x11x2129.组间平均连接法(Between-group linkage)v以两类个体两两之间距离的平均数作为类间距离。30.组间平均连接法(Between-group Linkage)31.组内平均连接法(Within-group linkage)v将两类个体合并为一类后,以合并后类中所有个体之间的平均距离作为类间距离。32.组内平均连接法(Within-group Linkage)x21x12x22x1133.重心法(Centroid clustering)v以两类变量均值(重心)之间的距离作为类间距离。34.重心距离:均值点的距离35.中位数法(Median clustering)v以两类变量中位数之间的距离作为类间距离。36.离差平方和法(Wards method)v离差平方和法是由Ward提出的,因此也称为Ward方法。具体做法是,先将n个个体各自成一类,然后每次减少一类,随着类与类的不断聚合,类内的离差平方和必然不断增大,选择使离差平方和增加最小的两类合并,直到所有的个体归为一类为止。37.主要步骤1.1.选择变量 (1)和聚类分析的目的密切相关 (2)反映要分类变量的特征 (3)在不同研究对象上的值有明显的差异 (4)变量之间不能高度相关2.2.数据变换处理 为了消除各指标量纲的影响,需要对原始数据进行必要的变换处理。38.3.3.计算聚类统计量 聚类统计量是根据变换以后的数据计算得到的一个新数据,它用于表明各样本或变量间的关系密切程度。常用的统计量有距离和相似系数两大类。39.4.4.聚类 主要涉及两个问题:(1 1)选择聚类的方法 (2 2)确定形成的类数40.5.5.聚类结果的解释和证实 对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以解释各类产生的原因。41.k-均值聚类K-means ClustervK-均值聚类也叫快速聚类v要求事先确定分类数v运算速度快(特别是对于大样本)42.k-均值聚类K-means Clusterv系统首先选择k个聚类中心,根据其他观测值与聚类中心的距离远近,将所有的观测值分成k类;再将k个类的中心(均值)作为新的聚类中心,重新按照距离进行分类;,这样一直迭代下去,直到达到指定的迭代次数或达到中止迭代的判据要求时,聚类过程结束。43.聚类分析终止的条件v迭代次数:当目前的迭代次数等于指定的迭代次数(SPSS默认为10)时终止迭代。v类中心点偏移程度:新确定的类中心点距上个类中心点的最大偏移量小于等于指定的量(SPSS默认为0)时终止聚类。44.例子1:31个省区小康和现代化指数的聚类分析v利用2001年全国31个省市自治区各类小康和现代化指数的数据,对地区进行聚类分析。v数据中包括6类指数:综合指数、社会结构指数、经济与技术发展指数、人口素质指数、生活质量指数、法制与治安指数。45.系统聚类46.vAgglomeration schedule:输出聚类过程表vProximity matrix:输出各个体之间的距离矩阵vCluster Membership:每个个体类别归属表47.vDendrogram:聚类树形图vIcicle:冰柱图48.49.50.51.52.53.如果分为3类v第1类:北京、上海、天津v第2类:江苏、山东、辽宁、浙江、广东、福建、黑龙江、吉林v第3类:其余省区54.输出各组的统计信息在数据文件中保存分类信息DataSplit file55.56.57.K均值聚类vIterate and classify:不断计算新的类中心,替换旧的类中心。vClassify only:根据初始类中心进行聚类,不改变类中心。58.59.60.61.62.63.例子2:土壤样本聚类分析v有20个土壤样本,利用含沙量、淤泥含量、粘土含量、有机物、pH值5个变量的数据对这20个土壤样本进行分类。64.系统聚类65.66.67.68.69.70.71.72.K均值聚类73.74.75.76.77.78.R型聚类的例子v裁判为运动员打分79.- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 思路 方法
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【1587****927】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【1587****927】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【1587****927】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【1587****927】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文