聚类分析-PPT.ppt
《聚类分析-PPT.ppt》由会员分享,可在线阅读,更多相关《聚类分析-PPT.ppt(163页珍藏版)》请在咨信网上搜索。
1、聚类分析聚类分析分类分类vv物物以以类类聚聚,人人以以群群分分。日日常常生生活活中中,我我们们不不自自觉觉地地用用定定性性方方法法将将人人分分为为“好好人人”、“坏坏人人”;按按熟熟悉悉程程度度分分为为“朋朋友友”、“熟人熟人”、“陌生人陌生人”等等。等等。v我们究竟是如何分类的呢我们究竟是如何分类的呢?分类分类当有当有一个分类指标一个分类指标时,分类比较容易。时,分类比较容易。但是当有但是当有多个指标多个指标,要进行,要进行分类分类就不是很容易了。就不是很容易了。如果想要对如果想要对100个学生进行分类,如果仅仅知道个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类他们的数
2、学成绩,则只好按照数学成绩来分类如果还知道他们的物理成绩,那么怎么对他们分如果还知道他们的物理成绩,那么怎么对他们分类?类?如果还知道他们的语文成绩、外语成绩等,我们如果还知道他们的语文成绩、外语成绩等,我们怎么来对他们分类?怎么来对他们分类?分类分类v由于不同的指标项对重要程度或依赖关系是相由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用互不同的,所以也不能用平均的方法平均的方法,因为这,因为这样会忽视相对重要程度的问题。样会忽视相对重要程度的问题。vv所以需要进行所以需要进行所以需要进行所以需要进行多元分类多元分类多元分类多元分类,即聚类分析,即聚类分析,即聚类分析,即聚类分
3、析。聚类分析聚类分析v聚聚类类分分析析是是一一种种建建立立分分类类的的多多元元统统计计分分析析方方法法,它它能能够够将将一一批批样样本本(或或变变量量)数数据据根根据据其其诸诸多多特特征征,按按照照在在性性质质上上的的亲亲疏疏程程度度(各各变变量量取取值值上上的的总总体体差差异异程程度度)在在没没有有先先验验知知识识(没没有有事事先先指指定定的的分分类类标标准准)的的情情况况下下进进行行自动分类,产生多个分类结果。自动分类,产生多个分类结果。v类类内内部部的的个个体体在在特特征征上上具具有有相相似似性性,不不同同类类间间个个体体特特征征的差异性较大。的差异性较大。如想把中国的县分成若干类,如想
4、把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施也可以考虑收入、教育水准、医疗条件、基础设施等指标。等指标。为了研究不同地区城镇居民生活中的收入和消费情为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究。况,往往需要划分不同的类型去研究。聚类分析无处不在聚类分析无处不在u学学校校里里有有些些同同学学经经常常在在一一起起,关关系系比比较较密密切切,而而他他们们与另一些同学却很少来往,关系比较疏远。与另一些同学却很少来往,关系比较疏远。u为
5、为了了研研究究课课余余爱爱好好、性性格格、家家庭庭情情况况、学学习习成成绩绩等等是是否否会会成成为为划划分分学学生生小小群群体体的的主主要要决决定定因因素素,可可以以从从有有关关这这些些方方面面的的数数据据入入手手,进进行行客客观观分分组组,然然后后比比较较所所得得的的分分组组是是否否与与实实际际相相吻吻合合。对对学学生生的的客客观观分分组组就就可可采采用用聚聚类分析方法。类分析方法。聚类分析无处不在聚类分析无处不在9聚类分析无处不在聚类分析无处不在v谁经常光顾商店,谁买什么东西,买多少?谁经常光顾商店,谁买什么东西,买多少?v按按会会员员卡卡记记录录的的光光临临次次数数、光光临临时时间间、性
6、性别别、年年龄龄、职职业业、购物种类、金额等变量分类购物种类、金额等变量分类v这样商店可以这样商店可以v识识别别顾顾客客购购买买模模式式(如如喜喜欢欢一一大大早早来来买买酸酸奶奶和和鲜鲜肉肉,习习惯惯周末时一次性大采购)周末时一次性大采购)v刻画不同的客户群的特征刻画不同的客户群的特征10聚类分析无处不在聚类分析无处不在v挖掘有价值的客户,并制定相应的促销策略挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户如,对经常购买酸奶的客户对累计消费达到对累计消费达到1212个月的老客户个月的老客户v针针对对潜潜在在客客户户派派发发广广告告,比比在在大大街街上上乱乱发发传传单单命命中中率
7、更高,成本更低!率更高,成本更低!11聚类分析无处不在聚类分析无处不在v谁是银行信用卡的黄金客户?谁是银行信用卡的黄金客户?利利用用储储蓄蓄额额、刷刷卡卡消消费费金金额额、诚诚信信度度等等变变量量对对客客户户分分类类,找出找出“黄金客户黄金客户”!这样银行可以这样银行可以制定更具吸引力的服务,留住客户!比如:制定更具吸引力的服务,留住客户!比如:v一定额度和期限的免息透支服务!一定额度和期限的免息透支服务!v赠送百盛的贵宾打折卡!赠送百盛的贵宾打折卡!v在他或她生日的时候送上一个小蛋糕!在他或她生日的时候送上一个小蛋糕!12聚类的应用领域v经济领域经济领域:帮助市场分析人员从客户数据库中发现不
8、同的客户群,并且用购买模帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机对住宅区进行聚类,确定自动提款机ATMATM的安放位置的安放位置股票市场板块分析,找出最具活力的板块龙头股股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类企业信用等级分类v生物学领域生物学领域推导植物和动物的分类;推导植物和动物的分类;对基因分类,获得对种群的认识对基因分类,获得对种群的认识v数据挖掘领域数据挖掘领域作为其他数学算法的预
9、处理步骤,获得数据分布状况,集中对特定的作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究类做进一步的研究13 例例 对对10位位应应聘聘者者做做智智能能检检验验。3项项指指标标X,Y和和Z分分别别表表示示数数学学推推理理能能力力、空空间间想想象象能能力力和和语语言言理理解解能能力力。得得分分如如下下,选选择择合合适适的的统统计计方方法法对应聘者进行分类。对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424241415聚类分析聚类分析v对于一批数据,人们
10、既可以对对于一批数据,人们既可以对变量(指标)变量(指标)进行进行分类分类(相当于对数据中的列分类相当于对数据中的列分类),也可以对,也可以对观测观测值值(事件,样品)来分类(相当于对数据中的行(事件,样品)来分类(相当于对数据中的行分类)。分类)。表表表表1 1学生的四门课程的成绩学生的四门课程的成绩学生的四门课程的成绩学生的四门课程的成绩姓 名数 学物 理语 文政 治hxh99.0098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.009
11、6.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00Iiakii100.00100.0085.0084.00聚类分析聚类分析QQ型和型和型和型和R R型(根据分类对象的不同)型(根据分类对象的不同)型(根据分类对象的不同)型(根据分类对象的不同)QQ型是对样本进行分类处理,使具有型是对样本进行分类处理,使具有型是对样本进行分类处理,使具有型是对样本进行分类处理,使具有相似特征的样相似特征的样相似特征的样相似特征的样本聚集在一起,差异性大的样本分离
12、开来本聚集在一起,差异性大的样本分离开来本聚集在一起,差异性大的样本分离开来本聚集在一起,差异性大的样本分离开来。R R型是对变量进行分类处理,使具有相似性的变量型是对变量进行分类处理,使具有相似性的变量型是对变量进行分类处理,使具有相似性的变量型是对变量进行分类处理,使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在聚集在一起,差异性大的变量分离开来,可在聚集在一起,差异性大的变量分离开来,可在聚集在一起,差异性大的变量分离开来,可在相相相相似变量中选择少数具有代表性的变量参与其他分似变量中选择少数具有代表性的变量参与其他分似变量中选择少数具有代表性的变量参与其他分似变量中选择少数具
13、有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。析,实现减少变量个数,达到变量降维的目的。析,实现减少变量个数,达到变量降维的目的。析,实现减少变量个数,达到变量降维的目的。相似性度量相似性度量vv样本的相似性度量样本的相似性度量vv变量的相似性度量变量的相似性度量聚类分析聚类分析v聚聚类类分分析析中中,个个体体之之间间的的“亲亲疏疏程程度度”是是极极为为重重要要的的,它它将将直直接接影影响响最最终终的的聚聚类类结结果果。对对“亲亲疏疏”程程度度的的测测度度一一般般有有两两个个角角度度:第第一一,个个体体间间的的相相似似程程度度;第第二二,个个体体间间的的差差异异程程度度。衡
14、衡量量个个体体间间的的相相似似程程度度通通常常可可采采用用简简单单相相关关系系数数等等,个个体体间的差异程度通常通过某种间的差异程度通常通过某种距离距离来测度。来测度。21样本或变量间亲疏程度的测度样本或变量间亲疏程度的测度v研究样本或变量的亲疏程度的数量指标有两种:研究样本或变量的亲疏程度的数量指标有两种:v一一种种叫叫相相似似系系数数,性性质质越越接接近近的的变变量量或或样样本本,它它们们的的相相似似系系数数越越接接近近于于1 1或或一一l l,而而彼彼此此无无关关的的变变量量或或样样本本它它们们的的相相似似系系数数则则越越接接近近于于0 0,相相似似的的为为一一类类,不相似的为不同类。不
15、相似的为不同类。v另另一一种种叫叫距距离离,它它是是将将每每一一个个样样本本看看作作p p维维空空间间的的一一个个点点,并并用用某某种种度度量量测测量量点点与与点点之之间间的的距距离离,距距离较近的归为一类,距离较远的点应属于不同的类。离较近的归为一类,距离较远的点应属于不同的类。v如如果果想想要要对对100100个个学学生生进进行行分分类类,如如果果仅仅仅仅知知道道他他们们的的数数学学成成绩绩,则则只只好好按按照照数数学学成成绩绩来来分分类类;这这些些成成绩绩在在直直线线上上形形成成100100个个点点。这这样样就就可可以以把把接接近近的的点点放放到到一类。一类。v如如果果还还知知道道他他们
16、们的的物物理理成成绩绩,这这样样数数学学和和物物理理成成绩绩就就形形成成二二维维平平面面上上的的100100个个点点,也也可可以以按按照照距距离离远远近近来来分类。分类。v三三维维或或者者更更高高维维的的情情况况也也是是类类似似;只只不不过过三三维维以以上上的的图形无法直观地画出来而已。图形无法直观地画出来而已。相似性度量相似性度量vv为为为为定定定定义义义义个个个个体体体体间间间间的的的的距距距距离离离离应应应应先先先先将将将将每每每每个个个个样样样样本本本本数数数数据据据据看看看看成成成成k k k k维维维维空空空空间间间间的的的的一一一一个个个个点点点点。通通常常,点点与与点点之之间间
17、的的距距离离越越小小,意意味味着着他他们们越越“亲亲密密”,越越有有可可能能聚聚成成一一类类,点点与与点点之之间间的的距距离离越越大大,意意味味着着他他们们越越“疏疏远远”,越有可能分别属于不同的类。越有可能分别属于不同的类。vv个体间距离的定义会受变量类型的影响个体间距离的定义会受变量类型的影响个体间距离的定义会受变量类型的影响个体间距离的定义会受变量类型的影响。聚类分析聚类分析25v设有设有n个样本单位,每个样本测得个样本单位,每个样本测得p项指标项指标(变量),原始资料矩阵为:(变量),原始资料矩阵为:样品相似性的度量样品相似性的度量vvQ Q Q Q型聚类分析,常用型聚类分析,常用型聚
18、类分析,常用型聚类分析,常用距离距离距离距离来测度样品之间的相似程度。来测度样品之间的相似程度。来测度样品之间的相似程度。来测度样品之间的相似程度。vv每个样品有每个样品有每个样品有每个样品有p p p p个指标(变量)从不同方面描述其性质,个指标(变量)从不同方面描述其性质,个指标(变量)从不同方面描述其性质,个指标(变量)从不同方面描述其性质,形成一个形成一个形成一个形成一个p p p p维的向量。维的向量。维的向量。维的向量。vv如果把如果把如果把如果把n n n n个样品看成个样品看成个样品看成个样品看成p p p p维空间中的维空间中的维空间中的维空间中的n n n n个点,则两个样
19、品间个点,则两个样品间个点,则两个样品间个点,则两个样品间相似程度就可用相似程度就可用相似程度就可用相似程度就可用p p p p维空间中的两点距离公式来度量。维空间中的两点距离公式来度量。维空间中的两点距离公式来度量。维空间中的两点距离公式来度量。样品相似性的度量样品相似性的度量vv两点距离公式可以从不同角度进行定义,令两点距离公式可以从不同角度进行定义,令两点距离公式可以从不同角度进行定义,令两点距离公式可以从不同角度进行定义,令d d d dijijijij 表示表示表示表示样品样品样品样品X X X Xi i i i与与与与X X X Xj j j j的距离,存在以下的距离公式:的距离,
20、存在以下的距离公式:的距离,存在以下的距离公式:的距离,存在以下的距离公式:1Minkowski距离 (5.1)Minkowski距离简称明氏距离,按的取值不同又可分成:v例例:下下表表是是同同一一批批客客户户对对经经常常光光顾顾的的五五座座商商场场在在购购物物环环境境和和服服务务质质量量两两方方面面的的平平均均得得分分,现现希希望望根根据据这批数据将五座商场分类。这批数据将五座商场分类。选上选上统计量统计量中的中的相相似性矩阵似性矩阵的输出结果的输出结果表表表表1 1学生的四门课程的成绩学生的四门课程的成绩学生的四门课程的成绩学生的四门课程的成绩姓 名数 学物 理语 文政 治hxh99.00
21、98.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.0096.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00Iiakii100.00100.0085.0084.00样品相似性的度量样品相似性的度量vv欧氏距离是常用的距离。欧氏距离是常用的距离。欧氏距离是常用的距离。欧氏距离是常用的距离。vv欧氏
22、距离的不足之处:欧氏距离的不足之处:欧氏距离的不足之处:欧氏距离的不足之处:uu没有考虑到总体的变异对没有考虑到总体的变异对没有考虑到总体的变异对没有考虑到总体的变异对“距离距离距离距离”远近的影响。远近的影响。远近的影响。远近的影响。显然一个变异显然一个变异显然一个变异显然一个变异程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;uu欧氏距离受变量的量纲影响。欧氏距离受变量的量纲影响。欧氏距离受变
23、量的量纲影响。欧氏距离受变量的量纲影响。这对多元数据的处理是不利的。为这对多元数据的处理是不利的。为这对多元数据的处理是不利的。为这对多元数据的处理是不利的。为了克服这方面的不足,了克服这方面的不足,了克服这方面的不足,了克服这方面的不足,各指标测量值相差悬殊时,数据标准化处理后再各指标测量值相差悬殊时,数据标准化处理后再计算距离,计算距离,可用可用可用可用“马氏距离马氏距离马氏距离马氏距离”的概念。的概念。的概念。的概念。各各变变量量的的变变量量值值不不应应有有数数量量级级上上的的差差异异(对对数数据据进进行行标标准准化化处处理理):聚聚类类分分析析是是以以各各种种距距离离来来度度量量个个体
24、体间间的的“亲亲疏疏”程程度度的的,从从上上述述各各种种距距离离的的定定义义看看,数数量量级级将将对对距距离离产产生生较较大的影响,并影响最终的聚类结果大的影响,并影响最终的聚类结果。2马氏距离马氏距离 设设设设X X X Xi i i i与与与与X X X Xj j j j是来自均值向量为是来自均值向量为是来自均值向量为是来自均值向量为 ,协方差为,协方差为,协方差为,协方差为 =(0 0 0 0)的总的总的总的总体体体体,G G G G中的中的中的中的p p p p维样品,则两个样品间的马氏距离为维样品,则两个样品间的马氏距离为维样品,则两个样品间的马氏距离为维样品,则两个样品间的马氏距离
25、为 (5.5)马氏距离马氏距离马氏距离又称为广义欧氏距离。显然,马氏距离又称为广义欧氏距离。显然,马氏距离又称为广义欧氏距离。显然,马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种马氏距离与上述各种马氏距离与上述各种马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。距离的主要不同就是它考虑了观测变量之间的相关性。距离的主要不同就是它考虑了观测变量之间的相关性。距离的主要不同就是它考虑了观测变量之间的相关性。如果如果如果如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,各变量之间相互独立,即观测变量的协方差矩阵是对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 PPT
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。