聚类分析简单例子.ppt
《聚类分析简单例子.ppt》由会员分享,可在线阅读,更多相关《聚类分析简单例子.ppt(38页珍藏版)》请在咨信网上搜索。
一、系统聚类的基本思想系系统统聚聚类类的基本思想是:距离相近的的基本思想是:距离相近的样样品(或品(或变变量)量)先聚成先聚成类类,距离相,距离相远远的后聚成的后聚成类类,过过程一直程一直进进行下行下去,每个去,每个样样品(或品(或变变量)量)总总能聚到合适的能聚到合适的类类中。系中。系统统聚聚类过类过程是:假程是:假设总设总共有共有n n个个样样品(或品(或变变量),量),第一步将每个第一步将每个样样品(或品(或变变量)独自聚成一量)独自聚成一类类,共有,共有n n类类;第二步根据所确定的;第二步根据所确定的样样品(或品(或变变量)量)“距离距离”公式,把距离公式,把距离较较近的两个近的两个样样品(或品(或变变量)聚合量)聚合为为一一类类,其它的,其它的样样品(或品(或变变量)仍各自聚量)仍各自聚为为一一类类,共,共聚成聚成n n 1 1类类;第三步将;第三步将“距离距离”最近的两个最近的两个类进类进一一步聚成一步聚成一类类,共聚成,共聚成n n 2 2类类;,以上步,以上步骤骤一直一直进进行下去,最后将所有的行下去,最后将所有的样样品(或品(或变变量)全聚成一量)全聚成一类类。为为了直了直观观地反映以上的系地反映以上的系统统聚聚类过类过程,可以把程,可以把整个分整个分类类系系统统画成一画成一张谱张谱系系图图。所以有。所以有时时系系统统聚聚类类也称也称为谱为谱系分析。除系系分析。除系统统聚聚类类法外,法外,还还有有序聚有有序聚类类法、法、动态动态聚聚类类法、法、图论图论聚聚类类法、模糊聚法、模糊聚类类法等,限法等,限于篇幅,我于篇幅,我们们只介只介绍绍系系统统聚聚类类方法。方法。二、类间距离与系统聚类法在在进进行系行系统统聚聚类类之前,我之前,我们们首先要定首先要定义类义类与与类类之之间间的距离,由的距离,由类间类间距离定距离定义义的不同的不同产产生了不同的系生了不同的系统统聚聚类类法。常用的法。常用的类间类间距离定距离定义义有有8 8种之多,与之相种之多,与之相应应的系的系统统聚聚类类法也有法也有8 8种,分种,分别为别为最短距离法、最最短距离法、最长长距距离法、中离法、中间间距离法、重心法、距离法、重心法、类类平均法、可平均法、可变类变类平平均法、可均法、可变变法和离差平方和法。它法和离差平方和法。它们们的的归类归类步步骤骤基基本上是一致的,主要差异是本上是一致的,主要差异是类间类间距离的距离的计计算方法不算方法不同。以下用同。以下用d dij ij表示表示样样品品X Xi i与与X Xj j之之间间距离,用距离,用D Dij ij表示表示类类G Gi i与与G Gj j之之间间的距离。的距离。1.1.最短距离法最短距离法定定义类义类GiGi与与GjGj之之间间的距离的距离为为两两类类最近最近样样品的距离,品的距离,即即为为 (5.11)(5.11)设设GkGk类类与合并成一个新与合并成一个新类记为类记为GrGr,则则任一任一类类与的距与的距离离为为 (5.12)(5.12)最短距离法最短距离法进进行聚行聚类类分析的步分析的步骤骤如下:如下:(1 1)定)定义样义样品之品之间间距离,距离,计计算算样样品的两两距离,品的两两距离,得一距离得一距离 阵记为阵记为D D(0 0),开始每个,开始每个样样品自成一品自成一类类,显显然然这这时时D Dij ij =d dij ij。(2 2)找出距离最小元素,)找出距离最小元素,设为设为D Dpqpq,则则将将G Gp p和和G Gq q合合并成一个并成一个 新新类类,记为记为G Gr r,即,即G Gr r =G Gp p,G Gq q。(3 3)按()按(5.125.12)计计算新算新类类与其它与其它类类的距离。的距离。(4 4)重复()重复(2 2)、()、(3 3)两步,直到所有元素。并)两步,直到所有元素。并成一成一类为类为 止。如果某一步距离最小的元素不止一个,止。如果某一步距离最小的元素不止一个,则对则对应这应这些些 最小元素的最小元素的类类可以同可以同时时合并。合并。【例例5.15.1】设设有六个有六个样样品,每个只品,每个只测测量一个指量一个指标标,分,分别别是是1 1,2 2,5 5,7 7,9 9,1010,试试用最短距离法将它用最短距离法将它们们分分类类。(1 1)样样品采用品采用绝对值绝对值距离,距离,计计算算样样品品间间的距离的距离阵阵D D(0 0),见见表表5.15.1表5.1(2 2)D D(0 0)中最小的元素是中最小的元素是D D1212D D56561 1,于是将,于是将G G1 1和和G G2 2合合并成并成G G7 7,G G5 5和和G G6 6合并成合并成G G8 8,并利用(,并利用(5.125.12)式)式计计算算新新类类与其与其它它类类的距离的距离D D(1 1),见见表表5.25.2表5.2 (3 3)在)在D D(1 1)中最小中最小值值是是D D3434D D48482 2,由于,由于G G4 4与与G G3 3合并,合并,又与又与G G8 8合并,因此合并,因此G G3 3、G G4 4、G G8 8合并成一个新合并成一个新类类G G9 9,其与其其与其它它类类的距离的距离D D(2 2),见见表表5.35.3表5.3(4 4)最后将)最后将G G7 7和和G G9 9合并成合并成G G1010,这时这时所有的六个所有的六个样样品聚品聚为为一一类类,其,其过过程程终终止。止。上述聚上述聚类类的可的可视视化化过过程程见图见图5.15.1所示,横坐所示,横坐标标的刻度的刻度表示并表示并类类的距离。的距离。这这里我里我们应该们应该注意,聚注意,聚类类的个数的个数要以要以实际实际情况所定,其情况所定,其详细详细内容将在后面内容将在后面讨论讨论。图5.1 最短距离聚类法的过程再找距离最小两再找距离最小两类类并并类类,直至所有的,直至所有的样样品全品全归为归为一一类为类为止。可以看出最止。可以看出最长长距离法与最短距离法只有两距离法与最短距离法只有两点不同:点不同:一是一是类类与与类类之之间间的距离定的距离定义义不同;不同;另一是另一是计计算新算新类类与其它与其它类类的距离所用的公式不同。的距离所用的公式不同。3.3.中中间间距离法距离法最短、最最短、最长长距离定距离定义义表示都是极端情况,我表示都是极端情况,我们们定定义义类间类间距离可以既不采用两距离可以既不采用两类类之之间间最近的距离也不采最近的距离也不采用两用两类类之之间间最最远远的距离,而是采用介于两者之的距离,而是采用介于两者之间间的的距离,称距离,称为为中中间间距离法。距离法。中中间间距离将距离将类类G Gp p与与G Gq q类类合并合并为类为类G Gr r,则则任意的任意的类类G Gk k和和G Gr r的距离公式的距离公式为为 (1 14 4 0 0)(5.15)(5.15)设设D DkrkrD Dkpkp,如果采用最短距离法,如果采用最短距离法,则则D Dkrkr =D Dkpkp,如果采用如果采用最最长长距离法,距离法,则则D Dkrkr =D Dkqkq。如。如图图5.25.2所示,所示,(5.15)(5.15)式式就是取它就是取它们们(最(最长长距离与最短距离)的中距离与最短距离)的中间间一点作一点作为计为计算算D Dkrkr的根据。的根据。特特别别当当 =1 14 4,它表示取中,它表示取中间间点算距离,公式点算距离,公式为为 (5.16)(5.16)图5.2 中间距离法 【例例5.25.2】针对针对例例5.15.1的数据,的数据,试试用重心法将它用重心法将它们们聚聚类类。(1 1)样样品采用欧氏距离,品采用欧氏距离,计计算算样样品品间间的平方距离的平方距离阵阵D D2 2(0 0),见见表表5.45.4所示。所示。表5.4(2 2)D D2 2(0 0)中最小的元素是中最小的元素是D D2 21212D D2 256561 1,于是将,于是将G G1 1和和G G2 2合合并成并成G G7 7,G G5 5和和G G6 6合并成合并成G G8 8,并利用(,并利用(5.185.18)式)式计计算新算新类类与与其它其它类类的距离得到距离的距离得到距离阵阵D D2 2(1 1),见见表表5.55.5:其中,其中,其它其它结结果果类类似可以求得似可以求得 (3 3)在)在D D2 2(1 1)中最小中最小值值是是D D2 234344 4,那么,那么G G3 3与与G G4 4合合并一个新并一个新类类G G9 9,其与与其它,其与与其它类类的距离的距离D D2 2(2 2),见见表表5.65.6:表5.6(4 4)在中最小)在中最小值值是是12.512.5,那么与合并一个新,那么与合并一个新类类,其与与其与与其它其它类类的距离,的距离,见见表表5.75.7:表5.7(5 5)最后将)最后将G G7 7和和G G1010合并成合并成G G1111,这时这时所有的六个所有的六个样样品品聚聚为为一一类类,其,其过过程程终终止。止。上述重心法聚上述重心法聚类类的可的可视视化化过过程程见图见图5.35.3所示,横坐所示,横坐标标的刻度表示并的刻度表示并类类的距离。的距离。图5.3 重心聚类法的过程6.6.可可变类变类平均法平均法由于由于类类平均法中没有反映出平均法中没有反映出G Gp p和和G Gq q之之间间的距离的距离D Dpqpq的的影响,影响,因此将因此将类类平均法平均法进进一步推广,如果将一步推广,如果将G Gp p和和G Gq q合并合并为为新新类类G Gr r,类类G Gk k与新并与新并类类G Gr r的距离公式的距离公式为为:(5.225.22)其中其中 是可是可变变的且的且 11,称,称这这种系种系统统聚聚类类法法为为可可变变类类平均法。平均法。8.8.离差平方和法离差平方和法该该方法是方法是WardWard提出来的,所以又称提出来的,所以又称为为WardWard法。法。该该方法的基本思想来自于方差分析,如果分方法的基本思想来自于方差分析,如果分类类正确,正确,同同类样类样品的离差平方和品的离差平方和应应当当较较小,小,类类与与类类的离差平的离差平方和方和较较大。具体做法是先将大。具体做法是先将n n个个样样品各自成一品各自成一类类,然后每次然后每次缩缩小一小一类类,每,每缩缩小一小一类类,离差平方和就要,离差平方和就要增大,增大,选择选择使方差增加最小的两使方差增加最小的两类类合并,直到所有合并,直到所有的的样样品品归为归为一一类为类为止。止。设设将将n n个个样样品分成品分成k k类类G G1 1,G G2 2,G Gk k,用,用X Xit it表示表示G Gt t中的第中的第I I个个样样品,品,n nt t表示表示G Gt t中中样样品的个数,品的个数,是是G Gt t的重心,的重心,则则G Gt t的的样样品离差平方和品离差平方和为为 这这种系种系统统聚聚类类法称法称为为离差平方和法或离差平方和法或WardWard方法。下方法。下面面论证论证离差平方和法的距离离差平方和法的距离递递推(推(5.265.26)式。)式。由于由于 三、类间距离的统一性上述八种系上述八种系统统聚聚类类法的步法的步骤骤完全一完全一样样,只是距离的,只是距离的递递推公式不同。推公式不同。兰兰斯(斯(LanceLance)和威廉姆斯)和威廉姆斯(WilliamsWilliams)于)于19671967年年给给出了一个出了一个统统一的公式。一的公式。(5.28)(5.28)其中其中a ap p、a aq q、是参数,不同的系是参数,不同的系统统聚聚类类法,法,它它们们取不取不同的数,同的数,详见详见表表5.85.8。这这里里应该应该注意,不同的聚注意,不同的聚类类方法方法结结果不一定完全相果不一定完全相同,一般只是大致相似。如果有很大的差异,同,一般只是大致相似。如果有很大的差异,则应则应该该仔仔细细考考查查,找到,找到问题问题所在;另外,可将聚所在;另外,可将聚类结类结果果与与实际问题对实际问题对照,看哪一个照,看哪一个结结果更符合果更符合经验经验。表5.8 系统聚类法参数表【例例5.35.3】假定我假定我们对们对A A、B B、C C、D D四个四个样样品分品分别测别测量两个量两个变变量和得到量和得到结结果果见见表表5.95.9。试试将以上的将以上的样样品聚成两品聚成两类类。表5.9 样品测量结果动态聚类法第一步:按要求取第一步:按要求取K=2K=2,为为了了实实施均施均值值法聚法聚类类,我,我们们将将这这些些样样品随意分成两品随意分成两类类,比如(,比如(A A、B B)和()和(C C、D D),然后),然后计计算算这这两个聚两个聚类类的中心坐的中心坐标标,见见表表5.105.10所示。所示。表表5.105.10中的中心坐中的中心坐标标是通是通过过原始数据原始数据计计算得来的,算得来的,比如(比如(A A、B B)类类的,的,等等等。等。表5.10 中心坐标第二步:第二步:计计算某个算某个样样品到各品到各类类中心的欧氏平方距离,中心的欧氏平方距离,然后将然后将该样该样品分配品分配给给最近的一最近的一类类。对对于于样样品有品有变动变动的的类类,重新,重新计计算它算它们们的中心坐的中心坐标标,为为下一步聚下一步聚类类做做准准备备。先。先计计算算A A到两个到两个类类的平方距离:的平方距离:由于由于A A到(到(A A、B B)的距离小于到()的距离小于到(C C、D D)的距离,)的距离,因此因此A A不用重新分配。不用重新分配。计计算算B B到两到两类类的平方距离:的平方距离:由于由于B B到(到(A A、B B)的距离大于到()的距离大于到(C C、D D)的距离,)的距离,因此因此B B要分配要分配给给(C C、D D)类类,得到新的聚,得到新的聚类类是是(A A)和()和(B B、C C、D D)。更新中心坐)。更新中心坐标标如表如表5.115.11所示。所示。表5.11 更新后的中心坐标 第三步:再次第三步:再次检查检查每个每个样样品,以决定是否需要重品,以决定是否需要重新分新分类类。计计算各算各样样品到各中心的距离平方,得品到各中心的距离平方,得结结果果见见表表5.125.12。到到现现在在为为止,每个止,每个样样品都已品都已经经分配分配给给距离中心最近的距离中心最近的类类,因此聚因此聚类过类过程到此程到此结结束。最束。最终终得到得到K=2K=2的聚的聚类结类结果是果是A A独独自成一自成一类类,B B、C C、D D聚成一聚成一类类。表5.12 样品聚类结果- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 简单 例子
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文