分类算法.ppt
《分类算法.ppt》由会员分享,可在线阅读,更多相关《分类算法.ppt(59页珍藏版)》请在咨信网上搜索。
1、第三章第三章 分分类方法方法 内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题 2024/5/26 周日1.分类是数据挖掘中重要的任务 n分类的目的是学会一个分类器(分类函数或模型),该分类器能把待分类的数据映射到给定的类别中。n分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测。n分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。n分类器的构造依据的方法很广泛:n统计方法:包括贝叶斯法和非参数法等。n机器学习方法:包括决策树法和规则归纳法。n神经网络方
2、法。n其他,如粗糙集等(在前面绪论中也介绍了相关的情况)。2024/5/26 周日2.分类方法的类型n从使用的主要技术上看,可以把分类方法归结为四种类型:n基于距离的分类方法n决策树分类方法n贝叶斯分类方法n规则归纳方法。n本章将择选一些有代表性的方法和算法来介绍这四类分类方法。2024/5/26 周日3.分类问题的描述n定定义4-1 4-1 给定一个数据库 D=t1,t2,tn和一组类 C=C1,Cm,分类问题是去确定一个映射 f:DC,使得每个元组ti被分配到一个类中。一个类Cj 包含映射到该类中的所有元组,即Cj=ti|f(ti)=Cj,1 i n,而且ti D。n例如,把学生的百分制分
3、数分成A、B、C、D、F五类,就是一个分类问题:D是包含百分制分数在内的学生信息,C=A、B、C、D、F。n解决分类问题的关键是构造一个合适的分类器:从数据库到一组类别集的映射。一般地,这些类是被预先定义的、非交叠的。2024/5/26 周日4.数据分类的两个步骤1 1建立一个模型,描述建立一个模型,描述预定的数据定的数据类集或概念集集或概念集n数据元组也称作样本、实例或对象。n为建立模型而被分析的数据元组形成训练数据集。n训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。n通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。n
4、2 2使用模型使用模型进行分行分类n首先评估模型(分类法)的预测准确率。n如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。2024/5/26 周日5.第三章第三章 分分类方法方法 内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题 2024/5/26 周日6.基于距离的分类算法的思路n定定义4-2 4-2 给定一个数据定一个数据库 D D=t t1 1,t t2 2,t tn n 和一和一组类C C=C C1 1,C Cmm。假定每个元。假定每个元组包括一些数包括一些数值型的属性型的属性值:
5、t ti i=t ti1 i1,t ti2i2,t tik ik,每个,每个类也包也包含数含数值性属性性属性值:C Cj j=C Cj1 j1,C Cj2j2,C Cjk jk,则分分类问题是要分配每个是要分配每个t ti i到到满足如下条件的足如下条件的类C Cj j:simsim(t ti i,C Cj j)=)=simsim(t ti i,C Cl l),C Cl lC C,C Cl lC Cj j,其中其中simsim(t ti i,C Cj j)被称被称为相似性。相似性。n在在实际的的计算中往往用算中往往用距离距离来表征,距离越近,来表征,距离越近,相似性越大,距离越相似性越大,距离
6、越远,相似性越小。,相似性越小。n距离的距离的计算方法有多种,最常用的是通算方法有多种,最常用的是通过计算每算每个个类的中心来完成。的中心来完成。2024/5/26 周日7.基于距离的分类算法的一般性描述n算法 4-1通过对每个元组和各个类的中心来比较,从而可以找出他的最近的类中心,得到确定的类别标记。算法算法 4-1 基于距离的分类算法输入:每个类的中心C1,Cm;待分类的元组t。输出:输出类别c。(1)dist=;/距离初始化(2)FOR i:=1 to m DO(3)IF dis(ci,t)dist THEN BEGIN(4)c i;(5)distdist(ci,t);(6)END.20
7、24/5/26 周日8.基于距离的分类方法的直观解释(a)类定义(b)待分类样例(c)分类结果2024/5/26 周日9.K-近邻分类算法nK-近邻分类算法(K Nearest Neighbors,简称KNN)通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。算法算法 4-2 K-近邻分类算法输入:训练数据T;近邻数目K;待分类的元组t。输出:输出类别c。(1)N=;(2)FOR each d T DO BEGIN(3)IF|N|K THEN(4)N=Nd;(5)ELSE(6)IF u N such t
8、hat sim(t,u)sim(t,d)THEN BEGIN(7)N=N-u;(8)N=Nd;(9)END(10)END(11)c=class to which the most uN.2024/5/26 周日10.KNN的例子姓名性别 身高(米)类别Kristina女 1.6矮Jim男 2高Maggie女 1.9中等Martha女 1.88中等Stephanie女 1.7矮Bob男 1.85中等Kathy女 1.6矮Dave男 1.7矮Worth男 2.2高Steven男 2.1高Debbie女 1.8中等Todd男 1.95中等Kim女 1.9中等Amy女 1.8中等Wynette女 1.
9、75中等“高度”用于计算距离,K=5,对分类。对T前K=5个记录,N=、和。对第6个记录d=,得到N=、和。对第7个记录d=,得到N=、和。对第8个记录d=,得到N=、和。对第9和10个记录,没变化。对第11个记录d=,得到N=、和。对第12到14个记录,没变化。对第15个记录d=,得到N=、和。最后的输出元组是、和。在这五项中,四个属于矮个、一个属于中等。最终KNN方法认为Pat为矮个。2024/5/26 周日11.第三章第三章 分分类方法方法 内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题 2024/5/26 周
10、日12.决策树表示与例子n决策树(Decision Tree)的每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。n buys_computer的决策树示意 2024/5/26 周日13.决策树分类的特点n决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分枝,在决策树的叶结点得到结论。所以从决策树的根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。n基于决策树的分类算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识(这同时也
11、是它的最大的缺点),只要训练例子能够用属性-结论式表示出来,就能使用该算法来学习。n决策树分类模型的建立通常分为两个步骤:n决策树生成n决策树修剪。2024/5/26 周日14.决策树生成算法描述n构造好的决策树的关键在于如何选择好的属性进行树的拓展。研究结果表明,一般情况下或具有较大概率地说,树越小则树的预测能力越强。由于构造最小的树是NP-难问题,因此只能采取用启发式策略来进行。n属性选择依赖于各种对例子子集的不纯度(Impurity)度量方法,包括信息增益(Informatin Gain)、信息增益比(Gain Ratio)、Gini-index、距离度量(Distance Measur
12、e)、J-measure、G统计、2统计、证据权重(Weight of Evidence)、最小描述长度(MLP)、正交法(Ortogonality Measure)、相关度(Relevance)和 Relief等。算法算法 4-3 Generate_decision_tree(samples,attribute_list)/*决策树生成算法*/输入:训练样本samples,由离散值属性表示;候选属性的集合attribute_list。输出:一棵决策树。(1)创建结点N;(2)IF samples 都在同一个类C THEN 返回N 作为叶结点,以类 C标记;(3)IF attribute_li
13、st为空 THEN 返回N作为叶结点,标记为samples中最普通的类;/多数表决(4)选择attribute_list中具有最高信息增益的属性test_attribute;(5)标记结点N为test_attribute;(6)FOR each test_attribute中的已知值ai 由结点N长出一个条件为test_attribute=ai的分枝;(7)设si是samples 中test_attribute=ai的样本的集合;/一个划分(8)IF si 为空 THEN 加上一个树叶,标记为samples中最普通的类;(9)ELSE 加上一个由Generate_decision_tree(s
14、i,attribute_list-test_attribute)返回的结点;2024/5/26 周日15.决策树修剪算法n基本的决策树构造算法没有考虑噪声,因此生成的决策树完全与训练例子拟合。在有噪声情况下,将导致过分拟合(Overfitting),即对训练数据的完全拟合反而使对现实数据的分类预测性能下降。n现实世界的数据一般不可能是完美的,可能缺值(Missing Values);数据不完整;含有噪声甚至是错误的。n剪枝是一种克服噪声的基本技术,同时它也能使树得到简化而变得更容易理解。有两种基本的剪枝策略:n预先剪枝(Pre-Pruning):在生成树的同时决定是继续对不纯的训练子集进行划分
15、还是停机。n后剪枝(Post-Pruning):是一种拟合+化简(fitting-and-simplifying)的两阶段方法。首先生成与训练数据完全拟合的一棵决策树,然后从树的叶子开始剪枝,逐步向根的方向剪。剪枝时要用到一个测试数据集合(Tuning Set或Adjusting Set),如果存在某个叶子剪去后能使得在测试集上的准确度或其他测度不降低(不变得更坏),则剪去该叶子;否则停机。理论上讲,后剪枝好于预先剪枝,但计算复杂度大。n剪枝过程中一般要涉及一些统计参数或阈值(如停机阈值)。要防止过分剪枝(Over-Pruning)带来的副作用。2024/5/26 周日16.ID3算法nID3
16、是Quinlan提出的一个著名决策树生成方法:n决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。n每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。n采用信息增益来选择能够最好地将样本分类的属性。n为了聚焦重点,将对ID3算法采用如下方式讲解:n伪代码详细描述见课本;n给出信息增益对应的计算公式;n通过一个例子来说明它的主要过程。2024/5/26 周日17.信息增益的计算n设S是s个数据样本的集合,定义m个不同类Ci(i=1,2,m),设si是Ci类中的样本数。对给定的样本S所期望的信息值由下式给出
17、:其中pi是任意样本属于Ci的概率:si/s。n设属性A具有个不同值a1,a2,av,可以用属性A将样本S划分为 S1,S2,Sv,设sij 是Sj中Ci类的样本数,则由A划分成子集的熵由下式给出:n有A进行分枝将获得的信息增益可以由下面的公式得到:2024/5/26 周日18.ID3算法例子样本数据warm_bloodedfeathersfurswimslays_eggs111001200011311001411001510010610100 假设目标分类属性是lays_eggs,计算Gain(lays_eggs):warm_blooded=1,warm_blooded=0,类似的,Gain
18、(feathers)=0.459;Gain(fur)=0.316;Gain(swims)=0.044。由于feathers在属性中具有最高的信息增益,所以它首先被选作测试属性。并以此创建一个结点,数据集被划分成两个子集。2024/5/26 周日19.ID3算法例子(续)n根据feathers的取值,数据集被划分成两个子集n对于feathers=1的所有元组,其目标分类属性=lays_eggs均为1。所以,得到一个叶子结点。n对于feathers=0的右子树,计算其他属性信息增益:nGain(Gain(warm_bloodedwarm_blooded)=)=0.9180.918nGain(Gai
19、n(furfur)=0.318)=0.318nGain(Gain(swimsswims)=0.318)=0.318n根据warm_blooded的取值,左右子树均可得到叶子结点,结束。2024/5/26 周日20.ID3算法的性能分析nID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。nID3算法在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。nID3算法在搜索过程中不进行回溯。所以,
20、它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。nID3算法只能处理离散值的属性。n信息增益度量存在一个内在偏置,它偏袒具有较多值的属性。例如,如果有一个属性为日期,那么将有大量取值,这个属性可能会有非常高的信息增益。假如它被选作树的根结点的决策属性则可能形成一颗非常宽的树,这棵树可以理想地分类训练数据,但是对于测试数据的分类性能可能会相当差。nID3算法增长树的每一个分支的深度,直到恰好能对训练样例完美地分类。当数据中有噪声或训练样例的数量太少时,产生的树会过渡拟合训练样例。2024/5/26 周日21.C4.5算法对ID3的主要改进nC4.5算法是从ID3算法演变而来
21、,除了拥有ID3算法的功能外,C4.5算法引入了新的方法和增加了新的功能:n用信息增益比例的概念;n合并具有连续属性的值;n可以处理具有缺少属性值的训练样本;n通过使用不同的修剪技术以避免树的过度拟合;nK交叉验证;n规则的产生方式等。2024/5/26 周日22.信息增益比例的概念n信息增益比例是在信息增益概念基础上发展起来的,一个属性的信息增益比例用下面的公式给出:其中假如我们以属性A的值为基准对样本进行分割的化,Splitl(A)就是前面熵的概念。2024/5/26 周日23.C4.5处理连续值的属性n对于连续属性值,C4.5其处理过程如下:n根据属性的值,对数据集排序;n用不同的阈值将
22、数据集动态的进行划分;n当输出改变时确定一个阈值;n取两个实际值中的中点作为一个阈值;n取两个划分,所有样本都在这两个划分中;n得到所有可能的阈值、增益及增益比;n在每一个属性会变为取两个取值,即小于阈值或大于等于阈值。n简单地说,针对属性有连续数值的情况,则在训练集中可以按升序方式排列。如果属性A共有n种取值,则对每个取值vj(j=1,2,n),将所有的记录进行划分:一部分小于vj;另一部分则大于或等于vj。针对每个vj计算划分对应的增益比率,选择增益最大的划分来对属性A进行离散化。2024/5/26 周日24.C4.5的其他处理 nC4.5处理的样本中可以含有未知属性值,其处理方法是用最常
23、用的值替代或者是将最常用的值分在同一类中。n具体采用概率的方法,依据属性已知的值,对属性和每一个值赋予一个概率,取得这些概率,取得这些概率依赖于该属性已知的值。n规则的的产生:生:一旦树被建立,就可以把树转换成if-then规则。n规则存储于一个二维数组中,每一行代表树中的一个规则,即从根到叶之间的一个路径。表中的每列存放着树中的结点。2024/5/26 周日25.C4.5算法例子样本数据OutlookTemperatureHumidityWindPlayTennisSunnyHot85falseNoSunnyHot90trueNoOvercastHot78falseYesRainMild96
24、falseYesRainCool80falseYesRainCool70trueNoOvercastCool65trueYesSunnyMild95falseNoSunnyCool70falseYesRainMild80falseYesSunnyMild70trueYesOvercastMild90trueYesOvercastHot75falseYesRainMild80trueNo(1)首先对Humidity进行属性离散化,针对上面的训练集合,通过检测每个划分而确定最好的划分在75处,则这个属性的范围就变为(75)。(2)计算目标属性PlayTennis分类的期望信息:(3)计算每个属性的
25、GainRatio:(4)选 取 最 大 的GainRatio,根 据Outlook的取值,将三分枝。(5)再扩展各分枝节点,得到最终的决策树(见课本图4-7)。2024/5/26 周日26.第三章第三章 分分类方法方法 内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题 2024/5/26 周日27.贝叶斯分类n定定义4-2 4-2 设X X是是类标号号未未知知的的数数据据样本本。设H H为某某种种假假定定,如如数数据据样本本X X属属于于某某特特定定的的类C C。对于于分分类问题,我我们希希望望确确定定P(H|X)P
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。