决策树算法总结讲课教案.doc

上传人：a199****6536

文档编号：3808818

上传时间：2024-07-19

格式：DOC

页数：19

大小：14.71MB

《决策树算法总结讲课教案.doc》由会员分享，可在线阅读，更多相关《决策树算法总结讲课教案.doc（19页珍藏版）》请在咨信网上搜索。

1、决策树算法总结精品文档决策树研发二部收集于网络，如有侵权请联系管理员删除文件状态：草稿正式发布正在修改文件标识：当前版本：1.0作者：张宏超完成日期：2019年3月8日目录1.算法介绍11.1.分支节点选取11.2.构建树31.3.剪枝102.sk-learn中的使用123.sk-learn中源码分析13 1. 算法介绍决策树算法是机器学习中的经典算法之一，既可以作为分类算法，也可以作为回归算法。决策树算法又被发展出很多不同的版本，按照时间上分，目前主要包括，ID3、C4.5和CART版本算法。其中ID3版本的决策树算法是最早出现的，可以用来做分类算法。C4.5是针对ID3的不足出现的

2、优化版本，也用来做分类。CART也是针对ID3优化出现的，既可以做分类，可以做回归。决策树算法的本质其实很类似我们的if-elseif-else语句，通过条件作为分支依据，最终的数学模型就是一颗树。不过在决策树算法中我们需要重点考虑选取分支条件的理由，以及谁先判断谁后判断，包括最后对过拟合的处理，也就是剪枝。这是我们之前写if语句时不会考虑的问题。决策树算法主要分为以下3个步骤：1. 分支节点选取2. 构建树3. 剪枝1.1. 分支节点选取分支节点选取，也就是寻找分支节点的最优解。既然要寻找最优，那么必须要有一个衡量标准，也就是需要量化这个优劣性。常用的衡量指标有熵和基尼系数。熵：熵用来表示信

3、息的混乱程度，值越大表示越混乱，包含的信息量也就越多。比如，A班有10个男生1个女生，B班有5个男生5个女生，那么B班的熵值就比A班大，也就是B班信息越混乱。基尼系数：同上，也可以作为信息混乱程度的衡量指标。有了量化指标后，就可以衡量使用某个分支条件前后，信息混乱程度的收敛效果了。使用分支前的混乱程度，减去分支后的混乱程度，结果越大，表示效果越好。#计算熵值def entropy(dataSet): tNum = len(dataSet) print(tNum) #用来保存标签对应的个数的，比如,男：6，女：5 labels = for node in dataSet: curL = node

4、-1 #获取标签 if curL not in labels.keys(): labelscurL = 0 #如果没有记录过该种标签，就记录并初始化为0 labelscurL += 1 #将标签记录个数加1 #此时labels中保存了所有标签和对应的个数 res = 0 #计算公式为-p*logp，p为标签出现概率 for node in labels: p = float(labelsnode) / tNum res -= p * log(p, 2) return res#计算基尼系数def gini(dataSet): tNum = len(dataSet) print(tNum) # 用

5、来保存标签对应的个数的，比如,男：6，女：5 labels = for node in dataSet: curL = node-1 # 获取标签 if curL not in labels.keys(): labelscurL = 0 # 如果没有记录过该种标签，就记录并初始化为0 labelscurL += 1 # 将标签记录个数加1 # 此时labels中保存了所有标签和对应的个数 res = 1 # 计算公式为-p*logp，p为标签出现概率 for node in labels: p = float(labelsnode) / tNum res -= p * p return res

6、1.2. 构建树ID3算法：利用信息熵增益，决定选取哪个特征作为分支节点。分支前的总样本熵值-分支后的熵值总和=信息熵增益。A：10个B：10个特征T1A：5个B：8个A：5个B：2个A：10个B：10个特征T2A：3个B：9个A：7个B：1个T1的信息熵增益：1 13/20*0.961 - 7/20*0.863 = 0.073T2的信息熵增益：1 12/20*0.812 - 8/20*0.544 = 0.295所以使用T2作为分支特征更优。ID3算法建树：依据前面的逻辑，递归寻找最优分支节点，直到下面情况结束1. 叶节点已经属于同一标签2. 虽然叶节点不属于同一标签，但是特征已经用完了3.

7、熵小于预先设置的阈值4. 树的深度达到了预先设置的阈值ID3算法的不足：1. 取值多的特征比取值少的特征更容易被选取。2. 不包含剪枝操作，过拟合严重3. 特征取值必须是离散的，或者有限的区间的。于是有了改进算法C4.5C4.5算法：基于ID3算法进行了改进，首先，针对ID3的不足1，采用信息增益率取代ID3中使用信息增益而造成的偏向于选取取值较多的特征作为分裂点的问题。针对ID3的不足2，采用剪枝操作，缓解过拟合问题。针对ID3的不足3，采用将连续值先排列，然后逐个尝试分裂，找到连续值中的最佳分裂点。信息增益率的计算：先计算信息增益，然后除以spliteInfo。spliteInfo为分裂后

8、的子集合的函数，假设分裂后的子集合个数为sub1和sub2，total为分裂前的个数。spliteInfo = -sub1 / total * log(sub1 / total) sub2 / total * log(sub2 / total)#index:特征序号#value:特征值#该方法表示将index对应特征的值为value的集合返回，返回集合中不包含index对应的特征def spliteDataSet(dataSet, index, value): newDataSet = for node in dataSet: if nodeindex = value: #0,index)列的

9、数据 newData = node:index #index+1,最后列的数据 newData.extend(nodeindex + 1:) newDataSet.append(newData) return newDataSet;#选择最优分裂项def chooseBestFeature(dataSet): #特征个数 featureNum = len(dataSet0) - 1 #计算整体样本的熵值 baseEntropy = entropy(dataSet) print(baseEntropy = %f%(baseEntropy) #保存最大的信息增益率 maxInfoGainRatio

10、 = 0.0 bestFeatureId = -1 for i in range(featureNum): #获取特征所有可能的值 featureValues = for node in dataSet: featureValues.append(nodei) print(featureValues) #将特征值去除重复 uniqueFeatureValues = set(featureValues) print(uniqueFeatureValues) #按照i特征分裂之后的熵值 newEntropy = 0.0 #分裂信息 spliteInfo = 0.0 #按照i所表示的特征，开始分裂数

11、据集 for value in uniqueFeatureValues: #当i属性等于value时的分裂结果 subDataSet = spliteDataSet(dataSet, i, value) print(subDataSet) #计算占比 p = float(len(subDataSet) / float(len(dataSet) newEntropy += p * entropy(subDataSet) spliteInfo += -p * log(p, 2) #计算信息增益 infoGain = baseEntropy - newEntropy #计算信息增益率 if spli

12、teInfo = 0: continue infoGainRatio = infoGain / spliteInfo if infoGainRatio maxInfoGainRatio: maxInfoGainRatio = infoGainRatio bestFeatureId = i return bestFeatureIdC4.5算法的不足：1. 如果存在连续值的特征需要做排序等处理，计算比较耗时2. 只能用于分类使用于是有了CART算法CART算法：也是基于ID3算法优化而来，支持分类和回归，使用基尼系数（分类树）或者均方差（回归树）替代熵的作用，减少运算难度。使用二叉树代替多叉树建模

13、，降低复杂度。基尼系数的计算：均方差的计算：计算举例，假设有如下数据源看电视时间婚姻情况职业年龄3未婚学生124未婚学生182已婚老师265已婚上班族472.5已婚上班族363.5未婚老师294已婚学生21如果将婚否作为标签，该问题是一个分类问题，所以使用基尼系数假设使用职业作为特征分支，对于看电视和年龄，都是连续数据，需要按照C4.5的算法排序后处理，这里先分析简单的按照职业开始划分。又因为，CART算法的建模是二叉树，所以，针对职业来说，有以下组合，学生|非学生，老师|非老师，上班族|非上班族，到底怎么划分，就要通过基尼系数来判断了。gini = 3 / 7 * (1 2 / 3 * 2

14、/3 1 / 3 * 1 / 3) + 4 / 7 * (1 3 / 4 * 3 / 4 1 / 4 * 1 / 4) = 0.4gini = 2 / 7 * (1 1 / 2 * 1 / 2 1 / 2 * 1 / 2) + 5 / 7 * (1 2 / 5 * 2 / 5 3 / 5 * 3 / 5) = 0.49gini = 2 / 7 * (1 1 * 1) + 5 / 7 * (1 3 / 5 * 3 / 5 2 / 5 * 2 / 5) = 0.34所以，如果选择职业来划分，那么首先应该按照上班族|非上班族划分如果将年龄作为标签，该问题是一个回归问题，所以使用均方差同样，先考虑使用

15、职业来划分mean = 开方(12 * 12 + 18 * 18 + 21 * 21 3 * 17 * 17) + 开方(26 * 26 + 47 * 47 + 36 * 36 + 29 * 29 5 * 32.5 * 32.5) = 34.71其他情况略。可以看到选择分裂属性这一步骤会比较麻烦，首先要遍历所有特征，找到每一个特征的最优分裂方法，然后在选择最优的分裂特征。功能树结构特征选取连续值处理缺失值处理剪枝ID3分类多叉信息增益不支持不支持不支持C4.5分类多叉信息增益率支持支持支持CART分类/回归二叉基尼系数（分类），均方差（回归）支持支持支持1.3. 剪枝CCP（Cost Comp

16、lexity Pruning）代价复杂性剪枝法（CART常用）REP（Reduced Error Pruning）错误降低剪枝法PEP（Pessimistic Error Pruning）悲观错误剪枝法（C4.5使用）MEP（Minimum Error Pruning）最小错误剪枝法这里以CCP为例讲解其原理CCP选择节点表面误差率增益值最小的非叶子节点，删除该节点的子节点。若多个非叶子节点的表面误差率增益值相同，则选择子节点最多的非叶子节点进行裁剪。表面误差率增益值计算：R(t)表示非叶子节点的错误率，比如，总样本20，在A节点上a类5个，b类2个，所以可以认为A节点代表的是a类，那么错误率

17、就是2 / 7 * 7 / 20R(T)表示叶子节点的错误率累积和N(T)表示叶子节点的个数剪枝步骤：1 构建子树序列2 找到最优子树，作为我们的决策树（交叉验证等）举例：t1是根节点t2，t3，t4，t5是非叶子节点t6，t7，t8，t9，t10，t11是叶子节点首先我们计算所有非叶子节点误差率增益值t4:(4/50 * 50/80 1/45 * 45/80 2/5 * 5/80) / (2 1) = 0.0125t5:(4/10 * 10/80 0 - 0) / (2 - 1) = 0.05t2:(10/60 * 60/80 1/45 * 45/80 2/5 * 5/80 0 - 0) /

18、 (4 - 1) = 0.0292t3:0.0375因此得到第1颗子树：T0 = t4（0.0125），t5（0.05），t2（0.0292），t3（0.0375）比较发现可以将t4裁剪掉得到第2颗子树t5:0.05t3:0.0375t2:(10/60 * 60/80 4/50 * 50/80 0 - 0) / (3 -1) = 0.0375此时t2与t3相同，那么裁剪叶子节点较多的，因此t2被裁剪得到第3颗树然后对上面3颗子树进行验证，找到效果最后的作为剪枝之后的决策树。2. sk-learn中的使用from sklearn.datasets import load_irisfrom skl

19、earn import treeimport pydotplusimport graphviziris = load_iris()clf = tree.DecisionTreeClassifier()clf.fit(iris.data, iris.target)dot_data = tree.export_graphviz(clf, out_file=None)graph = pydotplus.graph_from_dot_data(dot_data)graph.write_pdf(iris.pdf)3. sk-learn中源码分析主要分析tree的相关函数代码，使用pycharm下载skl

20、earn包中tree文件，引用了_tree.pxd，pxd相当于头文件，其实现在_tree.pyd中，pyd是加密文件，无法查看。从github上下载源码中有_tree.pyx相当于c文件，因此可以查看。.pxd:相当于.h.pyx:相当于.c.pyd:相当于dlltree.DecisionTreeClassifier()创建分类决策树对象DecisionTreeClassifier继承BaseDecisionTreeclf.fit(iris.data, iris.target) 建树DecisionTreeClassifier直接使用了父类BaseDecisionTree的方法super()

21、.fit( X, y, sample_weight=sample_weight, check_input=check_input, X_idx_sorted=X_idx_sorted)查看DecisionTreeClassifier的fit，学习建树过程代码前面是对参数的校验之类的工作criterion：表示选择分裂节点的准则，CLF表示分类使用gini系数、熵等，REG表示回归使用均方差等。他们的定义在对于这些准则的计算，在_criterion.Gini或者其他文件中实现，使用Cpython实现的。以Gini的计算为例同理，分裂的规则定义在splitter中，具体实现也是在Cpython中最后是构造器，这也是面向对象设计模式中的一种设计模式，构造器模式。思想是，构造器中根据加入的原料，产出不同的东西。builder = DepthFirstTreeBuilder（优先深度）builder = BestFirstTreeBuilder（优先最优）他们的代码实现在_tree.pyx中

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

5 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 决策树算法总结讲课教案

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【a199****6536】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。