数据挖掘期末实验报告.doc
《数据挖掘期末实验报告.doc》由会员分享,可在线阅读,更多相关《数据挖掘期末实验报告.doc(19页珍藏版)》请在咨信网上搜索。
(完整word版)数据挖掘期末实验报告 数据挖掘技术期末报告 理学院 姓名: 学号: 联系电话: 专业班级: 评分:优□|良□|中□|及格□|不及格□ 一、实验目的 基于从UCI公开数据库中下载的数据,使用数据挖掘中的分类算法,用Weka平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。 二、实验环境 实验采用Weka平台,数据使用来自从UCI公开数据库中下载,主要使用其中的Breast Cancer Wisc-onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 三、实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度; 3.Uniformity of Cell Size(numeric)均匀的细胞大小; 4. Uniformity of Cell Shape(numeric),均匀的细胞形状; 5.Marginal Adhesion(numeric),边际粘连; 6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小; 7.Bare Nuclei(numeric),裸核; 8.Bland Chromatin(numeric),平淡的染色质; 9. Normal Nucleoli(numeric),正常的核仁; 10.Mitoses(numeric),有丝分裂; 11.Class(enum),分类。 3.2数据分析 由UCI公开数据库得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据——分列——下一步——逗号——完成,该数据是有关乳腺癌数据集,有11个属性,分别为Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工添加一行属性名。Weka分类数据需把excel保存为一个csv文件。 图1中显示的是使用“Exploer”打开“乳腺癌数据集.csv.arff”的情况.如图1所示: (图1) 3.2.1 数据预处理 很明显发现,所用的数据都是(numeric)数值型的,需要将数值型离散化,将“Clump Thickness ”,“Uniformity of Cell Size ”,“Uniformity of Cell Shape”,“ Marginal Adhesion ”,“ Marginal Adhesion ”,“ Bare Nuclei ”,“ Bland Chromatin ”,“Normal Nucleoli ”,“Mitoses”,“Class” 离散化。我们需要借助Weka中名为“Discretize”的Filter来完成。在区域2中点“Choose”,出现一棵“Filter树”,逐级找到“weka.filters.unsupervised.attribute.Discretize”点击,即可。 现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。 如图箭头所示,点击这个文本框会弹出新窗口以修改离散化的参数。我们需将第1,2,3,4,5,6,7,8,9,10项离散化,其中第一项为id,可移除。把attributeIndices右边改成“1,2,3,4,5,6,7,8,9,10”。我们把这两个属性都分成10段,于是把“bins”改成“10”。其它不变。点“OK”回到“Explorer”,可以看到“Clump Thickness ”,“Uniformity of Cell Size ”,“Uniformity of Cell Shape”,“ Marginal Adhesion ”,“ Marginal Adhesion ”,“ Bare Nuclei ”,“ Bland Chromatin ”,“Normal Nucleoli ”,“Mitoses”, 已经被离散化成分类型的属性。经移除后剩10项属性,其中一项如图2所示,10项属性可视化如图3所示: (图2) (图3) 3.3.1决策树分类 用“Explorer”打开刚才得到的“乳腺癌数据集.csv.arff”,并切换到“Class”。点“Choose”按钮选择“tree(weka.classifiers.trees.j48)”,这是Weka中实现的决策树算法。得到结果如图4和图5所示: (图4) (图5) 这个是针对第一项Clump Thickness丛厚度和第九项Mitoses有丝分裂项运用C4.5决策算法得到误差分析的结果,分析可知总共有699个数据进行分类,Clump Thickness(丛厚度)其中102个为正确分类,正确分类率为26.03726%,517个为错误分类,错误分类为73.9268%。而第九项Mitoses有丝分裂项也是分析699个数据,其中正确分类有579个数据,正确率为82.8326%,错误分类的有120个,错误分类的有17.1674%。根据混淆矩阵,被错误分类实例很多如图 (图6) 3.3.2贝叶斯分类 为了与上面决策树作比较,贝叶斯也选择第一项第一项Clump Thickness丛厚度和第九项Mitoses有丝分裂项,得到结果如下图7,8所示: (图7) (图8) 这个是针对第一项Clump Thickness丛厚度和第九项Mitoses有丝分裂项运用贝叶斯算法得到误差分析的结果,分析可知总共有699个数据进行分类,Clump Thickness(丛厚度)其中198个为正确分类,正确分类率为28.3262%,501个为错误分类,错误分类为71.6738%。而第九项Mitoses有丝分裂项其中正确分类有467个数据,正确率为66.8097%,错误分类的有232个,错误分类的有33.1903%。根据混淆矩阵,被错误分类实例很多,相对来说,Clump Thickness丛厚度用两种方法混淆程度差不多,错综复杂,而Mitoses有丝分裂项用贝叶斯分类明显混淆矩阵要比用决策树方法混淆率要低,中间第六项到就第九项明显混响不是很多,如图9所示。基于以上两种分析,建议用贝叶斯分类方法分类,降低混淆率,提高正确率。 (图9) 3.3.3K最近邻算法分类 在刚才进行决策树分类和贝叶斯分类的的的那个页面,点“Choose”按钮选择“laze->ibk”,选择Cross-Validatioin folds=10,然后点击“start”按钮:同样选择图中箭头指向选择属性,然后点击“start”按钮:为了与上面决策树和贝叶斯作比较,K最近邻算法分类也选择第一项Clump Thickness丛厚度和第九项Mitoses有丝分裂项,得到结果如下图10,11所示: (图10) (图11) 这个是针对第一项Clump Thickness丛厚度和第九项Mitoses有丝分裂项运用K最近邻算法得到误差分析的结果,分析可知总共有699个数据进行分类,Clump Thickness(丛厚度)其中191个为正确分类,正确分类率为27.3247%,508个为错误分类,错误分类为72.6753%。而第九项Mitoses有丝分裂项其中正确分类有546个数据,正确率为78.1116%,错误分类的有153个,错误分类的有21.8884%。根据混淆矩阵,被错误分类实例很多,相对来说,Clump Thickness丛厚度与前两个算法混淆程度差不多,错综复杂,甚至比前两个更要复杂,而Mitoses有丝分裂项用K最近邻算法明显混淆矩阵要比用决策树方法和贝叶斯方法混淆率要低,中间第四项到就最后明显混响不是很多,如图12所示: (图12) 3.4三种分类方法结果比较 如表所示: 决策树 贝叶斯 K最近邻算法 Clump Thickness正确率 26.03726% 28.3262% 27.3247%, Clump Thickness标准误差 0.3109 0.3119 0.3227 Mitoses正确率 82.8326% 66.8097% 78.1116% Mitoses标准误差 0.1755 0.2104 0.1989 四、三种算法在进行测试的性能比较 要进行性能比较,则需比较这10项属性的预测,同上文一样,这里只比较第一项Clump Thickness丛厚度和第九项Mitoses有丝分裂项,点“more options...”按钮,选勾选“out prediction”,其他不勾选,然后点击“OK”按钮如图13所示: (图13) 得到性能测试结果如下,图14分别为第一项Clump Thickness丛厚度用决策树方法、贝叶斯、K最近邻算法预测的结果,图15分别为第九项Mitoses有丝分裂项用决策树方法、贝叶斯、K最近邻算法预测的结果。结果如下: (图14) 分析第一项Clump Thickness丛厚度。性能分析应该包括两个部分,一个部分是测试速度,另一个部分是测试的质量。由于本次使用所使用的数据量一般,不是很多,在测试速度的对比上相差太少,无法进行准确的分析。而在测试质量上,可以从上述数据中很明显得到,在“error”(错误项),决策树和K最近邻算法很多加号,这说明错误率很大,从而导致分类质量的降低;而对于“probability distribution”(概率分布项),决策树和K最近邻算法分布很混乱,前六项属性的概率分布波动较大,而贝叶斯与其相比,“error”(错误项)几乎无“+”,说明其错误率相对其他两种方法,贝叶斯的错误率降低很多,而且在“probability distribution”(概率分布项),上,分布很整齐,所以从性能角度上讲,贝叶斯算法好一点。 (图15) 观察图15,分析第九项Mitoses有丝分裂项,同分析第一项Clump Thickness丛厚度一样。在测试速度的对比上相差太少,无法进行准确的分析。而在测试质量上,可以从上述数据中很明显得到,在“error”(错误项),决策树与贝叶斯相比,明显决策树加号要多,这说明决策树算法错误率很大,从而导致分类质量的降低,而比较贝叶斯和K最近邻算法,“error”(错误项)贝叶斯错误率明显比K最近邻算法要多,而对于“probability distribution”(概率分布项),贝叶斯与K最近邻算法分布相对混乱,对于K最近邻算法,第一项属性Clump Thickness丛厚度的所有概率分布大致相同,对于第3、5、11、12...项数据,分布很整齐。所以从性能角度上讲,K最近邻算法好一点。 五、实验总结 以上实验是对Breast Cancer Wisconsin (Original) Data Set数据做了一些分析,通过本次数据挖掘实验,重新学习了一下数据挖掘的相关概念和知识,理解了数据挖掘的用途和使用步骤,进一步学习了WEKA开源数据挖掘工具在数据挖掘学习中的使用方法。通过本次实验,也认识到了数据挖掘对大量的数据进行探索后,能揭示出其中隐藏着的规律性内容,并且由此进一步形成模型化的分析方法。可以建立整体或某个业务过程局部的不同类型的模型,可以描述发展的现状和规律性,而且可以用来预测当条件变化后可能发生的状况。这可以为后续的研究提供更好的支持依据。 本次实验进行比较顺利,使我对如何在Weka中进行分类分析有了更深刻的了解,对Weka中进行分类分析的决策树算法、贝叶斯算法、K最近邻算法都有了进一步的理解,同时也深刻体会到数据预处理对于数据挖掘的重要性。 19- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 期末 实验 报告
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文