决策树分类算法在教学分析中的应用大学学位论文.doc
《决策树分类算法在教学分析中的应用大学学位论文.doc》由会员分享,可在线阅读,更多相关《决策树分类算法在教学分析中的应用大学学位论文.doc(37页珍藏版)》请在咨信网上搜索。
1、 本科毕业论文(设计)题目:决策树分类算法在教学分析中的应用姓 名: 学 号: 专 业: 院 系: 信息工程 指导老师: 职称学位: 助教硕士 完成时间: 教务处制 安徽新华学院本科毕业论文(设计)独创承诺书本人按照毕业论文(设计)进度计划积极开展实验(调查)研究活动,实事求是地做好实验(调查)记录,所呈交的毕业论文(设计)是我个人在导师指导下进行的研究工作及取得的研究成果。据我所知,除文中特别加以标注引用参考文献资料外,论文(设计)中所有数据均为自己研究成果,不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的工作已在论文中作了明确说明并表示谢意。毕业论文(设计)作者签名
2、: 日 期: I安徽新华学院2015届本科毕业论文(设计)决策树分类算法在教学分析中的应用摘 要随着信息科技的高速发展,人们对于积累的海量数据量的处理工作也日益增重,需求是发明之母,数据挖掘技术就是为了顺应这种需求而发展起来的一种数据处理技术。数据挖掘技术又称数据库中的知识发现,是从一个大规模的数据库的数据中有效地、隐含的、以前未知的、有潜在使用价值的信息的过程。在学生管理以及教学科学化的今天,传统的教学分析已经不能适应社会发展的需求。学生信息数据不断的增多,教学分析工作也日益加重。学生信息数据量不断的增多,对之前所累计的大量学生考试成绩数据运用数据挖掘技术进行分析挖掘是具有重大的意义的,这样
3、可以把所挖掘分析出来的信息反馈用于指导学校的教学分析,从而提高学生的学习成绩。本文通过学生成绩信息运用数据挖掘技术,对所采集的数据进行预处理,运用决策树分类算法中的C4.5算法对成绩进行分析得到了成绩分析决策树,分析研究出有用的信息找到影响学生的因素,发现某些规律的存在,用以指导学校教学分析工作的开展。关键词: 数据挖掘;学生成绩;决策树 Application of decision tree in grade examination analysisAbstractWith the rapid development of Information Technology, people ar
4、e facing much more work load in dealing with the accumulated mass data. Data mining technology is also called the knowledge discovery in database, data from a large database of effectively, implicit, previously unknown and potentially use value of information process. In todays scientific management
5、 and teaching, the traditional teaching analysis already can not adapt to the demand of social development. Continuous increase in the number of student information data, analysis of teaching work is also growing. Student information data quantity unceasing increase, a large number of students test
6、scores of previously accumulated data mining analysis on applying data mining technology is of great significance, it can put the information feedback from our mining analysis, used to guide the schools teaching analysis, so as to improve the students academic performance. This paper intends to show
7、 the use of Data Mining Technique in the analysis of students score information in Examination, from the pretreatment on the collected data to the use of decision tree technique in data analysis. This employs C4.5 algorithm in decision tree technique to get the decision tree of the students score. T
8、hen by analyzing the useful information to find out the elements that can influence score and the rules in these influences to instruct school teaching work. Key words:Data mining;grade examination;decision tree;II目 录1 绪 论11.1研究背景与意义11.2数据挖掘的国内外研究现状11.3论文研究内容及结构安排22 数据挖掘技术42.1数据挖掘的概念42.1.1数据挖掘的背景42.
9、1.2 数据挖掘的定义42.2 数据挖掘的过程42.2.1 数据对象的确立52.2.2数据预处理阶段52.2.3数据挖掘阶段62.2.4结果的解释和评估阶段62.3数据挖掘的主要方法62.4数据挖掘的功能72.5本章小结93 决策树技术103.1决策树简介103.2决策树的主要算法113.2.1 ID3算法113.2.2 C4.5算法123.3决策树剪枝153.4本章小结184 C4.5算法在学生考试成绩中的应用194.1成绩分析方法的依据194.2 决策树算法在考试成绩分析中的应用194.2.1 确定对象集目标194.2.2 数据的采集204.2.3 数据预处理214.2.4 数据挖掘工作的
10、展开224.2.5结果分析275 总结与展望285.1研究结果285.2后续研究与展望28参考文献311 绪 论1.1研究背景与意义 无论在企业应用领域,还是在科学领域,数据挖掘技术有着广泛的应用价值。 在企业应用领域,用于制定好的市场策略以及企业的关键性决策。在商业面,数据挖掘技术可以增强企业的竞争优势,缩短销售周期,降低生产成本,有助制定市场计划和销售策略,并已经成为电子商务中的关键技术。近年来,随着我国高等教育的飞速发展,高校的教学管理信息不断增多。教学工作信息化有了很大的进步,好多高校在管理学生和教师信息方面有了很好的方式。比如我校的教务系统,这些系统为老师和学生提供了很好的帮助。这些
11、系统中积累了大量的数据。目前的这些数据库系统虽然基本上都可以实现数据的录入、修改、统计、查询等功能,但是这些数据所隐藏的价值并没有被充分的挖掘和利用,信息资源的浪费还是比较严重的。随着数据挖掘技术的不断扩展,许多高校为了避免信息浪费,已经将数据挖掘技术应用于高校的教学分析中。数据挖掘技术的应用将对提高学生成绩和提高教学水平起到很好的指导作用。为了提高教学质量,将数据挖掘技术引入到高校学生成绩分析中,对这些数据进行深入的挖掘和合理的分析,从而挖掘出传统的分析方法所无法得出的结论。进而利用分析结果引导教学的开展,从而有利于提高教学质量。本文主要是基于如下背景开展的:以安徽新华学院历届学生成绩为背景
12、,首先学习数据挖掘的理论知识以及决策树技术,然后建立新华学院学生成绩数据库,并利用数据挖掘技术中的决策树对自己建立的数据库进行深入的挖掘。最后对自己的挖掘结果进行分析,得到影响学生成绩的因素。从而更好的辅助今后学校的教学分析工作。1.2数据挖掘的国内外研究现状1989年8月在美国召开的第十一届国际人工智能联合会议的专题讨论会上,与数据挖掘(Date Mining)极为相似的术语从数据库中发现知识一词被提出。1993年以后,美国计算机协会美年都举行了专门研究探讨数据挖掘技术的会议,会议的规模也发展成为国际学术大会,并且在各个领域里取得了很多研究成果。最近,Gartner Group的一次高级技术
13、调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。1根据最近Gartner的HPC研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。”国外研究数据挖掘的组织、机构或大学很多。比较著名的如卡内基梅隆大学、斯坦福大学。著名的研究机构如:KDNet 、ACM、NCDM等。国外比较著名的挖掘工具:IBM公司的Intelligent Miner 、SAS公司的Enterprise Miner
14、、SGI公司的SetMiner、SPSS公司的Clementine、Oracle Darwin等。不少的软件在国外得到了广泛的应用,并收到了明显的效益。相对国外而言,我国的研究还没有形成整体的力量。国家在93年首次支持该领域的研究。现如今,国内的许多高等院校和科研单位积极开展知识发现的基础理论以及知识发现的应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关
15、联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。1.3论文研究内容及结构安排 本课题的主要工作是将数据挖掘技术和学校的信息管理系统相结合,新华学院多年来的信息化教学管理工作积累了大量的教学数据,从新华学院的数据库中收集学生的考试成绩信息。利用数据挖掘技术对这些数据进行分析,获得影响学生成绩的因素,更好的辅助学校如何提高学生成绩以及提高教学质量。本课题根据指导老师提供的11级学生成绩的信息,建立安徽新华学院11级学生成绩库,采用数据挖掘技术对成绩库进行挖掘。通过对实验结果进行深入分析,获得影响学生考试成绩的因素,辅助教师
16、在以后的教学工作中采用更恰当的教学方式,指导学生应该具有什么样的学习态度,从而提高学生考试成绩。 论文结构如下:第一章 绪论。 主要介绍了论文的研究背景与意义,叙述了国内外数据挖掘技术的研究现状。第二章 数据挖掘的基础知识。 主要叙述了数据挖掘的定义、数据挖掘的过程以及数据挖掘的方法。第三章 决策树。 主要简要介绍了决策树以及决策树的经典算法。第四章 决策树在计算机等级考试成绩分析中的应用第五章 总结与展望。总结本篇论文并展望今后论文的继续研究方向内容方向。2 数据挖掘技术2.1数据挖掘的概念2.1.1数据挖掘的背景 随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用
17、的知识成为当务之急。数据库技术的成熟以及数据应用的普及,虽然目前的数据库系统可以高效的实现数据的录入、查询、统计的功能,但无法发现数据中潜在的信息和价值,无法利用这些数据来预测未来的发展趋势。于是,新的问题就被提出来了:人类如何在这浩瀚的数据中及时发现有用的知识,提高数据的利用率呢?在不懈的努力下,从数据库中发现知识(Knowledge Discovery in Datebases)及其核心技术数据挖掘(Date Mining)便应运而生,并得以蓬勃的发展,越来越显出其强大的生命力。2.1.2 数据挖掘的定义数据挖掘(Data Mining),又译为资料探勘、数据采矿。它是数据库中的知识发现(
18、Knowledge Discovery in Datebases,简称:KDD),是目前人工智能和数据库领域研究的热点问题,数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。所谓数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中自动搜索隐藏于其中的有着特殊关系的信息,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程2。2.2 数据挖掘的过程数据挖掘的过程可以分为以下几个部分:理解数据和数据的来源(unders tanding)、 获取相关知识与技术(acquisition)、 整合与检查数据(integration and checking)、 去
19、除错误或不一致的数据(data cleaning)、 建立模型和假设(model and hypothesis development)、 实际数据挖掘工作(data mining)、测试和验证挖掘结果、解释和应用(interpretation and use)。大概可以四个部分数据对象的确立(Date Object Determined)数据预处理(Date Preprocessing)、数据挖掘(Date Mining)及结果的解释和评估(Interpretation and Evaluation)3。2.2.1 数据对象的确立 明确我们研究问题所需要的数据,理解数据并提出问题,需要进行数
20、据挖掘的数据信息,明确数据挖掘的目标的定义。确定数据挖掘目标是数据挖掘重要的一步。我们进行数据挖掘时,挖掘的结果往往是不可预测的,但对要进行挖掘的目标是可预见的,即明确数据挖掘的最终目标4。 数据对象的确立,包括对大量数据的选取、数据属性的确定等。本文是安徽新华学院学生成绩的数据挖掘技术应用,这些数据包含新华学院历届的学生考试成绩数据,数据属性包括学生姓名、性别、年龄、专业、成绩等。2.2.2数据预处理阶段 现实世界中数据大体上都是不完整的、含有噪声的、甚至不一致的数据,我们无法直接对对这些数据进行挖掘,有时挖掘的结果差强人意。为了提高数据挖掘的质量,数据预处理技术被提出了5。数据预处理是数据
21、挖掘过程中的一个很重要的步骤,数据预处理有很多种方法,一般将数据预处理又分为四个步骤:数据清洗、数据集成、数据变换、数据归约。数据清洗处理过程通常包括:填补遗漏的数据值、光滑有噪声数据、识别或删除异常值、以及解决不一致问题。数据集成就是将多个数据源的数据合并到一起并统一存储,建立数据仓库的过程实际上就是数据集成。在数据集成时要特别注意消除数据的冗余。数据变换主要是对数据进行规格化操作,将数据转换成适用于数据挖掘的形式。数据挖掘时对应的数据量往往是非常大的,数据归约是缩小所挖掘数据的规模,但保持数据的完整性。2.2.3数据挖掘阶段数据挖掘阶段是数据挖掘的核心步骤,也是技术难点所在。而数据挖掘阶段
22、的核心就是模式的发现6。此阶段主要是确定对数据进行分类还是聚类,确定数据的关联规则等等。然后确定用什么数据挖掘算法对数据进行挖掘,再利用数据挖掘的工具和一系列方法对之前所确定以及转换后的数据进行分析、产生一个特定的有意义的模式以更好的对已处理好的数据进行分析,获取有用信息。2.2.4结果的解释和评估阶段数据挖掘阶段会产生的模式或数据集经过评估存在冗余或多余的模式,这时需要将其剔除,过滤出有用的知识。过滤后用于呈现给用户;一般情况下,为了方便用户理解产生的模式,处理员应该利用可视化技术将数据挖掘产生的有意义模式以图形或者其他可视化的形式表示,让用户更容易理解。例如把分类决策树转换为“ifthen
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 分类 算法 在教 分析 中的 应用 大学 学位 论文
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。