基于SPSS的信息类大学生成绩的数据挖掘.doc
《基于SPSS的信息类大学生成绩的数据挖掘.doc》由会员分享,可在线阅读,更多相关《基于SPSS的信息类大学生成绩的数据挖掘.doc(6页珍藏版)》请在咨信网上搜索。
1、应用统计学课程设计报告名称基于SPSS的信息类大学生成绩的数据挖掘学 院:河南中医信息技术学院专 业:信息管理与信息系统班 级:信管一班日 期:(提交日期): 2014/6/12摘要数据挖掘技术是信息技术研究的热点问题之一。目前数据挖掘技术在商业、金等方面都得到了广泛的应用,而在教育领域的应用较少,随着高校招生规模的扩大,在校学生成绩分布越来越复杂,除了传统成绩分析得到的一些结论外,还有一些不易发现的信息隐含其中,因而把数据挖掘技术引入到学生成绩分析中,有利于针对性地提高教学质量。聚类分析是数据挖掘中的一个重要研究领域。它将数据对象分成为若干个簇,使得在同一个簇中的对象比较相似,而不同簇中的对
2、象差别很大。本论文就是运用数据挖掘中的聚类分析学生成绩的,利用学生在分专业前的各主要学科的成绩构成,对数据进行选择,预处理,挖掘分析等.运用聚类算法分析学生对哪个专业的强弱选择,从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。关键词 聚类分析,学生成绩,就业,K-means,1、 研究背景:随着我国经济的发展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深入的分析,以便更好地利用这些数据,从中找出潜在的规律.那么,如何从大量的数
3、据中提取并发现有用信息以提供决策的依据,已成为一个新的研究课题。 高校是教学和科研的重要基地,也是培养人才的重要场所,教学管理工作当中的学生成绩分析是高校管理工作的一个重要组成部分,也是衡量高校管理水平的依据。从目前来看。各高校随着招生规模的扩大,信息量大幅度增加,学校运行着各类管理系统,存在着各类数据库,如有成绩管理,学籍管理等。这些系统积累了大量的数据,在很大程度上提高了工作的效率,但在这样的教学管理系统中,学校的管理人员、教师和学生都只能通过查看,或者简单的排序以及统计功能来获得数据表面的信息,由于缺乏信息意识和相应的技术,隐藏在这些大量数据中的信息一直没有得到充分应用。如何对这些数据进
4、行重新分析利用,在原基础上扩充高校教学管理系统的功能,从大量数据中发现潜在规律,提高学校管理的决策性,是很多高校正在考虑的问题。因此,对学生成绩数据进行深入挖掘分析,找出影响学生学习的各种潜在的因素,将会促进学校开展更加具有针对性的个性化教育,同时营造一种新的教学管理模式,进一步促进教学管理水平的提高2、 主要原理和思想:聚类分析就是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性.简单的说就是达到不同聚类中的数据尽可能不同,而同一聚类中的数据尽可能相似,它与分类不同,分类是对于目标数据库中存在哪些类这一信息是知道的,所要做的就是将每一条记录分别属于哪一类标记出来;而聚类是在预先不知
5、道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的簇或者说“聚类”,并且使得在这种分类情况下,以某种度量为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。事实上,聚类算法中很多算法的相似性都基于距离而且由于现实数据库中数据类型的多样性,关于如何度量两个含有非数值型字段的记录之间的距离的讨论有很多,并提出了相应的算法.聚类分析的算法可以分为以下几类:划分方法、层次方法等.2。1聚类分析原理方法:在数据挖掘技术中,聚类分析主要有以下几种方法. (1)划分法(Partitioning Methods) 划分法给定一个有N个元组或者记录的数据集,构造K个分组,每一个分组就代表一个
6、聚簇,K N。而且这K个分组满足下列条件:每个组至少包括一个对象,每个对象必须属于且只属于一个组。对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一组中的记录越近越好,而不同分组中的记录越远越好.使用这个基本思想的算法有:K均值算法、K中心点算法、CLARANS算法.K均值算法一般只能在簇的平均值被定义的情况下才能被使用,这对于涉及有分类属性的数据的应用可能会显得不适用,该方法不易发现非凸面形状的簇和大小差别很大的簇;K中心点算法在中心点的计算过程中需要反复迭代计算,其计算量很大,这对于对象及划分数的
7、值较大时,其计算代价相当高。(2)层次法(Hierarchical Methods) 层次法就是把数据库分成多个层次,然后对不同层次的数据采用划分聚类。输出的是一棵层次化的分类树,层次的方法可以分为凝聚的和分裂的.凝聚的方法也称为自底向上的方法,一开始将每个对象作为单独的一个组,然后相继地合并相近的对象或组,直到所有的组合并为一个(层次的最上层),或者达到一个终止条件。分裂的方法,也称为自顶向下的方法,一开始将所有的对象置于一个类中.在迭代的每一步中,一个类被分裂为更小的类.直到最终每个对象在单独的一个类中,或者达到一个终止条件。3.数据情况介绍: 3。1数据信息:我院某年级学生大学四年全部实
8、际课程数据,分计科、信管1、信管2三个班级 3。2数据净化数字净化据源中不正确,不完善等不可能达到数据挖掘质量要求的数据,从而提高数据的质量得到更正的数据挖掘结果。研究所针对的学生成绩数据中,遇到的主要是空值问题。对此,本研究采用了两种处理 方法若该学生有三门及以上成绩为空,则将其作为异常点从数据除去;若该生有两门及以下课程成绩为空.则取所在班级对应课程的平均成绩来代替空值。4.分析过程:第一步,启动并进入系统,数据导入系统.第二步,进入系统分析功能,在“分析”菜单“分类(F)”中选择K-均值聚类(K)命令。第三步,在弹出的K均值聚类分析对话框中,从对话框左侧的变量列表中选择“医院管理学,软件
9、工程,”等变量,使之添加到右边的变量(V)框中,聚类数写为4,方法选为迭代与分类如下图.第四步,单击迭代按钮选择系统默认值(右图)。第五步,单击保存按钮选择聚类成员(C)与聚类中心的距离(D)第六步,单击按钮,自动完成分析二:聚类分析结果由上图可知信管一班54名学生分成四类类别129忧53.7%类别24中7。4类别320良37类别41差1.9三:同理计科,信管二班分析结果计科:导入数据计科数据分析: 1.聚类成员表2。最终聚类中心表3。每个中心的案例数表由上图可知计科72名学生分成四类类别124良33.3%类别236忧50%类别31差1.4类别411中15。3信管二班导入数据:信管二班数据分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 SPSS 信息 大学生 成绩 数据 挖掘
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【丰****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【丰****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。