基于随机森林算法对超星平台数据的挖掘与研究_黄海林.pdf
《基于随机森林算法对超星平台数据的挖掘与研究_黄海林.pdf》由会员分享,可在线阅读,更多相关《基于随机森林算法对超星平台数据的挖掘与研究_黄海林.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023.6电脑编程技巧与维护1概述教育数据挖掘和机器学习是近年来大数据研究的热门领域,随着大数据技术的不断发展,教育数据的采集、存储、分析和应用已经成为现代教育的重要组成部分。对于学生的学习成绩,传统的评价方法往往依赖于老师的主观判断和测试的成绩,而这种方法没有充分利用教育数据的优势,也无法满足学生、家长和教育管理者想要了解学生学习情况的需求,虽然学校和教育部门普遍使用学生的成绩数据评估教学质量和学生的学习成果,但效果并不明显。随着教育信息化的发展,各种电子学习平台广泛应用于教育教学中,超星学习通作为国内优秀的在线学习平台之一,每年都会有大量的学生在其平台上进行学习。然而,目前在学习过程中通
2、过学生成绩的优异程度来看,往往只是以定性的方式进行评价,缺乏客观的数据支撑,虽然学校和教育部门普遍使用学生的成绩数据来评估教学质量和学生的学习成果,但由于数据规模庞大、数据质量不一、数据类型多样等,教育数据的处理和分析变得非常复杂和困难,导致学生的成绩数据没有得到充分利用。因此,利用教育数据挖掘算法对学生的学习情况进行分析和预测,已经成为一个非常重要的研究方向。2研究内容研究聚焦于某学院校级一流课程“数据库原理与应用”,旨在通过应用教育数据挖掘中的随机森林算法来探究学生的学习行为和成绩之间的关系。为了实现这一目标,研究将采用定量研究的方法,基于超星学习通成绩数据,通过建模和预测,探究学生的学习
3、行为对成绩表现的影响,并构建学生学习行为数据与学习成绩之间的关系,以分析学生课程成绩的主要影响因素。研究旨在提高教师的教学效率和教学质量,帮助学院进行科学的管理和决策,并为学生个性化、多元化学习提供更好的支持和指导。教育数据挖掘已成为提高教学质量和效率的重要工具。研究将学生学习行为和成绩表现之间的关系作为研究重点,通过随机森林算法的建模和预测,揭示学生学习行为对成绩表现的影响,并探索学生课程成绩的主要影响因素。这不仅有助于学校针对不同学生提供个性化的教学方案,提高学生的学习效果和成绩,还能为学校的管理和决策提供科学依据。另外,对于教师来说,学生学习数据的分析和挖掘可以提高教学效率和教学质量,为
4、教师提供更多的参考和指导,帮助他们更好地了解学生的学习状况和需求,帮助学校进行科学地管理和决策,从而促进教育的发展和进步。3研究条件3.1研究的参与者(1)大学学生。学习“数据库原理及应用”课程的所有学生,共12个班,762人。(2)高校教师。共5人,有教授1人、副教授1人、讲师3人。(3)研究使用教务管理系统和超星平台获取相关的数据,包括学生的课程视频观看时间、章节完成率、章节测验数、任务和作业的完成情况、考试情况、平时成绩、总成绩和成绩五级制。3.2项目所用工具(1)PyCharm编辑器。(2)超星学习通平台。作者简介:黄海林(2002),男,本科,研究方向为网络安全与人工智能;王金恒(1
5、982),女,通信作者,副教授,硕士,研究方向为计算机网络技术、人工智能、云计算;曾志豪(2001),男,本科,研究方向为网络安全与人工智能;王煜林(1982),男,副教授,硕士,研究方向为网络安全与人工智能。基于随机森林算法对超星平台数据的挖掘与研究黄海林,王金恒*,曾志豪,王煜林(广州理工学院计算机科学与工程学院,广州510540)摘要:以某学院校级一流课程数据库原理与应用课程为研究对象,基于教育数据挖掘的随机森林算法对超星学习通平台的校级一流课程“数据库原理与应用”线上课程学习数据进行研究。研究结果表明,随机森林预测模型预测准确率高达 81%,在探究学生在线上学习行为与学生成绩研究预测中
6、,选取两个特征标签,即章节授课进度和学生学习总时间,可知学生学习总时间对于学生成绩的影响很大。关键词:教育数据挖掘;随机森林算法;自定义的 colormap 方案;Scikit-learn 库;学习行为研究85DOI:10.16184/prg.2023.06.0302023.6电脑编程技巧与维护(3)机器学习库Scikit-learn(sklearn)。(4)数据收集Excel。(5)数据可视化分析matplotlib。(6)数据操作与分析库pandas。(7)科学计算库Numpy。3.3项目所用算法随机森林算法是一种用于解决分类、回归等问题的算法,它会把多个决策树组合成一个随机森林,通过对随
7、机样本和随机特征的选择,提高模型的准确性和泛化能力。随机森林算法的基本流程如下:(1)从训练集中随机采样出一定数量的样本和特征;(2)对每个采样的样本集建立一棵决策树;(3)将多个决策树组合成一个随机森林模型。在预测时,随机森林模型将多个决策树的预测结果进行平均或投票,得到最终的预测结果。随机森林算法具有较好的抗噪声能力和泛化能力,且不需要对数据进行归一化处理和特征选择,因此在实际应用中具有很大的优势。随机森林算法流程如图1所示。4实施方案与目标研究主要是运用教育数据挖掘技术中的随机森林算法,建立一个可用于分析“数据库原理与应用”课程成绩影响因素的随机森林模型。研究共分为4个阶段,分别是数据预
8、处理、特征选择、标签选择、模型构建、模型评估与结果分析。在这个过程中,研究团队对数据进行初步的处理,从中选择出相关特征和标签,然后运用随机森林算法构建模型,最后对模型进行评估和结果分析。4.1数据的预处理首先,需要对超星学习通成绩数据进行数据预处理,包括数据清洗、数据集成、数据转换和数据归约等操作,以提高数据质量和可用性。该研究使用了学院计算机科学与工程学院21级学生的成绩数据,共6 096条记录。大一、大二的课程主要包括公共基础课和专业基础课;而大三的学生开始学习关键的专业知识;大四的学生则主要是实习和毕业设计。由于学生成绩数据存在缺失、多余和无用值等问题,所以需要进行数据处理具体如下。(1
9、)将转专业、退学、作弊学生成绩记录删除。(2)缺考或申请缓考的学生成绩用相应补考成绩填补,将无补考成绩的学生成绩删除。(3)多次考试采用第1次有效成绩。(4)将每门课的成绩划分为5个等级,10090分为A、9080分为B、8070分为C、7060分为D、60分以下为E。学生成绩数据等级划分标准如图2所示。4.2特征选择和特征标签选择利用seaborn库绘制多个直观的图表,从不同角度展示数据之间的关系,从而探究不同特征对之间的相关性,以及利用卡方检验进行对特征标签的统计提取,特征标签的统计如图3所示。项目选择章节进度与学习时间作为两个特征标签进行研究。4.3模型建立利用Scikit-learn库
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 随机 森林 算法 超星 平台 数据 挖掘 研究 海林
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。