基于多维数据挖掘的学生学习画像构建.pdf
《基于多维数据挖掘的学生学习画像构建.pdf》由会员分享,可在线阅读,更多相关《基于多维数据挖掘的学生学习画像构建.pdf(7页珍藏版)》请在咨信网上搜索。
1、现代计算机Modern Computer第 29 卷 第 14 期2023 年 7 月 25 日基于多维数据挖掘的学生学习画像构建许惠惠*(山西药科职业学院器械工程系,太原 030031)摘要:以多维数据为基础,应用数据挖掘技术预测学生学习习惯并构建学习画像。通过收集273名学生的数据,涵盖人际关系、个性特征和健康状况等因素,经过数据预处理,成功建立了基于支持向量机、K近邻、多层感知器的多维数据挖掘模型,实现对学生学习习惯的预测。研究结果展现了全方位的学生画像,包括时间管理、学习方法等方面。该研究证实了数据驱动决策在教育领域的重要性,为提供个性化教育方案提供了科学依据。关键词:数据挖掘;学生画
2、像;支持向量机;K近邻;多层感知器文章编号:10071423(2023)14004507DOI:10.3969/j.issn.10071423.2023.14.009收稿日期:20230414修稿日期:20230623基金项目:2021年度山西省高等学校哲学社会科学研究项目(思想政治教育专项)(2021zsszsx207):新时代高职大学生群体画像构建研究;山西省高职院校思想政治教育研究会2021年度思想政治教育研究项目课题(SYH2021-032):高职院校学生心理健康测评与服务系统开发研究作者简介:*通信作者:许惠惠(1983),女,山西洪洞人,硕士,讲师,主要研究方向为思想政治教育、管理
3、信息系统,Email:0引言随着信息技术和大数据时代的到来,数据驱动的决策在教育领域中受到极大的关注。学生学习画像可以提供有关学生学习习惯、人际关系、家庭背景等方面的信息,有助于教育工作者深入了解学生的需求,从而提供更为个性化的教育方案13。本研究旨在探讨多维数据在学生学习画像中的应用,利用多种数据挖掘技术,综合分析影响学生学习能力的因素,并尝试通过学生的多种学习属性构建学生的全方位学生学习画像。数据挖掘是一种从大规模、复杂的数据集中提取有用信息、知识和规律的过程。这种技术结合统计学、机器学习、人工智能等多种方法,对原始数据进行处理、归纳和挖掘,为决策者提供有价值的参考依据4。利用这种技术,教
4、育工作者可以更精确地评估学生的学习需求,建立相应的学生画像,从而为他们提供个性化的教育支持。学生学习画像的构建具有重要的实际意义,它可以帮助教师发现学生的潜在问题,及时调整教学策略,提高教学质量。同时,学生学习画像还可以为学生提供有针对性的学习资源和建议,促进他们的自主学习5。然而,构建一个有效的学生学习画像并非易事,需要考虑诸多因素,如个性特征、家庭背景、社会经历等67。因此,本研究通过收集大量学生数据,分析这些因素与学生习惯的关系,为构建学生学习画像提供参考。本研究共收集了 273名学生的调查问卷数据,包括五个方面的属性信息:人际关系、个性特征、家庭背景、社会经历和健康状况,以及五个维度的
5、学习习惯主题问题。通过对这些数据的分析,我们将提取与学生学习习惯相关的背景特征,并尝试利用数据挖掘方法探索学生各维度信息对学习习惯的影响,从而构建学生学习画像。45现代计算机2023年1方法本研究旨在基于多维特征提取构建学生学习画像并预测学生学习习惯类型,最终构建不同类型的学习习惯类型学生画像。在此部分中,将详细阐述研究方法,包括数据收集、问题定义以及模型构建。1 1.1 1数据收集数据收集首先,为了获取学生的多维背景信息数据,本研究设计了一份涉及学生五个背景领域的调查问卷,共计收集了 273 名学生的相关信息。调查问卷包含人际关系、个性特征、家庭背景、社会经历和健康状况五个方面的属性特征,这
6、五个属性特征与学习习惯和学生学习画像之间的关系如图1所示。其中每个属性含有三个具体的衡量指标,见表 1。我们选择这五个属性是因为它们通常被认为是影响学生学习习惯的重要因素。例如,学生的人际关系和社会经历可能会影响他们的团队合作能力和社会适应性;个性特征可能会影响他们的学习方式和动机;家庭背景可能会影响他们的学习环境和资源;而健康状况则可能影响他们的学习效率和持久力。因此,这五个方面的信息为我们提供了学生学习画像的全面视角。人际关系个性特征家庭背景社会经历健康状况学习习惯学生学习画像图 1学生学习画像属性图同时为了对学生学习习惯做一个综合全面的描述和评分,我们还设计了一份用于统计学生学习习惯的调
7、查问卷,见表 2,该调查问卷主要从五个方面对学生的学习习惯进行刻画,以多个维度来评估学生的学习情况。表 1调查问卷样例格式指标/类别123人际关系朋友圈子数量(亲密朋友)社交活动频率(每月)团队合作能力评分(15分)个性特征五大人格量表得分(15分)学习动机评分(15分)时间管理能力评分(15分)家庭背景家庭经济状况(高,中,低)父母教育水平(普通,中级,高级)家庭对学习的支持程度(15分)社会经历志愿者活动次数兼职经历次数社团活动次数健康状况每周锻炼次数睡眠质量评分(15分)心理健康状况评分(15分)表 2学生学习习惯调查问卷主题学习时间管理学习方法学习动机学习环境学习压力和应对策略指标我经
8、常制定学习计划并严格执行我通常会自我复习并总结学习内容我对我正在学习的主题感兴趣我可以在嘈杂的环境中集中精力学习当我感到压力时,我有一套有效的应对策略分数区间(15)(15)(15)(15)(15)1 1.2 2问题定义问题定义本研究中,我们将学生画像中的学生学习习惯类型作为衡量学生学习画像的一项主要指标,将上述统计中学生五个方面的背景信息(人际关系、个性特征、家庭背景、社会经历和健康状况)作为影响学生学习习惯的因素。将学习习惯类型预测作为一项分类任务,目的是确定学生的哪些因素指标对学生学习能力的影响较高。在实验设计中,每个学生会有以上五维的表征向量,每个向量中包含三个衡量指标分数,标签即为学
9、生的学习习惯类型,学习习惯类型 46许惠惠:基于多维数据挖掘的学生学习画像构建第14期预测任务定义如下:问题定义:给定学生 S 的五维表征向量,见公式(1):S=s1,s2,sn,si=x1,x2,x3,n=5(1)其中:si表示五个主要因素的指标得分,xi代表每个因素下的具体指标,如人际关系中的朋友圈子数量、社交活动频率和团队合作能力评分等。学生的学习习惯类型为y 1,2,3,4,5,分别对应A,B,C,D,E不同的学生学习类型,这五种类型由表2中的学习习惯调查问卷得出,主题包括学习时间管理、学习方法、学习动机、学习环境、学习压力和应对策略等。学生的学习习惯类型预测任务可以被描述为学习一个映
10、射函数:F:S A y(2)其中:A是映射矩阵,y 是学生的学习习惯类型。预测问题为一项分类任务,目标是预测特定学生画像下的学习习惯类型。本文目标是从各项背景指标中挖掘出与学生学习习惯具有较强关联的指标,这些指标将作为后续针对学生课程设计和学习习惯加强的关键依据。1 1.3 3模型构建模型构建为了从多维数据中提取与学生学习习惯相关的特征,本研究采用了支持向量机(support vectormachine,SVM)和 K 近 邻(Knearest neighbors,KNN)算法并行地提取处理调查问卷中的五个主要因素:人际关系、个性特征、家庭背景、社会经历、健康状况,将相关指标作为输入,提取出与
11、学生学习习惯类型高度相关的特征表征。例如,对于人际关系因素,本方法将朋友圈子数量、社交活动频率和团队合作能力评分这三个属性输入到SVM和KNN模型中,生成特征表征。同样的方法也被应用到其它四个因素的处理上。这些特征表征被融合起来,作为学生的综合特征表示,这个向量代表了学生在各因素上的表现和属性的组合。随后将其输入到多层感知机(multilayer perceptron,MLP)模型中,MLP模型会根据这个综合特征向量预测学生的学习习惯类型。这一研究设计旨在通过SVM和KNN对各因素的详细处理,以及MLP对各因素关系的深度理解,实现对学生学习习惯的准确预测和理解。以期通过这种方法提供一个准确和有
12、深度的理解学生学习习惯类型的方式。本研究的模型如图2所示。1 1.3 3.1 1基于支持向量机的特征提取基于支持向量机的特征提取支持向量机(SVM)是一种监督学习方法,主要用于分类和回归任务8。SVM算法的基本思想是找到一个最优超平面,将不同类别的样本尽可能地分开9。在本研究中,由于学生不同特征属性之间关系很难直观被发现,所以在我们的应用中,SVM主要用于处理调查问卷中关于学生个性特征和家庭背景的问题,比如学习动机评分、时间管理能力评分、家庭经济状况、父母教育水平等,这些特征在高维空间中的分布可能会影响学生的学习习惯类型。我们使用SVM对学生的原始数据进行特征丰富,进一步提升学生的特征维度,有
13、益于后续模型从中学习到关于不同表征之间的关系。SVM通过构建最大间隔超平面,提取出对预测任务具有较高贡献的特征10。学生多维度信息统计学生数据预处理SVM算法KNN算法表示向量1表示向量2综合表示向量多层感知机学生学习习惯类型人际关系个性特征家庭背景等图 2模型结构 47现代计算机2023年SVM模型的输出特征向量是从特征提取后的数据中得出的,使用多项式核函数的计算如公式(3)所示:f()x=sign()i=1niyi()xi,x+cd+b(3)其中:xi为训练样本的特征向量,yi为样本的标签,i为对应样本的拉格朗日乘子,b为偏置项,c和d是多项式核函数的参数,最终得到样本同学的基于支持向量机
14、的特征表征向量。1 1.3 3.2 2基于基于KNNKNN的特征提取的特征提取K 近邻(KNN)算法是一种基于实例的学习方法,同样可用于分类和回归任务11。KNN算法的核心思想是根据一个样本在特征空间中距离最近的 K 个邻居的类别来确定该样本的类别12。KNN能够处理调查问卷中关于学生人际关系的问题,比如朋友圈子数量、社交活动频率等,还可以处理调查问卷中关于学生社会经历的问题,比如志愿者活动次数、兼职经历次数等。这些特征在局部空间的相似性可能会影响学生的学习习惯类型。KNN通过计算样本间的距离并分析邻近样本的类别,找出具有较强预测能力的特征13。本研究中,我们使用欧几里得距离度量方法,对应的计
15、算如公式(4)所示:Distance=i=1n()xi-yi2(4)其中:xi为学生i输入的样本特征,yi为学生i对应的习惯类型。1 1.3 3.3 3多层感知机多层感知机多层感知机(MLP)是一种前馈神经网络,我们使用四层(输入层、两个隐藏层和输出层)网络的结构。MLP可以用于解决复杂的非线性问题,并广泛应用于分类和回归任务1416。在预测阶段,我们将 SVM 和 KNN 提取的特征拼接,并输入到MLP模型中。MLP通过激活函数、权重更新和反向传播算法,在训练过程中学习到最优的权重参数,从而实现对学生学习习惯类型的预测。我们首先初始化参数,包括隐藏层和输出层的权重和偏差,然后对于每个学生,将
16、其输入向量馈送到网络中,计算输出,随后计算输出和真实标签之间的误差,使用误差来调整模型参数。其中每个隐藏层和输出层,计算加权和激活函数如公式(5)所示:Z=XW+B,A=f()Z(5)其中:W为权重矩阵,B表示偏置,f是ReLU激活函数。进而计算输出层的误差,使用交叉熵损失函数,如公式(6)所示:L=-i=1Nyilog(yi)+(1-yi)log(1-yi)(6)其中:N是样本数;y是真实标签;yi是预测值。本研究通过对多维特征进行分析,构建了一个有效的学生学习习惯类型预测模型。该模型能够较好地预测学生的学习习惯类型,并为教育工作者提供有益的信息,以便更好地理解学生的学习状况和需求。2实验2
17、 2.1 1实验参数和环境设置实验参数和环境设置在实验参数设置方面,我们为支持向量机(SVM)选择了多项式核函数,参数C设为1,参数设为0.1。对于K近邻(KNN)算法,我们设定邻居数量(K)为5,并采用欧氏距离作为距离度量。对于多层感知机(MLP),我们将输入层节点数设置为与拼接后的特征数量相等,隐藏层节点数为128,输出层节点数与学习习惯类型类别数量相等。本文使用Python 3.7.9作为主要的编程语言,并在Ubuntu 20.04 LTS系统上运行实验。使用的主要Python库包括NumPy 1.18.5、Pandas 1.0.5、Matplotlib 3.2.2、scikitlear
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多维 数据 挖掘 学生 学习 画像 构建
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。