最小支持度挖掘算法在高校学生成绩关联规则的应用.pdf
《最小支持度挖掘算法在高校学生成绩关联规则的应用.pdf》由会员分享,可在线阅读,更多相关《最小支持度挖掘算法在高校学生成绩关联规则的应用.pdf(5页珍藏版)》请在咨信网上搜索。
1、第4 0 卷第2 期2023年6 月长江工程职业技术学院学报Journal of Changjiang Institute of TechnologyVol.40 No.2Jun.2 0 2 3最小支持度挖掘算法在高校学生成绩关联规则的应用柯红香(漳州科技职业学院,福建漳浦3 6 3 2 0 2)摘要:以漳州科技职业学院市场营销专业15 2 名学生4 7 门课程的成绩信息作为研究数据,根据课程成绩分布规律,利用标准差划分等级进行成绩离散化处理,针对传统关联规则Apriori算法单一的最小支持度的局限性,提出了一种自适应多最小支持度关联规则算法,采用统计拟合方法实现最小支持度和最小置信度的自适应
2、取值,并将置信度和提升度相结合的模式筛选出有价值的规则,从而得到市场营销专业不同课程的关联性,为创新人才培养改革提供参考。关键词:数据挖掘;关联规则;学生成绩中图分类号:TP312DOI:10.14079/42-1745/tv.2023.02.016文献标识码:A文章编号:16 7 3-0 4 9 6(2 0 2 3)0 2-0 0 6 9-0 5关联规则挖掘是一种基于频繁项集算法的数据挖掘技术,其目的是在海量的、看似不相关的数据中,通过关联分析,挖掘多个变量之间的相关性,这些关联规则能够为决策的调整和优化提供有效的参考依据。以漳州科技职业学院市场营销专业15 2 名学生4 7 门课程的成绩信
3、息作为研究对象,分析传统关联规则Apriori算法中单支持度的局限性,提出基于最大值控制的多最小支持度关联规则改进算法,从而得到市场营销专业不同课程的关联性规则,为完善人才培养改革提供参考。1关联规则算法1.1关联规则挖掘技术假设L=Li,L2,L.Ln是N个不同事务项的项集,关联规则是一个XY的表达式,X和Y是集合L的真子集且XnY=0。关联规则的属性可以描述为3 个参数:支持度(support)、置信度(confidence)和频繁项集 。(1)支持度是指项集L中同时具备X和Y特征的事务数占总事务数的百分比,其中min_sup表示最小支持度。支持度越大,表示X和Y同时出现的频率越高,表示X
4、和Y之间的联系大,反之联系小。(2)置信度是指项集L中包含XUY的事务占收稿日期:2 0 2 2-12-13基金项目:漳州科技职业学院科研课题“基于关联性规则的学生就业数据研究”(项目编号:ZK202006)作者简介:柯红香(198 6-),女,福建漳浦人,副教授,硕士,研究方向:现代信息技术、网络安全。X的事务的比例,其中,min_conf表示最小置信度。置信度越大,表明X出现时Y出现的概率越大,即X对Y的指向性越强,当置信度达到10 0%,表示X出现Y一定出现。其中,表示数据集的支持度计数,N表示总事务数。sup(X-Y)=g(XUY)conf(XY)=a(XUY)(X)(3)频繁项集,定
5、义支持度不小于最小支持度min_sup的事务集为频繁项集。若 sup(X Y)min_sup 且 conf(X-Y)min_conf,代表关联规则XY为强关联规则。1.2经典关联算法AprioriApriori算法是基于频繁集理论的关联规则算法,该算法是对频繁集逐层遍历搜索和计数的方法找出数据库中项集关系。其算法流程如图1所示。通过遍历数据库记录每个项集出现次数;比较各项集支持度的大小,若大于等于最小支持度的项集,即产生频繁1-项集的集合L1。L中所有的元素作为候选2-项集C2,再次遍历事务数据库,比较Cz中每个候选2-项集的支持度,不低于最小支持度的项集构成频繁2-项集L2,重复以上迭代,从
6、而得到最大频繁K-项集的集合L2。Apriori算法的局限性:Apriori是一种单个最小支持度的关联规则算法,该算法适用于数据项集频率相对一致的数据库,但大多数实际情况并非如此,这一适用性是比较理想化的。此外,单一支持度还会出现两个问题:若设置的支持度太低,会导致无意义的规则项;若设置的支持度太高,稀有项规则将一6 9-N柯红香最小支持度挖掘算法在高校学生成绩关联规则的应用很难被挖掘。由此可知,传统的Apriori算法具有局限性。遍历数据库DB生成K-频繁项集Lk判断频繁项集L,是否为空N连接操作剪枝操作生成候选项集C候选项集C,是否为空NY结束图1经典关联算法Apriori流程1.3最大值
7、控制的多最小支持度关联规则笔者通过查阅相关研究文献,比较多种改进后的关联规则算法,发现何朝阳等人3 1发表的“最大值控制的多最小支持度关联规则挖掘算法”一文中提出了一种基于事务集的所有支持数和频繁项集产生的置信度为数据依据,在寻找最大频繁项集中,利用每个项集最小支持度中的最大值来实现剪枝,从而有效提高算法的效率。这一算法的实现步骤:输入:数据库DB,多最小支持度min_Sk(k=1,2,3.m),最小置信度min_conf。算法步骤:(1)计算每一数据项的支持度Sk(k=1,2,3.m);(2)对于每一个数据项,比较Sk和min_Sk,如果Skmin_Sk,则将第k个项目加入最大项目及L;(3
8、)设r为当前项集的长度,for(r=1,Lr,r+);(4)参照Apriori算法候选集的生成方式,从Lr中生成长度r+1的候选集Cr+1,这要求进人候选集的项目支持度项目的最小支持度的最大值;(5)比较候选集Cr+1的每一项集的项目的支持度,若候选集的支持度最小支持度的最大值,那么候选集的项目便可以加入长度为r+1的最大频繁一7 0-集L+1;(6)循环(3)(5)步骤,即可得到最大频繁项开始集L;(7)计算最大频繁项集L中的每一个项集的置信度CONFk,若项集的置信度CONFk最小置信度min_conf,则认定为有效规则,可输出;否则舍弃该规则。Y2数据预处理2.1数据清洗从教务管理系统中
9、导出市场营销专业15 2 名学生在校期间的4 7 门必修课程成绩表作为本研究数据,合计7 14 4 条成绩记录并对数据进行清洗。数据清洗的主要方法:(1)每门课程只选取初次成绩;(2)数据降噪:去除课程缺考、补考和重修成绩,并剔除课程编号、学期、班级等不具有研究意义的信息字段;(3)数据分析的课程成绩表包含学号、课程名称及综合成绩,如表1。表1清洗后的课程成绩(节录)应用文现代信息市场调查营销营销沙盘统计分析写作技术与预测管理演练方法8576767588677671788673662.2成绩离散(1)成绩数据分布分析首先,对清洗后的课程成绩表进行描述性统计分析。以市场调查与预测、营销管理、营销
10、沙盘演练、统计分析方法等几门核心课程为例,通过平均值、中位数、标准差、偏度及峰度等统计量观察其分布特征。课程成绩统计量见表2。观察表2 中的平均值和中位数可知,学生各门课程平均成绩普遍不高且比较相近;标准差、方差较大,表明学生大部分课程的成绩呈分散式分布;大部分课程的偏度较小,表示课程成绩分布较为对称;峰度较小表明课程成绩总体接近正态分布。(2)标准差划分成绩等级的成绩离散方法现行成绩离散化方法主要分为两种,一是将百分制成绩按照固定区间法,该种方法的本质是固定成绩等级划分,适用于成绩分布均衡情况,具有一定局限性,容易导致成绩离散会出现明显失真;二是等6564747759858185727177
11、8081.288.478.28275.290.47676727392782023年6 月统计量应用文写作现代信息技术市场调查与预测营销管理营销沙盘演练统计分析方法平均值79.9中位数80.0标准差7.6方差57.5偏差0.0峰度0.4极小值60.0极大值99.0区间法,即将每门课程的最高分成绩Xmax和最低分Xmin作为值域,再将值域Xmin,Xm a x 等距离划分为K个区间,而后将同一区间的成绩一一对应到相应的离散值。但这种方法容易受到极大值或极小值的影响,当某个分数段人数较多时,会导致划分结果失去平衡。合理的成绩离散化方法才能确保每个等级划分科学合理,使得研究更贴近事物实际发展规律。为此
12、,本研究提出了利用标准差划分成绩等级的成绩离散方法,即将课程成绩看作随机变量X,且X服从正态分布,为课程平均值,为课程标准差 4 。根据表2 课程成绩统计量表,可知课程成绩分布接近正态分布。为此,本研究按照成绩正态分布设置成绩区间比例,此时标准差系数为0.4 3 和1.28,并将成绩区间按照“优、良、中、差、不及格”五级制,逐一对应等级字母分别为A、B、C、D、E。X和S分别代表课程成绩X的平均分和标准差,以下是学生成绩的5 个等级划分:A级:XX+1.28SB级:X+0.43SXX+1.28SC级:X-0.43SXX+0.43SD级:X-1.28SXX-0.43SE级:XX-1.28S以上成
13、绩离散化方法以课程平均分X为参照,根据标准差划分成绩等级,既符合成绩分布规律,又能兼顾不同课程成绩分布特点和差异,该种数据离散方法更科学合理。按照以上离散公式,借助Excel2016的嵌套IF函数进行数据处理得到成绩登记表(见表3)。3支持度和置信度自适应阈值设定目前的关联规则在数据挖掘应用中的最小支持度和最小置信度取值一般由人为预设或通过实验长江工程职业技术学院学报表2 课程成绩统计量70.072.669.072.08.39.068.780.50.6-0.10.4-0.850.049.094.089.0第4 0 卷第2 期74.280.175.085.27.89.361.686.2-0.9-
14、1.41.20.443.060.088.090.4表3 课程成绩离散应用文现代信息市场调查营销营销沙盘统计分析学号写作技术与预测管理演练方法001B002D003B004D005C006D007B008C009C010C测试确定相对更优值的方式,这一方式存在人为主观性较大,缺乏客观数据依据,而支持度和置信度的取值对候选项集、频繁项集以及关联数量有着直接影响,换言之,科学合理的支持度和置信度阈值对实验结果具有重要的意义。因此,本研究通过查阅相关研究文献,比照多种最小支持度和最小置信度取值方法的适用范围,通过实验发现,采用多项式曲线拟合技术可以更好实现支持度和置信度的自适应取值,有效解决关联规则挖
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最小 支持 挖掘 算法 高校学生 成绩 关联 规则 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。