基于特征项权重评估模型的英语试题关键词抽取算法研究.pdf
《基于特征项权重评估模型的英语试题关键词抽取算法研究.pdf》由会员分享,可在线阅读,更多相关《基于特征项权重评估模型的英语试题关键词抽取算法研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、自动化技术与应用2024 年第 43 卷第 2 期控制理论与应用Control Theory and ApplicationsTechniques ofAutomation&Applications基于特征项权重评估模型的英语试题关键词抽取算法研究啜春红(南京机电职业技术学院,江苏 南京 211135)摘要:为提高英语试题数字资源的检索效率,提出一项基于特征项权重评估模型的英语试题关键词抽取算法。该算法主要由词同现因子、词长因子、位置因子、词频因子和特征项权重调节系数所组成。为提高该算法的通用性水平,研究还通过遗传算法对该模型的权重调节系数进行训练,并将权值优化后的算法应用于全国大学生英语四级
2、考试试题的关键词抽取实验中。实验研究发现,研究所提出的特征项权重评估模型算法在各类英语试题的关键词抽取中均取得了良好的应用效果,平均准确率、平均召回率和平均F-measure三个方面的指标均高于TF-IDF算法和KEA算法,具有一定的应用价值。关键词:英语试题;关键词;特征项权重评估模型;抽取算法中图分类号:TP18文献标识码:A文章编号:1003-7241(2024)02-0013-04Research on Keyword Extraction Algorithm of English TestQuestions Based on Feature Weight Evaluation Mod
3、elCHUAI Chun-hong(Nanjing Vocational Institute of Mechatronic Technology,Nanjing 211135 China)Abstract:In order to improve the retrieval efficiency of English test question digital resources,this study proposes an English test questionkeyword extraction algorithm based on feature item weight evaluat
4、ion model.The algorithm is mainly composed of word co-oc-currence factor,word length factor,position factor,word frequency factor and feature item weight adjustment coefficient.In orderto improve the generality of the algorithm,the weight adjustment coefficient of the model is trained by genetic alg
5、orithm,and theoptimized algorithm is applied to the keyword extraction experiment of CET4.Through experimental research,it is found that thefeature item weight evaluation model algorithm proposed in this study achieves good application results in keyword extraction ofvarious English test questions.T
6、he indexes of average accuracy,average recall and average F-measure are higher than TF-IDF al-gorithm and Kea algorithm,which has certain application value.Keywords:english test questions;keywords;feature item weight evaluation model;extraction algorithm收稿日期:2022-02-12DOI:10.20033/j.1003-7241.(2024)
7、02-0013-04.1引言随着我国互联网技术的不断发展,数字化英语教学资源日益丰富,如何从海量信息中有针对性地检索英语教学资源已经成为教育工作单位十分重要的研究课题之一。根据关键词提取英语文本是检索英语试题资源的一项重要手段,然而不同类型的英语试题文本长度差异较大,特征项出现次数有限,传统的抽取算法难以准确获取英语试题资源。这就需要对传统关键词抽取算法加以改进,根据英语试题文本特征合理调节关键词抽取算法,提高关键词抽取算法的准确度水平1-2。2特征项权重评估模型本次研究基于常规特征项权重评估模型的基本思想,提出了一种包含词同现因子、词长因子、位置因子、词频因子的特征项权重评估模型。2.1词同
8、现因子英语文本的句义通常体现在单词自身含义以及单词之间的关系等方面,同现则是单词之间关系的直接表现。于同一个句子中出现的两个单词之间往往存在较强的相关性,因此需要通过同现因子来提升英语试题资源的检索精度。设Sj为文本d中单词tj出现的次数,Si为文本中单词ti出现的次数,Sij为tj和ti共同出现的次数,则有Sij=Sji。设Pij为tj和ti共同出现的频率,n为特征项的个数,用nn的对称矩阵表示单词之间的同现概率。词同现因子coot的计算方法为:(1)公式(1)中Pij的计算方法如下:(2)13控制理论与应用Control Theory and Applications自动化技术与应用202
9、4 年第 43 卷第 2 期Techniques ofAutomation&Applications由于特征项权重因子对于权值的影响十分显著,因此本次研究通过最小最大法对权值进行规范化转换,转换后的权值保留四位有效数字,规范方法如下:(3)式(3)中将变换后的值记为newvalue,将变换后的最大值和最小值分别记为和,将原始值中的最大值和最小值分别记为maxA和minA,将原始值记为value。2.2词长因子由于英语试题文本通常独立于上下文的逻辑关系,短词出现频率高且含义丰富,长词出现频率相对较低,为增强关键词提取的准确率水平,则需要适当增加长词权重,因此引入词长因子。设l为单词t的长度,对词
10、长因子lent做如下定义:(4)2.3位置因子英语试题文本的含义一定程度上受单词出现位置的影响,因此引入位置因子。将文本d中不同位置的单词的权重系数记为。若单词t位于首段或尾段,则令=0.6;若单词t位于标题位置,则令=1.0,若单词t位于其他位置,则令=0.4。设St为文本d中单词t出现的次数,则可以定义位置因子loct的基本形式如下:(5)2.4词频因子英语试题文本中单词出现的频率是实现关键词抽取计算的重要指标,设N为文本集合内的文本总数量,Nt为含有单词t的文本个数,设C(ti,d)为文本d中单词ti出现的次数,则可以定义词频因子tf(ti,d)的具体形式如下:(6)词同现因子、词长因子
11、、位置因子、词频因子全面考虑了英文语义特点和试题文本结构特点,为试题文本特征选择奠定了良好的基础。为使关键词抽取算法适用于各种不同形式的英语试题文本,还需要在算法中引入特征项权调节系数3-4。根据以上研究结果,可建立如下所示的特征项权重评估模型:(7)式(7)中,loci、cooi、leni、tfi分别代表位置因子、词同现因子、词长因子、词频因子4项计算公式,各因子的调节系数分别为、,并且有+=10.00,0.0000,10.00。3特征项权重调节系数在确定特征项权重评估模型的基础上,本次研究基于全国大学生英语四级考试试题中采集语法与词汇、阅读理解、篇章问答、翻译、完型填空、快速阅读等6种试题
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 特征 权重 评估 模型 英语试题 关键词 抽取 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。