基于混合机器学习模型的短文本语义相似性度量算法.pdf
《基于混合机器学习模型的短文本语义相似性度量算法.pdf》由会员分享,可在线阅读,更多相关《基于混合机器学习模型的短文本语义相似性度量算法.pdf(6页珍藏版)》请在咨信网上搜索。
1、 第6 1卷 第4期吉 林 大 学 学 报(理 学 版)V o l.6 1 N o.4 2 0 2 3年7月J o u r n a l o f J i l i nU n i v e r s i t y(S c i e n c eE d i t i o n)J u l y 2 0 2 3d o i:1 0.1 3 4 1 3/j.c n k i.j d x b l x b.2 0 2 2 1 7 6基于混合机器学习模型的短文本语义相似性度量算法韩开旭1,袁淑芳2(1.北部湾大学 电子与信息工程学院,广西 钦州5 3 5 0 1 1;2.北部湾大学 理学院,广西 钦州5 3 5 0 1 1)摘要:
2、为提高短文本语义相似性度量准确性,设计一种基于混合机器学习模型的短文本语义相似性度量算法.先对短文本实施预处理,基于混合机器学习模型构建短文本的字词向量模型,对短文本进行特征扩展;然后组合短文本的多样度量特征,对多样度量特征进行维度规约;最后通过构建一个集成学习模型,计算语义相似性结果,实现语义相似性的度量.使用“Q u o r aQ u e s t i o nP a i r s”比赛数据集测试该方法的性能,测试结果表明,该方法的准确性较高,对数损失和度量均方差均较低,说明该方法的相似性度量准确性较高.关键词:混合机器学习模型;短文本;文本分词;语义相似性;卡方检验;相似性度量中图分类号:T
3、P 3 9 1 文献标志码:A 文章编号:1 6 7 1-5 4 8 9(2 0 2 3)0 4-0 9 0 9-0 6S h o r tT e x t S e m a n t i cS i m i l a r i t yM e a s u r e m e n tA l g o r i t h mB a s e do nH y b r i dM a c h i n eL e a r n i n gM o d e lHANK a i x u1,YUANS h u f a n g2(1.C o l l e g e o fE l e c t r o n i c sa n dI n f o r m a
4、 t i o nE n g i n e e r i n g,B e i b uG u l fU n i v e r s i t y,Q i n z h o u5 3 5 0 1 1,G u a n g x i Z h u a n gA u t o n o m o u sR e g i o n,C h i n a;2.C o l l e g e o fS c i e n c e s,B e i b uG u l fU n i v e r s i t y,Q i n z h o u5 3 5 0 1 1,G u a n g x i Z h u a n gA u t o n o m o u sR e
5、 g i o n,C h i n a)收稿日期:2 0 2 2-0 4-1 5.第一作者简介:韩开旭(1 9 8 4),男,汉族,博士,讲师,从事机器学习和自然语言处理的研究,E-m a i l:f r o g 0 6 9 61 6 3.c o m.通信作者简介:袁淑芳(1 9 8 8),女,汉族,硕士,助理研究员,从事机器学习的研究,E-m a i l:y s f 2 0 2 1 0 6 0 51 2 6.c o m.基金项目:国家自然科学基金面上项目(批准号:6 1 3 7 4 1 2 7)和广西高校中青年教师科研基础能力提升项目(批准号:2 0 2 1 KY 0 4 3 4;2 0 2
6、0 KY 1 0 0 1 9).A b s t r a c t:I no r d e rt oi m p r o v et h ea c c u r a c yo fs h o r tt e x ts e m a n t i cs i m i l a r i t y m e a s u r e m e n t,w ed e s i g n e das h o r t t e x t s e m a n t i cs i m i l a r i t ym e a s u r e m e n ta l g o r i t h mb a s e do nah y b r i dm a c h i n
7、 e l e a r n i n gm o d e l.F i r s t l y,w ep r e p r o c e s s e dt h es h o r tt e x t,c o n s t r u c t e daw o r dv e c t o rm o d e lo ft h es h o r tt e x tb a s e do nt h eh y b r i dm a c h i n e l e a r n i n gm o d e l,a n de x t e n d e dt h ef e a t u r e so f t h es h o r t t e x t.S e
8、 c o n d l y,w ec o m b i n e dt h ev a r i o u sm e t r i c f e a t u r e so f t h es h o r t t e x t,i m p l e m e n t e dd i m e n s i o n a l r e d u c t i o no nt h ev a r i o u sm e t r i c f e a t u r e s.F i n a l l y,w e c o n s t r u c t e da ne n s e m b l e l e a r n i n gm o d e l t oc
9、a l c u l a t e t h e s e m a n t i cs i m i l a r i t yr e s u l t sa n da c h i e v e t h es e m a n t i cs i m i l a r i t ym e a s u r e m e n t.W e t e s t e dt h ep e r f o r m a n c eo f t h em e t h o db yu s i n gt h e“Q u o r aQ u e s t i o nP a i r s”c o m p e t i t i o nd a t a s e t,t h
10、 et e s tr e s u l t ss h o wt h a tt h ea c c u r a c yo f t h em e t h o d i sh i g h,t h e l o g a r i t h m i c l o s s,a n d t h em e a s u r e m e n tm e a ns q u a r e e r r o r a r eb o t hl o w,i n d i c a t i n gt h a t t h es i m i l a r i t ym e a s u r e m e n t a c c u r a c yo f t h e
11、m e t h o d i sh i g h.K e y w o r d s:h y b r i dm a c h i n e l e a r n i n gm o d e l;s h o r t t e x t;t e x ts e g m e n t a t i o n;s e m a n t i cs i m i l a r i t y;C h i-s q u a r et e s t;s i m i l a r i t ym e a s u r e m e n t短文本虽然文本较短,但其内容能容纳很微妙的语言表达,在很多实际应用中,都需要批量处理短文本数据1.但对于大规模数据,通常难以
12、分辨短文本的语义相似性,基于该背景对短文本语义相似性度量问题进行研究.在自然语言处理技术中,文本相似性度量一直是研究重点.文本相似性度量的传统算法更适合在长文本上应用,对于短文本常无法取得满意的效果,因此需要对短文本相似性度量进行专门研究.目前,关于该问题的研究已有许多成果.石彩霞等2提出了一种准确率较高的短文本语义相似性度量算法,从短文本的稀疏特性出发,通过多重检验加权融合实现相似性度量,并取得了合理准确的计算结果.本文应用混合机器学习模型对该问题进行研究,设计一种基于混合机器学习模型的短文本语义相似性度量算法,以实现更准确的相似性度量.1 算法设计1.1 短文本预处理对短文本进行预处理,包
13、括去除停用词、文本分词、特征表示以及特征选择3.对文本分词的处理就是根据文字相邻共现概率对词组进行判定,当文字的相邻共现概率数值达到阈值时,即认为它们组成一个词组4.通过B a y e s表示相邻共现概率,用公式表示为D(ab)=D(ba)D(b)D(a),(1)其中D(ab)表示文字a和b的相邻共现概率,D(ba)表示文字b和a的共现B a y e s阈值,D(b)表示文字b出现的概率,D(a)表示文字a出现的概率5.去除停用词的处理方法如下:首先构建一个停用词表,包含多个停用词语;然后对照分词后的文本与构建的停用词表,逐一摘除文本中的停用词6.构建停用词表的方法是通过词频对停用词表进行构造
14、,即当许多文档中都出现一个词语,并且出现频率较高时,则认为该词为停用词.构建停用词表时需要对全部文档中各词语的出现频数进行统计,将最高频数的若干个词认定为停用词7.经过文本分词、去除停用词的处理后,还需要进行特征选择处理8.处理方法是卡方检验,用公式表示为2(r,bi)=(P+I)(Q+L)(P+Q)(I+L)M(Q I-P L)1/2,(2)其中Q表示含特征项r但不属于bi类别的短文本数,P表示含特征项r且属于bi类别的短文本数,I表示不含特征项r但属于bi类别的短文本数,L表示不含特征项r且不属于bi类别的短文本数,2(r,bi)表示特征项r与bi类别的实际关联程度,M表示短文本的总数9.
15、当特征项r与bi类别处于互相独立状态时,式(2)可简化为2(r,bi)=(P+Q)(I+L)(Q I-P L)1/2.(3)特征表示使用的方法是向量空间模型,可将短文本转化为向量形式.在向量空间中,将短文本t设为一个n维向量,则短文本t可表示为t=(a1,r1),(a2,r2),(an,rn),(4)其中an表示第n个特征项的权重,rn表示第n个特征项.权重值越大,表明该特征项中包含更多的有效信息1 0.1.2 字词向量模型构建基于混合机器学习模型构建短文本的字词向量模型,主要是利用混合卷积神经网络学习模型和全连接神经网络学习模型构建字词向量模型1 1,如图1所示.在构建的字词向量模型中,编码
16、器是通过卷积神经网络学习模型构造的,由3个二维池化层与3个二维卷积层构成,通过二维卷积层可在短文本中提取数据特征,而利用二维池化层可进行降采样处理,以减少输出维度1 2.解码器是通过全连接神经网络学习模型构造的,由4个全连接层与一个转换层构成,其中转换层能实现向量的转换,而全连接层能实现数据的恢复.019 吉 林 大 学 学 报(理 学 版)第6 1卷 1.3 特征扩展根据构建的字词向量模型对短文本进行特征扩展,主要是通过关联规则构建一个特征扩展模型,图1 构建的字词向量模型F i g.1 C o n s t r u c t e dw o r dv e c t o rm o d e l对字词向
17、量模型进行扩展,从而获得足够特征进行短文本的语义相似性度量1 3.构建的特征扩展模型可表示为F=d o c:,(5)其中cn表示第n个扩展特征.对于扩展的n个特征,制定以下关联规则:Hcn,(6)其中H表示短文本中存在的词汇.利用综合评分的形式决定对cn的引入1 4.综合评分的初步规则如图2所示.图2 综合评分的初步规则F i g.2 P r e l i m i n a r yr u l e s f o rc o m p r e h e n s i v e s c o r i n g综合以上评分规则,用一个k维向量表示一个词:gi(t)=(c o u n ti(t)2(c o u n t(t)
18、2,ki=1gi(t)=12,(7)其中gi(t)表示k维向量的分量;c o u n ti(t)表示第i类上词t的出现概率;c o u n t(t)表示词t的总体出现概率.为对两个词类别向量的实际相关程度进行衡量,引入一个相关系数的概念,其定义为S U=ki=1(S-S)(U-U)ki=1(S-S)2ki=1(U-U)2,(8)其中S U表示S和U的相关系数,S和U表示两个变量,S和U分别表示S和U的平均值1 5.在字词向量模型中引入新词时,需计算文档中各词汇和新词的相关系数,并用加权的方式计算相关系数的评分值.当评分值比阈值大时,即可引入新词.评分值的计算公式为l=ki=1(S U)2-1S
19、 U.(9)1.4 语义相似性度量构建一个短文本语义相似性度量模型,在模型中组合短文本的多样度量特征,对多样度量特征进行维度规约,并构建一个集成学习模型,对维度规约结果进行训练,计算语义相似性结果,实现语义相似性的度量.119 第4期 韩开旭,等:基于混合机器学习模型的短文本语义相似性度量算法 其中组合的短文本多样度量特征包括多样化组合特征、基于词嵌入的特征、语法特征、词汇特征以及句法特征1 6.对多样度量特征进行维度规约的步骤如下.图3 短文本语义相似性度量模型F i g.3 S e m a n t i c s i m i l a r i t ym e a s u r e m e n tm
20、o d e l f o r s h o r t t e x t1)特征选 择:通 过 单 变 量 特 征 选 择 的 方 法进行特征选择,单变量特征选择是单独测试每个特征,以评价函数得分为依据将较低得分的特征去掉.2)特征提取:使用奇异值分解,保留排序靠前的几个奇异值所对应的信息作为提取的特征.在集成学习模型构建中,通过组合多个弱分类器构造一个强分类器,其中选择的弱分类器是决策树模型.对于构建的集成学习模型,使用G B D T(g r a d i e n tb o o s t i n gd e c i s i o nt r e e)算法对数据集进行训练,训练输出结果即为语义相似性度量结果.构建
21、的短文本语义相似性度量模型如图3所示.通过该模型实现短文本语义相似性度量.2 实验测试2.1 实验数据集实验使用的数据集为“Q u o r aQ u e s t i o nP a i r s”比赛数据集,其中的数据示例列于表1.表1 数据集中的数据示例T a b l e1 E x a m p l e so fd a t a i nd a t a s e tI D问题1问题2i s_d u p l i c a t e2什么能使物理容易学?你如何使物理容易学?15什么类型的免疫力?我们身体中有哪些不同类型的免疫力?11 2如何为项目选择域?如何找到我们的项目域?11 8我怎样才能提高我的英语发音?
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 混合 机器 学习 模型 短文 语义 相似性 度量 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。