分销赏收藏举报申诉 / 6

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于混合机器学习模型的短文本语义相似性度量算法.pdf

基于混合机器学习模型的短文本语义相似性度量算法.pdf

上传人：自信****多点

文档编号：638255

上传时间：2024-01-22

格式：PDF

页数：6

大小：1.21MB

《基于混合机器学习模型的短文本语义相似性度量算法.pdf》由会员分享，可在线阅读，更多相关《基于混合机器学习模型的短文本语义相似性度量算法.pdf（6页珍藏版）》请在咨信网上搜索。

1、第6 1卷第4期吉林大学学报(理学版)V o l.6 1 N o.4 2 0 2 3年7月J o u r n a l o f J i l i nU n i v e r s i t y(S c i e n c eE d i t i o n)J u l y 2 0 2 3d o i:1 0.1 3 4 1 3/j.c n k i.j d x b l x b.2 0 2 2 1 7 6基于混合机器学习模型的短文本语义相似性度量算法韩开旭1,袁淑芳2(1.北部湾大学电子与信息工程学院,广西钦州5 3 5 0 1 1;2.北部湾大学理学院,广西钦州5 3 5 0 1 1)摘要:

2、为提高短文本语义相似性度量准确性,设计一种基于混合机器学习模型的短文本语义相似性度量算法.先对短文本实施预处理,基于混合机器学习模型构建短文本的字词向量模型,对短文本进行特征扩展;然后组合短文本的多样度量特征,对多样度量特征进行维度规约;最后通过构建一个集成学习模型,计算语义相似性结果,实现语义相似性的度量.使用“Q u o r aQ u e s t i o nP a i r s”比赛数据集测试该方法的性能,测试结果表明,该方法的准确性较高,对数损失和度量均方差均较低,说明该方法的相似性度量准确性较高.关键词:混合机器学习模型;短文本;文本分词;语义相似性;卡方检验;相似性度量中图分类号:T

3、P 3 9 1 文献标志码:A 文章编号:1 6 7 1-5 4 8 9(2 0 2 3)0 4-0 9 0 9-0 6S h o r tT e x t S e m a n t i cS i m i l a r i t yM e a s u r e m e n tA l g o r i t h mB a s e do nH y b r i dM a c h i n eL e a r n i n gM o d e lHANK a i x u1,YUANS h u f a n g2(1.C o l l e g e o fE l e c t r o n i c sa n dI n f o r m a

4、 t i o nE n g i n e e r i n g,B e i b uG u l fU n i v e r s i t y,Q i n z h o u5 3 5 0 1 1,G u a n g x i Z h u a n gA u t o n o m o u sR e g i o n,C h i n a;2.C o l l e g e o fS c i e n c e s,B e i b uG u l fU n i v e r s i t y,Q i n z h o u5 3 5 0 1 1,G u a n g x i Z h u a n gA u t o n o m o u sR e

5、 g i o n,C h i n a)收稿日期:2 0 2 2-0 4-1 5.第一作者简介:韩开旭(1 9 8 4),男,汉族,博士,讲师,从事机器学习和自然语言处理的研究,E-m a i l:f r o g 0 6 9 61 6 3.c o m.通信作者简介:袁淑芳(1 9 8 8),女,汉族,硕士,助理研究员,从事机器学习的研究,E-m a i l:y s f 2 0 2 1 0 6 0 51 2 6.c o m.基金项目:国家自然科学基金面上项目(批准号:6 1 3 7 4 1 2 7)和广西高校中青年教师科研基础能力提升项目(批准号:2 0 2 1 KY 0 4 3 4;2 0 2

6、0 KY 1 0 0 1 9).A b s t r a c t:I no r d e rt oi m p r o v et h ea c c u r a c yo fs h o r tt e x ts e m a n t i cs i m i l a r i t y m e a s u r e m e n t,w ed e s i g n e das h o r t t e x t s e m a n t i cs i m i l a r i t ym e a s u r e m e n ta l g o r i t h mb a s e do nah y b r i dm a c h i n

7、 e l e a r n i n gm o d e l.F i r s t l y,w ep r e p r o c e s s e dt h es h o r tt e x t,c o n s t r u c t e daw o r dv e c t o rm o d e lo ft h es h o r tt e x tb a s e do nt h eh y b r i dm a c h i n e l e a r n i n gm o d e l,a n de x t e n d e dt h ef e a t u r e so f t h es h o r t t e x t.S e

8、 c o n d l y,w ec o m b i n e dt h ev a r i o u sm e t r i c f e a t u r e so f t h es h o r t t e x t,i m p l e m e n t e dd i m e n s i o n a l r e d u c t i o no nt h ev a r i o u sm e t r i c f e a t u r e s.F i n a l l y,w e c o n s t r u c t e da ne n s e m b l e l e a r n i n gm o d e l t oc

9、a l c u l a t e t h e s e m a n t i cs i m i l a r i t yr e s u l t sa n da c h i e v e t h es e m a n t i cs i m i l a r i t ym e a s u r e m e n t.W e t e s t e dt h ep e r f o r m a n c eo f t h em e t h o db yu s i n gt h e“Q u o r aQ u e s t i o nP a i r s”c o m p e t i t i o nd a t a s e t,t h

10、 et e s tr e s u l t ss h o wt h a tt h ea c c u r a c yo f t h em e t h o d i sh i g h,t h e l o g a r i t h m i c l o s s,a n d t h em e a s u r e m e n tm e a ns q u a r e e r r o r a r eb o t hl o w,i n d i c a t i n gt h a t t h es i m i l a r i t ym e a s u r e m e n t a c c u r a c yo f t h e

11、m e t h o d i sh i g h.K e y w o r d s:h y b r i dm a c h i n e l e a r n i n gm o d e l;s h o r t t e x t;t e x ts e g m e n t a t i o n;s e m a n t i cs i m i l a r i t y;C h i-s q u a r et e s t;s i m i l a r i t ym e a s u r e m e n t短文本虽然文本较短,但其内容能容纳很微妙的语言表达,在很多实际应用中,都需要批量处理短文本数据1.但对于大规模数据,通常难以

12、分辨短文本的语义相似性,基于该背景对短文本语义相似性度量问题进行研究.在自然语言处理技术中,文本相似性度量一直是研究重点.文本相似性度量的传统算法更适合在长文本上应用,对于短文本常无法取得满意的效果,因此需要对短文本相似性度量进行专门研究.目前,关于该问题的研究已有许多成果.石彩霞等2提出了一种准确率较高的短文本语义相似性度量算法,从短文本的稀疏特性出发,通过多重检验加权融合实现相似性度量,并取得了合理准确的计算结果.本文应用混合机器学习模型对该问题进行研究,设计一种基于混合机器学习模型的短文本语义相似性度量算法,以实现更准确的相似性度量.1 算法设计1.1 短文本预处理对短文本进行预处理,包

13、括去除停用词、文本分词、特征表示以及特征选择3.对文本分词的处理就是根据文字相邻共现概率对词组进行判定,当文字的相邻共现概率数值达到阈值时,即认为它们组成一个词组4.通过B a y e s表示相邻共现概率,用公式表示为D(ab)=D(ba)D(b)D(a),(1)其中D(ab)表示文字a和b的相邻共现概率,D(ba)表示文字b和a的共现B a y e s阈值,D(b)表示文字b出现的概率,D(a)表示文字a出现的概率5.去除停用词的处理方法如下:首先构建一个停用词表,包含多个停用词语;然后对照分词后的文本与构建的停用词表,逐一摘除文本中的停用词6.构建停用词表的方法是通过词频对停用词表进行构造

14、,即当许多文档中都出现一个词语,并且出现频率较高时,则认为该词为停用词.构建停用词表时需要对全部文档中各词语的出现频数进行统计,将最高频数的若干个词认定为停用词7.经过文本分词、去除停用词的处理后,还需要进行特征选择处理8.处理方法是卡方检验,用公式表示为2(r,bi)=(P+I)(Q+L)(P+Q)(I+L)M(Q I-P L)1/2,(2)其中Q表示含特征项r但不属于bi类别的短文本数,P表示含特征项r且属于bi类别的短文本数,I表示不含特征项r但属于bi类别的短文本数,L表示不含特征项r且不属于bi类别的短文本数,2(r,bi)表示特征项r与bi类别的实际关联程度,M表示短文本的总数9.

15、当特征项r与bi类别处于互相独立状态时,式(2)可简化为2(r,bi)=(P+Q)(I+L)(Q I-P L)1/2.(3)特征表示使用的方法是向量空间模型,可将短文本转化为向量形式.在向量空间中,将短文本t设为一个n维向量,则短文本t可表示为t=(a1,r1),(a2,r2),(an,rn),(4)其中an表示第n个特征项的权重,rn表示第n个特征项.权重值越大,表明该特征项中包含更多的有效信息1 0.1.2 字词向量模型构建基于混合机器学习模型构建短文本的字词向量模型,主要是利用混合卷积神经网络学习模型和全连接神经网络学习模型构建字词向量模型1 1,如图1所示.在构建的字词向量模型中,编码

16、器是通过卷积神经网络学习模型构造的,由3个二维池化层与3个二维卷积层构成,通过二维卷积层可在短文本中提取数据特征,而利用二维池化层可进行降采样处理,以减少输出维度1 2.解码器是通过全连接神经网络学习模型构造的,由4个全连接层与一个转换层构成,其中转换层能实现向量的转换,而全连接层能实现数据的恢复.019 吉林大学学报(理学版)第6 1卷 1.3 特征扩展根据构建的字词向量模型对短文本进行特征扩展,主要是通过关联规则构建一个特征扩展模型,图1 构建的字词向量模型F i g.1 C o n s t r u c t e dw o r dv e c t o rm o d e l对字词向

17、量模型进行扩展,从而获得足够特征进行短文本的语义相似性度量1 3.构建的特征扩展模型可表示为F=d o c:,(5)其中cn表示第n个扩展特征.对于扩展的n个特征,制定以下关联规则:Hcn,(6)其中H表示短文本中存在的词汇.利用综合评分的形式决定对cn的引入1 4.综合评分的初步规则如图2所示.图2 综合评分的初步规则F i g.2 P r e l i m i n a r yr u l e s f o rc o m p r e h e n s i v e s c o r i n g综合以上评分规则,用一个k维向量表示一个词:gi(t)=(c o u n ti(t)2(c o u n t(t)

18、2,ki=1gi(t)=12,(7)其中gi(t)表示k维向量的分量;c o u n ti(t)表示第i类上词t的出现概率;c o u n t(t)表示词t的总体出现概率.为对两个词类别向量的实际相关程度进行衡量,引入一个相关系数的概念,其定义为S U=ki=1(S-S)(U-U)ki=1(S-S)2ki=1(U-U)2,(8)其中S U表示S和U的相关系数,S和U表示两个变量,S和U分别表示S和U的平均值1 5.在字词向量模型中引入新词时,需计算文档中各词汇和新词的相关系数,并用加权的方式计算相关系数的评分值.当评分值比阈值大时,即可引入新词.评分值的计算公式为l=ki=1(S U)2-1S

19、 U.(9)1.4 语义相似性度量构建一个短文本语义相似性度量模型,在模型中组合短文本的多样度量特征,对多样度量特征进行维度规约,并构建一个集成学习模型,对维度规约结果进行训练,计算语义相似性结果,实现语义相似性的度量.119 第4期韩开旭,等:基于混合机器学习模型的短文本语义相似性度量算法其中组合的短文本多样度量特征包括多样化组合特征、基于词嵌入的特征、语法特征、词汇特征以及句法特征1 6.对多样度量特征进行维度规约的步骤如下.图3 短文本语义相似性度量模型F i g.3 S e m a n t i c s i m i l a r i t ym e a s u r e m e n tm

20、o d e l f o r s h o r t t e x t1)特征选择:通过单变量特征选择的方法进行特征选择,单变量特征选择是单独测试每个特征,以评价函数得分为依据将较低得分的特征去掉.2)特征提取:使用奇异值分解,保留排序靠前的几个奇异值所对应的信息作为提取的特征.在集成学习模型构建中,通过组合多个弱分类器构造一个强分类器,其中选择的弱分类器是决策树模型.对于构建的集成学习模型,使用G B D T(g r a d i e n tb o o s t i n gd e c i s i o nt r e e)算法对数据集进行训练,训练输出结果即为语义相似性度量结果.构建

21、的短文本语义相似性度量模型如图3所示.通过该模型实现短文本语义相似性度量.2 实验测试2.1 实验数据集实验使用的数据集为“Q u o r aQ u e s t i o nP a i r s”比赛数据集,其中的数据示例列于表1.表1 数据集中的数据示例T a b l e1 E x a m p l e so fd a t a i nd a t a s e tI D问题1问题2i s_d u p l i c a t e2什么能使物理容易学?你如何使物理容易学?15什么类型的免疫力?我们身体中有哪些不同类型的免疫力?11 2如何为项目选择域?如何找到我们的项目域?11 8我怎样才能提高我的英语发音?

22、我怎么能像当地人一样说英语?0 通过实验数据集对本文基于混合机器学习模型的短文本语义相似性度量算法的性能进行测试.2.2 评价指标将准确性(A c c u r a c y)、对数损失值(L o g l o s s)与度量均方差3个指标作为算法性能测试的评价指标,对本文算法进行评价.A c c u r a c y的计算公式为A c c u r a c y=OOi=1h(qi=fi),(1 0)其中A c c u r a c y表示准确率度量,O表示样本总数量,h()表示类别函数,qi表示样本预测类别数目,fi表示样本实际类别.L o g l o s s的计算公式为L o g l o s s=OO

23、i=1Vj=1ki jl g(fi j)2,(1 1)其中V表示类别标签实际数目,ki j表示类别概率阈值,fi j表示样本i被预测为类别j的实际概率,L o g l o s s表示对数损失度量.度量均方差的计算公式为Ax=t-1ptp1(x-x)2,(1 2)其中Ax表示度量均方差,tp表示总标注个数,x表示标注的标准得分,x 表示预测得分.2.3 实验结果与分析首先将数据集中的数据平均分成5份,在每份数据中随机划分出8 0%作为训练集,剩下的数据作为测试集.在不同的提取特征数量下分别对训练集和测试集的A c c u r a c y数值进行测试,测试结果如图4所示.由图4可见,在不同的提取特

24、征数下,本文方法的A c c u r a c y数值都较高,说明该方法的短219 吉林大学学报(理学版)第6 1卷文本语义相似性度量准确率较高.在提取特征数为3时,训练集和测试集的A c c u r a c y数值最高.其次分别对训练集和测试集的L o gl o s s数值进行测试,测试结果如图5所示.由图5可见,本文方法训练集和测试集的L o g l o s s数值均较低,说明该方法在语义相似性度量中的对数损失较低,度量性能较好.图4 A c c u r a c y数值测试结果F i g.4 N u m e r i c a l t e s t r e s u l t so f

25、A c c u r a c y图5 L o g l o s s数值测试结果F i g.5 N u m e r i c a l t e s t r e s u l t so fL o g l o s s最后对设计方法的度量均方差进行测试,测试结果列于表2.由表2可见,通过该方法进行短文本语义相似性度量后,训练集和测试集的度量均方差都较低,表明本文方法的度量准确率较高.表2 度量均方差测试结果T a b l e2 T e s t r e s u l t so fm e a s u r e m e n tm e a ns q u a r ee r r o r测试项目度量均方差测试项目度量均方差训练集

26、10.1 2 5测试集10.1 8 9训练集20.1 4 7测试集20.1 2 5训练集30.2 0 1测试集30.0 8 6训练集40.1 6 3测试集40.0 9 6训练集50.1 8 5测试集50.0 9 8 综上所述,本文在对短文本语义相似性度量问题进行研究的过程中,应用了混合卷积神经网络学习模型和全连接神经网络学习模型的混合机器学习模型,设计了一种基于混合机器学习模型的短文本语义相似性度量算法,经过测试其在A c c u r a c y,L o g l o s s和度量均方差3个指标上均较优,提高了短文本相似性度量准确率,有一定的应用价值.参考文献1 郑志蕴,吴建萍,李钝,等.一种基

27、于短文本相似度计算的知识子图融合方法 J.小型微型计算机系统,2 0 2 0,4 1(1):6-1 1.(Z HE NGZY,WUJP,L ID,e t a l.AK n o w l e d g eS u b g r a p hF u s i o nM e t h o dB a s e do nS h o r tT e x tS i m i l a r i t yC a l c u l a t i o nJ.S m a l lM i c r o c o m p u t e rS y s t e m s,2 0 2 0,4 1(1):6-1 1.)2 石彩霞,李书琴,刘斌.多重检验加权融合的短文

28、本相似度计算方法 J.计算机工程,2 0 2 1,4 7(2):9 5-1 0 2.(S H ICX,L I SQ,L I UB.S h o r tT e x t S i m i l a r i t yC a l c u l a t i o nM e t h o dB a s e do nW e i g h t e dF u s i o no fM u l t i p l eT e s t sJ.C o m p u t e rE n g i n e e r i n g,2 0 2 1,4 7(2):9 5-1 0 2.)3 赵雅欣,郑明洪,石林鑫,等.面向电力审计领域的两阶段短文本分类方法研究

29、 J.西南大学学报(自然科学版),2 0 2 0,4 2(1 0):1-7.(Z HAO Y X,Z HE N G M H,S H ILX,e ta l.R e s e a r c ho nT w o-S t a g eS h o r tT e x tC l a s s i f i c a t i o n M e t h o df o r E l e c t r i c P o w e r A u d i t i n gJ.J o u r n a lo fS o u t h w e s t U n i v e r s i t y(N a t u r a lS c i e n c eE d i

30、t i o n),2 0 2 0,4 2(1 0):1-7.)4 寇菲菲,杜军平,石岩松,等.面向搜索的微博短文本语义建模方法 J.计算机学报,2 0 2 0,4 3(5):7 8 1-7 9 5.(KOUFF,D UJP,S H IYS,e ta l.AS e a r c h-O r i e n t e dA p p r o a c ht oS e m a n t i cM o d e l i n go fM i c r o b l o gS h o r tT e x t sJ.C h i n e s eJ o u r n a l o fC o m p u t e r s,2 0 2 0,4

31、 3(5):7 8 1-7 9 5.)5 唐善成,张雪,张镤月,等.融合中文字形和字义的字向量表示方法 J.科学技术与工程,2 0 2 1,2 1(3 2):1 3 7 8 7-1 3 7 9 2.(T AN GSC,Z HANGX,Z HANGPY,e t a l.A W o r dV e c t o rR e p r e s e n t a t i o nM e t h o dI n t e g r a t i n g319 第4期韩开旭,等:基于混合机器学习模型的短文本语义相似性度量算法 C h i n e s eC h a r a c t e rS h a p ea n d C h

32、a r a c t e r M e a n i n gJ.S c i e n c e T e c h n o l o g ya n d E n g i n e e r i n g,2 0 2 1,2 1(3 2):1 3 7 8 7-1 3 7 9 2.)6 陶玥,余丽,吴振新.C o T r a n s H:科技文献知识图谱中语义关系预测的翻译模型 J.情报理论与实践,2 0 2 1,4 4(1 1):1 8 7-1 9 6.(T AO Y,YU L,WU Z X.C o T r a n s H:A T r a n s l a t i o n M o d e lf o rS e m a n

33、t i cR e l a t i o n s h i pP r e d i c t i o ni nK n o w l e d g eG r a p h so fS c i e n t i f i c a n dT e c h n o l o g i c a lD o c u m e n t sJ.I n f o r m a t i o nT h e o r ya n dP r a c t i c e,2 0 2 1,4 4(1 1):1 8 7-1 9 6.)7 叶俊民,罗达雄,陈曙.基于短文本情感增强的在线学习者成绩预测方法 J.自动化学报,2 0 2 0,4 6(9):1 9 2 7-1

34、 9 4 0.(Y EJM,L UODX,CHE NS.O n l i n eL e a r n e rP e r f o r m a n c eP r e d i c t i o nM e t h o dB a s e do nS h o r tT e x tS e n t i m e n tE n h a n c e m e n tJ.J o u r n a l o fA u t o m a t i o n,2 0 2 0,4 6(9):1 9 2 7-1 9 4 0.)8 高云龙,吴川,朱明.基于改进卷积神经网络的短文本分类模型 J.吉林大学学报(理学版),2 0 2 0,5 8(4):

35、9 2 3-9 3 0.(G AOYL,WUC,Z HU M.S h o r tT e x tC l a s s i f i c a t i o nM o d e lB a s e do nI m p r o v e dC o n v o l u t i o n a lN e u r a lN e t w o r kJ.J o u r n a l o f J i l i nU n i v e r s i t y(S c i e n c eE d i t i o n),2 0 2 0,5 8(4):9 2 3-9 3 0.)9 汤凌燕,熊聪聪,王嫄,等.基于深度学习的短文本情感倾向分析综述 J.

36、计算机科学与探索,2 0 2 1,1 5(5):7 9 4-8 1 1.(T ANGL Y,X I ON GCC,WAN G Y,e ta l.A R e v i e wo fS h o r tT e x tS e n t i m e n tA n a l y s i sB a s e do nD e e pL e a r n i n gJ.C o m p u t e rS c i e n c ea n dE x p l o r a t i o n,2 0 2 1,1 5(5):7 9 4-8 1 1.)1 0 饶毓和,凌志浩.一种结合主题模型与段落向量的短文本聚类方法 J.华东理工大学学报(

37、自然科学版),2 0 2 0,4 6(3):4 1 9-4 2 7.(R AOY H,L I N GZH.AS h o r tT e x tC l u s t e r i n gM e t h o dC o m b i n i n gT o p i cM o d e la n dP a r a g r a p hV e c t o rJ.J o u r n a lo fE a s tC h i n aU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y(N a t u r a lS c i e n c eE d i t i o

38、n),2 0 2 0,4 6(3):4 1 9-4 2 7.)1 1 刘娇,李艳玲,林民.胶囊网络用于短文本多意图识别的研究 J.计算机科学与探索,2 0 2 0,1 4(1 0):1 7 3 5-1 7 4 3.(L I UJ,L IYL,L I N M.R e s e a r c ho nC a p s u l eN e t w o r k s f o rM u l t i-i n t e n tR e c o g n i t i o no fS h o r tT e x t sJ.C o m p u t e rS c i e n c ea

39、n dE x p l o r a t i o n,2 0 2 0,1 4(1 0):1 7 3 5-1 7 4 3.)1 2 缪亚林,姬怡纯,张顺,等.C NN-B i G RU模型在中文短文本情感分析的应用 J.情报科学,2 0 2 1,3 9(4):8 5-9 1.(M I AO Y L,J IY C,Z HAN GS,e ta l.A p p l i c a t i o no fC NN-B i G RU M o d e l i nS e n t i m e n tA n a l y s i so fC h i n e s eS h o r tT e x t sJ.I n f o r m

40、 a t i o nS c i e n c e,2 0 2 1,3 9(4):8 5-9 1.)1 3 张博,孙逸,李孟颖,等.基于迁移学习和集成学习的医学短文本分类 J.山西大学学报(自然科学版),2 0 2 0,4 3(4):9 4 7-9 5 4.(Z HANGB,S UN Y,L IM Y,e ta l.C l a s s i f i c a t i o no fM e d i c a lS h o r tT e x t sB a s e do nT r a n s f e rL e a r n i n ga n dE n s e m b l eL e a r n i n gJ.J o

41、 u r n a lo fS h a n x iU n i v e r s i t y(N a t u r a lS c i e n c eE d i t i o n),2 0 2 0,4 3(4):9 4 7-9 5 4.)1 4 孙洋,粟栗,张星,等.基于子语义空间的挖掘短文本策略方法 J.电信科学,2 0 2 0,3 6(3):8 3-9 2.(S UNY,S U L,Z HAN G X,e ta l.S t r a t e g y M e t h o df o r M i n i n g S h o r t T e x t B a s e d o n S u b-s e m a n t

42、 i c S p a c eJ.T e l e c o mm u n i c a t i o n sS c i e n c e,2 0 2 0,3 6(3):8 3-9 2.)1 5 宋明,刘彦隆.B e r t在微博短文本情感分类中的应用与优化 J.小型微型计算机系统,2 0 2 1,4 2(4):7 1 4-7 1 8.(S ONG M,L I UYL.A p p l i c a t i o na n dO p t i m i z a t i o no fB e r t i nM i c r o b l o gS h o r tT e x t S e n t i m e n tC l a

43、s s i f i c a t i o nJ.S m a l lM i c r o c o m p u t e rS y s t e m,2 0 2 1,4 2(4):7 1 4-7 1 8.)1 6 王生生,张航,潘彦岑.改进的和积网络自动编码器及短文本情感分析应用 J.哈尔滨工程大学学报,2 0 2 0,4 1(3):4 1 1-4 1 9.(WAN GSS,Z HAN G H,P ANYC.I m p r o v e dS u m-P r o d u c tN e t w o r kA u t o e n c o d e ra n dS h o r tT e x tS e n t i m e n tA n a l y s i sA p p l i c a t i o nJ.J o u r n a l o fH a r b i nE n g i n e e r i n gU n i v e r s i t y,2 0 2 0,4 1(3):4 1 1-4 1 9.)(责任编辑:韩啸)419 吉林大学学报(理学版)第6 1卷

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于混合机器学习模型短文语义相似性度量算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。