基于相似度融合的中文文本相似性度量方法研究.pdf
《基于相似度融合的中文文本相似性度量方法研究.pdf》由会员分享,可在线阅读,更多相关《基于相似度融合的中文文本相似性度量方法研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023 年第 10 期36计算机应用信息技术与信息化基于相似度融合的中文文本相似性度量方法研究温 雨1 王 琦2 严武军1 WEN Yu WANG Qi YAN Wujun 摘要 中文文本之间可能具有复杂的上下文关系,比较容易出现语义混淆、语序混乱等问题,而使用传统的度量文本相似性的方法很难捕捉到这些关系,所以对于中文文本的结构特点等造成度量中文文本相似性存在的不足,采用了一种基于相似度融合的方式计算两个文本的相似度。首先通过提取文本字面特征构建结构相似度模型;然后通过语义特征构建语义相似度模型,根据相应判断文本相似性的逻辑,采用层次分析法确定权重,从而提高中文文本的相似度。经过对比实验结果
2、表明,所提出的模型在短文本方面的准确率达到了 81.966 5%。关键词 相似度融合;文本相似性;字面特征;语义特征;对比实验;层次分析法 doi:10.3969/j.issn.1672-9528.2023.10.0071.太原师范学院 山西晋中 030600 2.运城学院 山西运城 044000 基金项目 山西省高等学校教学改革创新项目(JG20220980)0 引言在自然语言处理过程中,文本相似性的度量占据着举足轻重的地位,在实际工程应用中也具有深远的意义,已经在互联网中得到了广泛的应用。但是由于中文文本语义表达复杂、文本长度差异较大,仅依靠文本的表面结构难以准确判断两个中文文本之间的相似
3、性,准确性和鲁棒性也比较差,因此需要分别从文本结构和语义两方面来建立模型,从而提高两个文本相似性的准确率,同时也需要建立大规模的中文文本数据集,提高相似性度量模型的泛化能力。随着自然语言处理技术的快速发展,文本相似性度量计算在机器翻译、自然语言生成、问答系统、信息检索、智能客服、情感分析等多个领域中得到广泛应用。为了解决文本结构和语义方面度量中文文本相似性存在的不足,许多学者专家都在这一方面进行了一系列的研究。目前使用较多的主要有以下三种方法:基于字符串匹配的方法、基于统计的方法和基于深度学习的方法。基于字符串匹配的相似性度量方法基本思想是通过比较两个文本之间的字符或者字符串的匹配情况来判断文
4、本相似性。常用的方法包括编辑距离(levenshtein distance)、最长公共子序列(longest common subsequence)等。Chakraborty D 等人1将每个字符串分解为多个短的子序列,并计算每个子序列之间的编辑距离,然后将这些子序列组合成原始字符串,并计算这些组合的编辑距离。通过这种方式,降低了计算编辑距离的时间复杂度。Yang S K 等人将 LCS 算法和SimHash 计算相结合,用于评估文章的文本相似度。该方法通过将文章分解为句子的单词子序列,并通过 SimHash 比较进行管理和配对,从而降低了 LCS 算法所需的时间和空间规模,准确地确定比较文章
5、的相似部分和相似度得分的目标。基于统计的相似性度量方法基本思想是通过大量的数据分析文本的频率、分布、共现等统计特征来计算文本相似性。常用的方法包括余弦相似度(cosine similarity)、LDA(latent dirichlet allocation)主题模型等。Thongtan T 等人2利用余弦相似度代替点积来计算输入向量和输出向量之间的相似度度量,其精度达到了 93.68%。Park K 等人3将余弦相似度与传统的分类器(如 MNB、SVM 和 CNN)相结合,以提高分类器的准确性,并从混淆矩阵的准确性方面评估了增强分类器的性能,取得了不错的结果。Priyantina R A 等
6、人4将 LDA、语义相似度和 LSTM 结合起来进行情感分析,不仅可以识别评论的情感极性,还可以提取评论的主题和关键词,对信息的挖掘和分析具有较高价值,获得更好的性能。此外,基于统计的相似性度量方法还包括概率潜在语义分析模型5以及隐含狄利克雷分布模型6等。基于深度学习的相似性度量方法基本思路是通过深度神经网络模型来学习文本的表示,然后通过计算表示之间的相似度来衡量文本之间的相似性,主要可以分为有监督的方法和无监督的方法。基于有监督学习的方法主要是 LSTM、BERT、Sentence BERT 等。Palangi H 等人7提出了一种基于 LSTM 的模型,首先通过词嵌入将每个单词转化为向量表
7、示,然后将这些向量输入到 LSTM 中进行语义建模,最后根据查询和文档之间的相似度进行文档排序,得到检索结果。Devlin J 等人8介绍了一种新型的预训练模型 BERT,它是一种基于 Transformer 编码器的深度双向模型,能够在多个自 2023 年第 10 期37计算机应用信息技术与信息化然语言处理任务上取得最先进的性能。Reimers N 等人9提出了一种基于 BERT 模型的双塔网络,称为 Siamese BERT网络,用于计算两个句子之间的相似度,该网络包含两个共享的 BERT 编码器,分别用于编码两个输入句子,编码器的输出向量通过余弦相似度计算得到两个句子之间的相似度得分。基
8、于无监督学习的方法主要是 Doc2vec。Le Q 等人10提出了Doc2vec方法,此方法是基于Word2Vec11的思想而来的,它通过学习文档中所有单词的分布式表示来得到文档的向量表示,可以将整个文档的语义信息表示为一个向量,从而具有更好的表示能力和泛化能力,具有很高的应用价值。1 模型介绍1.1 结构相似度模型结合数据集的特点,本文在结构方面采用改进编辑距离算法(levenshtein distance)来构建模型。传统的编辑距离是指在两个字符串之间,由一个字符串转化成另一个字符串所需要的最少编辑操作次数,如果它们的编辑距离越大,则说明两个字符串越不相似;编辑距离越小,两个字符串越相似。
9、编辑操作主要包括三种:将一个字符替换成另一个字符、插入一个字符或者删除一个字符。但是传统的编辑距离算法主要存在以下两个问题。一是传统的算法只能处理相邻位置的字符替换、删除和插入操作,不能处理长距离错位的情况。针对此问题,本文在计算编辑距离之前对字符串做了一个有序排序进行优化。二是传统的算法需要维护一个二维矩阵来记录每一步的编辑操作,因此在处理长字符串时,算法的空间消耗也比较大。针对此问题,本文采用了滚动数组来优化空间消耗大的问题,实现了将原本需要 O(mn)的空间复杂度优化为 O(min(m,n),其中 m 和n 分别是两个字符串的长度。在本文中,假设每经过一次变化(替换、插入、删除)所花费的
10、代价 cost 都是 1。所以,对传统的编辑距离算法进行改进,改进编辑距离算法的详细过程如下。(1)初始化两个字符串 s1和 s2,对字符串 s1和 s2有序排序。(2)初始化一个大小为 2 的数组 dp,其中 dp0 表示上一行的编辑距离,dp1 表示当前行的编辑距离。(3)将字符串s1和字符串s2的每一个字符进行两两比较,如果 s1i=s2j,则 cost=0;如果 s1i!=s2j,则 cost=1。(4)遍历 s1的每个字符,同时在 s2上进行操作,计算出当前字符对应的编辑距离,并更新 dp1。具体来说,假设已经计算出了 dp0j-1、dp0j、dp1j-1 三个值,分别表示 s1的前
11、 i-1 个字符和 s2的前 j-1 个字符的编辑距离,s1的前i-1 个字符和 s2的前 j 个字符的编辑距离,以及 s1的前 i 个字符和 s2的前 j-1 个字符的编辑距离,那么可以根据以下三种情况来更新 dp1j。如果 s1i=s2j,那么 dp1j=dp0j-1。因为此时不需要进行任何操作,所以 cost=0,编辑距离不会变化。如果 s1i!=s2j,那么 dp1j=min(dp0j-1,dp0j,dp1j-1)+1。其中 dp0j-1 表示将 s1的前 i 个字符替换成s2的前 j 个字符,dp0j 表示将 s1的前 i-1 个字符和 s2的前 j个字符中的任意一个删除,dp1j-
12、1 表示将 s1的前 i 个字符和s2的前j-1个字符中的任意一个插入。此时进行了变换操作,即 cost=1,取这三个值的最小值加 1 即可得到当前字符对应的编辑距离。在每次更新完 dp1j 后,需要将 dp1j 的值赋给dp0j,然后将 dp1j 的值重置为 0,以便下一次循环使用。(5)重复步骤(4),直到遍历完 s1,dp1n 就是 s1和 s2的编辑距离,其中 n 是 s2的长度。编辑距离公式为:(1)式中:i 表示字符串 s1的下标;j 表示字符串 s2的下标。计算出编辑距离后,建立结构相似度模型,相似度计算方法为:(2)式中:s1和 s2表示两个字符串;len(s1)、len(s2
13、)分别表示字符串 s1和 s2的长度;Leva,b(i,j)表示字符串 s1和 s2的编辑距离;Lev_sim 表示编辑距离相似度。1.2 语义相似度模型Sentence BERT(SBERT)是通过对 BERT 进行微调来实现文本编码的模型,从而计算句子之间的相似度。它使用了一种叫做 siamese(孪生)网络结构,可以将不同长度的文本段落映射到一个相同长度的向量空间中,使得语义相似的文本在向量空间中距离较近,不相似的文本距离较远。与BERT 不同的是,SBERT 使用了两个相同的神经网络来处理不同的文本段落,其中一个网络是用来处理参考文本,另一个网络是用来处理需要比对的文本。这两个网络共享
14、权重,使得它们能够产生具有相同语义的向量表示。因此,SBERT广泛应用于文本匹配、文本分类、聚类和信息检索等领域,因为它能够很好地处理语义相似度问题,同时能够很好地处理长文本和短文本的不同。Sentence BERT 在训练阶段将 u,v,|uv|(其中 u、v是经过池化后的句向量,|uv|是指 uv 的每个元素都取绝对值后构成的向量)拼接起来作为特征,然后在后面接一个全连接层,而在预测阶段,先计算句向量,经过池化然后计算 cos 值作为相似度。训练阶段如图 1 所示,预测阶段如图2 所示。2023 年第 10 期38计算机应用信息技术与信息化 图 1 训练阶段 图 2 预测阶段所以在 Sen
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 相似 融合 中文 文本 相似性 度量 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。