融合知识增强的ERNIE与神经网络的中文医疗关系提取.pdf
《融合知识增强的ERNIE与神经网络的中文医疗关系提取.pdf》由会员分享,可在线阅读,更多相关《融合知识增强的ERNIE与神经网络的中文医疗关系提取.pdf(8页珍藏版)》请在咨信网上搜索。
1、Journal of SouthtwesMinzuUniversity(NaturalScienceEdition)Vol.50No.1第50 卷第1期2024年1月Jan.2024西南民族大自然科学版)doi:10.11920/xnmdzk.2024.01.011融合知识增强的ERNIE与神经网络的中文医疗关系提取李卫榜,余文浩,杨茂(西南民族大学计算机系统国家民委重点实验室,四川成都6 10 0 41)摘要:基于深度学习的方法在关系提取中通常只侧重于细粒度文本单元的表示,导致学习文本特征不足.提出了一种融合知识增强的ERNIE模型与神经网络相结合的方式去进行关系提取.该方法分为两个部分:首
2、先通过知识增强来对文本向量化,具体是将细粒度文本单元与粗粒度文本单元进行加权平均的操作使其达到知识增强的效果,再将该单元进行预测后的结果进行RTD判断有无替代词产生.最后将文本特征向量输入到BiLSTM网络中,使其得到词的上下文语义信息,并进行句子序列打分,选择分数最高的即可.实验结果表明,该方法在进行关系提取时,得到准确率为95%,精确率为91%,召回率为92%,fl-score为92%,与已有的方法进行对比,均提升了5%以上,因此提出的方法效果明显。关键词:知识增强;关系提取;神经网络;自然语言处理中图分类号:TP183;TP391.1文献标志码:A文章编号:2 0 95-42 7 1(2
3、 0 2 4)0 1-0 0 93-0 8Fusion of knowledge-enhanced ERNIE and bidirectional RNNfor Chinese medical relationship extractionLI Wei-bang,SHE Wen-hao,YANG Mao(The Key Laboratory for Computer Systems of National Ethnic Affairs Commission,Southwest Minzu University,Chengdu 610041,China)Abstract:Deep learnin
4、g-based methods in relation extraction usually focus only on the representation of fine-grained text units,resulting in insufficient learned text features.A combination of ERNIE model fused with knowledge enhancement and neural net-work was proposed to perform relationship extraction.The method was
5、divided into two parts:firstly,the text was vectorizedthrough knowledge enhancement,specifically,the fine-grained text unit and the coarse-grained text unit they were operated byweighted average to achieve the effect of knowledge enhancement,and then the unit was predicted to be the result of RTD to
6、 de-termine whether there was any alternative word generated.Finally,the text feature vectors were fed into the BiLSTM network toget the contextual semantic information of the words,and the sentence sequence was scored and the one with the highest scorewas selected.The experimental results showed th
7、at the method obtained an accuracy rate of 95%,a precision rate of 91%,a re-call rate of 92%,and an fl-score of 92%for relationship extraction,which were all improved by more than 5%when comparedwith the existing methods,so the method proposed in this paper was effective.Keywords:knowledge-enhance;r
8、elationship extraction;neural network;natural language processing随着社会进步以及科学技术的发展,生活中便有了大量的杂乱数据,这些数据给信息的提取带来不收稿日期:2 0 2 3-0 7-12作者简介:李卫榜(197 9-),男,河南周口人,讲师,博士,研究方向:大数据管理、数据质量、分布式计算.E-mail:w b l i 2 0 0 3 16 3.c o m基金项目:西南民族大学中央高校基本科研业务费专项资金国家级项目培育项目(ZYN2023008);四川省社会科学研究规划项目(SC20B127)94第50 卷西南民族大自然科学
9、版)便.新冠疫情的发生,导致医疗领域的信息量大大增加.这些信息大多数形成了非结构化的数据.对于这些非结构化的数据,用户查找有用的信息时便显得很无力1.然而信息抽取技术正是这种情况下出现的,目的是能自动的从大规模的数据中抽取有用的信息,然后将其信息进行存储,方便用户查看.随着知识图谱的出现以及发展,信息抽取技术也被广泛的应用于知识图谱的构建中.关系提取是通过自动识别实体之间的语义联系,构建多实体相互之间的连接,成为实现新知识图谱构建或已有知识图谱扩充和更新的重要基石2.面对医疗文本数据,其中多包含着大量医疗实体及其实体之间丰富的语义关系,如治疗疾病方式、疾病诊断、注意事项等信息量大、专业性强的内
10、容3,因此抽取难度大大增加.1相关工作知识增强中的知识的定义是对某领域的认识,而认识是具有某些能力去解决特定的目的.知识分为四大类,分别是事实性知识、概念性知识、程序性知识和元认知知识.这四类知识各有主要的目的用途,例如事实性知识是对客观事实的定义;概念性知识是对特定领域的理论术语的理解等;程序性知识是针对程序所使用的算法、领域等技术的研究;元认知知识是针对自我认知能力的了解.然而这些知识从表现形式上分,又可分为显性知识和隐性知识目前知识图谱这一类通过三元组和语法树等方式表现的知识,就是显性知识.其他的具有高度个人化且具有难以规范化的特点的就为隐性知识.面对自然语言处理技术的发展,关系提取的实
11、质还是关系分类,确定实体之间的类别4.关系分类主要是分为三个阶段:基于规则的关系提取、基于机器学习的关系提取、基于深度神经网络的关系提取.基于规则的关系提取是通过手写规则来匹配文本,实现关系的提取5.有触发词、依存关系的规则.虽人工手写规则有高准确度,可以针对特定的领域,在小的特定数据集下容易实现,但它具有低召回率,人工手写规则需要特定专家进行构建,耗时费力,并且在后期难以维护.基于机器学习的关系提取,对于数据的标注与否,有监督学习、半监督学习以及无监督学习.基于特征向量和基于核函数的是最为常见的监督学习,通过该监督方式可以预测测试数据的关系类型.但这种监督学习的方法不适合开放性领域进行.而半
12、监督学习对数据进行少量标注,在条件不足的情况下可提高模型的泛化能力.但监督和半监督在构建数据集时,便要对数据的关系进行明确的定义,这就造成了大量的资源浪费.而无监督模型需要大规模的语料库作为支持,从而尽可能地挖掘关系模式集,但该无监督方法最常见为对于关联名称不太清楚时,得到的评价指标却不太理想。随着人工智能的发展和学校、公司各大团队的研究,关系提取在深度神经网络中取得了较好的效果.最早出现的卷积神经网络CNN、神经网络RNN以及相关的LSTM的变体GRU网络,针对机器学习中出现的问题,这些网络模型在一定程度上解决了特征不明显、评价指标低等问题.冯贤鹤6 在2 0 19年提出的基于长短期记忆神经
13、网络(LSTM)的实体关系抽取研究中表明该方法可以有效的避免传统词向量缺乏语义信息的缺点,但该方法却忽视了上下文信息的提取.李卫疆等7 采用双向长短期记忆网络(BiLSTM)提取句子向量特征,同时结合文本上下文信息达到关系提取的效果.面对专业的医疗领域,罗计根等8 将梯度树与BiLSTM模型结合的方式进行关系提取,取得的实验结果还是相当不错.但以上网络模型结构对人工特征具有很强的依赖性,不仅构建时耗时耗力,而且可能还会出现梯度爆炸等问题,造成训练过拟合,得到的评价指标也不是较优值.Tang等9将Transformer网络结构与神经网络的结构进行对比,神经网络模型提特征有限且获得的语义信息较差,
14、而Transformer网络结构可以采用多层迭代获取更多语义信息,得到了不错的效果.在2019年谷歌公司推出的BERT模型在自然语言处理方面掀起了一片狂热,通过谷歌公司大量训练得到权重信息的预训练模型在实体识别、关系提取任务上取得了更好的成就.谢腾等10 采用BERT模型将文本信息和实体类型特征融合,减少了语义信息特征的丢失.龚汝鑫等4面对医疗领域提出的方法是利用BERT模型进行词嵌人,再通过BiLSTM和注意力机制进行特征处理,取得了以往较好的实验效果.随着预训练模型的发展,出现了较多的变体,目前得到广泛应用的为RoBERTa.朱展东11提出RoBERTa和多期95第李卫榜识增强的ERNIE
15、与神经网络的中文医疗关系提取任务学习的实体关系抽取方法,利用使用RoBERTa对文本进行建模,充分学习文本的上下文语义特征,并引人实体的语义角色标签作为外部特征增强实体的语义信息.郑杜福等12 面对军事文本采用ERNIE模型获取每个词的编码序列,然后通过解码得到的抽取效果优于BERT模型的抽取效果.因此本文融合知识增强的ERNIE网络结构与BiLSTM模型联合进行中文医疗关系抽取,2知识增强的ERNIE-BiLSTM模型面对医疗领域的非结构化数据,采用传统的机器学习,常常伴随着语料库大、准确率低等情况.而采用CNN、R NN的网络模型去进行医疗领域关系提取时,则会导致提取特征不全面、得到的信息
16、较少,训练会造成梯度爆炸等问题.而BERT网络模型中的MLM只关注细粒度文本单元表示,面对粗粒度的语言文本信息却得不到较为理想的结果.因此,本文提出一种知识增强的ERNIE与BiLSTM融合的方法去进行关系的提取,该网络模型可以更好充分考虑实体与实体之间联系,获取到丰富的语义信息,同时通过n-grams集获取粗粒度的语义信息,再联合细粒度语义信息便可获得更多的语义特征.将文本输人到知识增强的ERNIE的模型中,得到输出的句子特征向量,再将特征向量输人到BiLSTM中,使其充分理解上下文信息,最后使用Softmax分类器得到最高概率所对应的类别,进而达到关系提取的作用2.1知识增强的ERNIE模
17、型原理在粗粒度的语言学信息中,进行掩码常用的方法是ERNIE13掩盖命名实体以及短语、BERT-wwm14去掩盖整个中文单词、SpanBERT15掩盖连续的spans.而这些方式都是隐式的整合,得到的效果不太明显.GonenH等16 考虑mbert模型去计算得到额外的n-gram表示,但这种方法存在n-gram的稀疏性和OOV问题.综合比较隐式与显示的方法,因此将ERNIE利用综合MLM掩码以及使用显示n-gram标识序列进行预测,再应用于关系提取任务中。ERNIE是多层Transformer结构的层叠,首先对输入的token进行位置编码,经过自我注意力机制与残差链接进行归一化,再经过多层前馈
18、神经网络得到最终的embedding,再将文本通过匹配n-gram集来链接粗粒度文本信息.而n-gram是一种基于概率判别的统计语言模型17,它的输入是一句话,输出的是这句话的概率.当n=1时,就为MLM中的token.因此对于综合型的掩码来说,具体如下图1所示.OriginalreplaceOriginalOriginalRTDOriginalOriginalX1X2X3X4X5X6X7X8y1X3y4X6X7X8L层TransformerEncoder层TransformerEncoder位置向量12345678123456+输入向量MMX3MMX6X7X8MX3MX6X7X8感冒的症状为
19、发烧感冒的症状为发烧Input:感冒的症状为发烧n-gram集Large-scaletextcorpora图1知识增强模型流程图Fig.1Flow chart of knowledge enhancement model96第50 卷西南民族大自然科学版)当输人的文本为“感冒的症状为发烧”时,经过向量化加入位置向量后,在连续型的MLM中采用M进行掩码.但引人知识增强后,对于输入文本,会在大型语料库中进行n-gram标识,根据计算的分数,选择n-grams集,具体流程如下.其中,ZM表示随机选择掩码后所对应的n-grams序列集,Z/m表示掩码ZM之后的序列.即Zm=(X1:2),X/4:5),
20、Z/M=M,X3,M,X6,X7,X81.对于图1左边,将文本转为向量后,加上位置向量,即X=xl,x2,x3,x4,x5,x6,X7,x8.进行连续型MLM掩码后输人TransformerEncoder层中,经过L层后得到序列向量X=1X1,X2,X3,X4,X5,X6,X7,X8).得到的损失函数训练目标如式子(1)所示.-logPe(ZmI Z/m)=-Z,logPe(XI Z/m).(1)ZEZMXEZ对于图1的右边,通过大型语料库中循环计算分数得到的n-grams集后,将文本转化为序列向量,确定n-grams的开始边界集b=(1,3,4,6,7,8,得到的M对应的n-grams序列集
21、Zm=X1:2,X4,5,通过掩码后的序列为Z/M=(M,X3,M,X6,X7,X8 .再输人到TransformerEncoder后,经过L层之后,得到输出为X=y1,X3,y4,X6,X7,X81.此损失函数的训练目标为式子(2)所示.其中,Z/M是把ym掩码之后的原序列.-logPe(yml Z/m)=-logPe(yl Z/m).(2)yEyM左右两边通过L层TransformerEncoder后,左边的序列X中的X1,X2、X4,X5,分别与右边X中的1y1,y2相连接后,经过加权平均的算法,得到X的序列为yl,x3,y4,x6,x7,x8.其中损失函数如式子(3)所示.-logP(
22、ym.ZmI Z/m)=-log Po(yI Z/m)-yEYMlog P(XI Z/m).(3)ZEZMXEz在这里通过借用Electra18中采用的判别器来对输出的X序列进行判断是否原序列X中的向量是否被替换.2.2BiLSTM模型原理在知识增强的ERNIE网络模型中只考虑了字与字之间的上下文信息以及n-grams集中的有关信息,忽略了文本句子中的词法、句子结构等特征.故没考虑n-garms集中的单个n-gram与句子上下文的关系.故提出BiLSTM网络模型与知识增强的ERNIE进行融合.LSTM的本质是单向长短时记忆单元的循环神经网络,是为了缓解训练时产生的梯度消失问题所得来的.LSTM
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 知识 增强 ERNIE 神经网络 中文 医疗 关系 提取
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。