结合多特征嵌入和多网络融合的中文医疗命名实体识别.pdf
《结合多特征嵌入和多网络融合的中文医疗命名实体识别.pdf》由会员分享,可在线阅读,更多相关《结合多特征嵌入和多网络融合的中文医疗命名实体识别.pdf(8页珍藏版)》请在咨信网上搜索。
1、结合多特征嵌入和多网络融合的中文医疗命名实体识别雷松泽刘博*王瑜菲单奥奎(西安工业大学计算机科学与工程学院西安710021)摘要:在医疗领域中,实体识别能够从大规模电子病历文本中提取有价值信息,由于缺乏定位实体边界的特征以及存在语义信息提取不完整等问题,中文的命名实体识别(NER)实现更加困难。该文提出一种针对中文电子病历的结合多特征嵌入和多网络融合的模型(MFE-MNF)。该模型嵌入多粒度特征,即字符、单词、部首和外部知识,扩展字符的特征表示,明确实体边界。将特征向量分别输入到双向长短期记忆神经网络(BiLSTM)和该文构建的自适应图卷积网络等双通路中,全面深入地捕获上下文语义信息和全局语义
2、信息,缓解语义信息提取不完整问题。在CCKS2019和CCKS2020数据集上进行实验验证,结果表明,相比于传统实体识别模型,该文模型能够准确且有效地提取实体。关键词:命名实体识别;多特征嵌入;多网络融合;自适应图卷积网络中图分类号:TP391.1;R-05文献标识码:A文章编号:1009-5896(2023)08-3032-08DOI:10.11999/JEIT220802Chinese Medical Named Entity Recognition Combined withMulti-Feature Embedding and Multi-Network FusionLEISongze
3、LIUBoWANGYufeiSHANAokui(School of Computer Science and Engineering,Xian Technological University,Xian 710021,China)Abstract:Inthemedicalfield,entityrecognitioncanextractvaluableinformationfromthetextoflarge-scaleelectronicmedicalrecords.Duetothelackoffeaturesforlocatingentityboundariesandincompletes
4、emanticinformationextraction,theimplementationofChineseNamedEntityRecognition(NER)ismoredifficult.Inthispaper,amodelcombiningMulti-FeatureEmbeddingandMulti-Net-workFusionmodel(MFE-MNF)isproposed.Themodelembedsmulti-granularityfeatures,i.e.characters,words,radicalsandexternalknowledge,extendsthefeatu
5、rerepresentationofcharactersanddefinestheentityboundary.ThefeaturevectorsareinputrespectivelyintothetwopathsofBi-directionalLongShort-TermMemory(BiLSTM)andadaptivegraphconvolutionnetworktocapturecomprehensivelyanddeeplythecontextsemanticinformationandglobalsemanticinformation,andalleviatetheproblemo
6、fincompletesemanticinformationextraction.TheexperimentalresultsonCCKS2019andCCKS2020datasetsshowthatcomparedwiththetraditionalentityrecognitionmodel,theproposedmodelcanextractentitiesaccuratelyandeffectively.Key words:NamedEntityRecognition(NER);Multi-featureembedding;Multi-networkfusion;Adaptivegra
7、phconvolutionalnetwork1 引言电子病历文本常常以非结构化的形式存在,从中提取出关键的医学实体信息对进一步研究患者的疾病有很大的帮助,是对医学领域进行信息挖掘的重要资源,是顺利进行后续下游任务的一个关键步骤。在中文电子病历中,命名实体识别(NamedEntityRecognition,NER)任务拥有广阔的应用场景,比如:临床决策系统1、医学信息检索2、智能问答系统3等。因此,NER对于医疗领域中病历信息的处理具有重要的研究价值。现阶段,深度学习在自然语言处理(NaturalLanguageProcessing,NLP)领域取得显著进步。Wu等人4构建一种联合卷积神经网络(
8、Convolu-tionalNeuralNetwork,CNN)、长短时记忆网络(LongShort-TermMemory,LSTM)、条件随机场收稿日期:2022-06-17;改回日期:2022-12-02;网络出版:2022-12-08*通信作者:刘博基金项目:新型网络与检测控制国家地方联合工程实验室基金(GSYSJ2016008)FoundationItem:TheNationalJointEngineeringLaboratoryofNewNetworkandDetectionFoundation(GSYSJ2016008)第45卷第8期电子与信息学报Vol.45No.82023年8月
9、JournalofElectronics&InformationTechnologyAug.2023(ConditionalRandomFields,CRF)的体系结构来捕获本地和远程的上下文特征。Dong等人5基于LSTM-CRF模型融入部首语义信息来提取实体。Xu等人6提出了中文命名实体识别的多重嵌入(MultipleEmbeddingsforChineseNamedEntityRecognition,ME-CNER)模型,嵌入多个字符表示来识别实体。Zhang等人7将注意力机制应用于嵌入层,实现多粒度嵌入。深度学习方法泛化能力强,能够自动挖掘深层特征。因此,本文选择基于深度学习的方法完成
10、命名实体识别任务。命名实体识别技术8发展迅速,已经在各个领域中得到应用。张乐等人9针对军事领域军事实体边界模糊10的问题,提出基于预训练语言模型(Bi-directionalEncoderRepresentationfromTrans-formers,BERT)的深度学习识别方法。郭力华等人11设计出一种利用最大正向匹配策略和社区注意力机制(theForwardMaximumMatchingstrategyandCommunityAttentionMechanism,FMM-CAM)的法律文书命名实体识别方法,该方法能有效提取出法律文书中的实体信息。在医疗领域,Ji等人12针对标签不一致问题,
11、设计出一种联合注意力,双向长短期记忆网络(Bi-directionalLongShort-TermMemory,BiLSTM)和CRF的模型。然而,目前NER对于医学文本中出现的专业词语还是无法精确的辨识13,对BERT14等模型的研究和应用还不够深入。因此,对于医疗领域的文本资料进行NER研究,仍然有着重大的意义。本文提出一种新的中文医疗实体识别方法,称为结合多特征嵌入和多网络融合的模型(combin-ingMulti-FeatureEmbeddingandMulti-Net-workFusionmodel,MFE-MNF)。本模型推导一种多特征嵌入的方法提取特征向量,并将多特征嵌入向量分别
12、输入到BiLSTM和本文构建的自适应图卷积网络等双通道中捕获上下文语义信息和全局语义信息。基于CCKS2019和CCKS2020数据集的实验评估,本文为NER方法在中国医学领域的实施提供了一些有价值的见解和观点。2 中文医疗文本的多特征嵌入2.1 字符嵌入s=c1,c2,.,cnci(1 i n)ixci字符是组成文本的基础单位,本文采用BERT1)模型捕获字符嵌入,将文本序列转换成为机器能够识别的字符向量。假设描述文本中的一句话,则代表语句中的第 个字,其对应的字符向量是xci=ec(ci)(1)2.2 单词嵌入wci=wci1,wci2,.,wcijwcijillwci,l=wci,1l,
13、wci,2l,.,wci,klwci,kliklixwi通过与词典信息进行匹配,将字符所对应的单词表示15为,其中表示的是从第 个字符开始的、长度为 的单词。其中步长为的所有单词组成集合为,其中表示的是从第 个字符开始匹配得到的第个步长为 的单词,使用BERT预训练语言模型获取单词特征表示,第 个字符所对应的单词向量为xwi=ew(wci)(2)2.3 多语义词典本文创建了多语义词典,即单词词典和部首字典。从搜狗词库医学板块2)下载医学词汇大全词典,并将其转换为可用格式,构造单词词典。在单词词典中包括了90 047个医学名词。通过对CCKS2019和CCKS2020数据集遍历,得到一个包含所有
14、不重复字的集合,爬取新华字典3),找到与所有字相对应的部首信息,构建一个部首字典。在该字典中总共包含12 649个键值对,其中2 041个字有多个部首,193个字等于它们自己的部首。2.4 字形嵌入rci=rci1,rci2,.,rcijrcijixri中国汉字是象形文字,其偏旁部首中蕴含着特殊的含义,比如:“疒”部首代表着属于疾病类型的实体词,“月”部首代表着属于身体器官类型的实体词。本文采用CNN提取字形的部首特征。通过与部首字典匹配,得到字符对应的部首序列集合为,其中表示与第 个字符匹配的部首,对应的部首向量为xri=pool(Conv(rci)(3)2.5 知识嵌入HowNet4)语言
15、知识库中拥有丰富的语义资源,其是由义原信息组成的。知识嵌入模块从HowNet提供的义原信息中获得外部知识,并构建一棵语义树,知识嵌入的步骤如下:步骤1构造语义树。以HowNet为知识库基线,通过义原表征出语义关系,构造一颗语义树。在每个词中融合了语义树的信息,为词提供更加细粒度的解释。步骤2使用注意力机制提取知识特征。具体过程如图1所示。w对于每个概念单词,首先通过检索HowNet1)https:/ 的知识特征向量xyi=|S(w)|i=1att(S(w)j)S(w)j(4)S(w)jwjatt(S(w)j)其中,表示与词 相似的第 个词的嵌入表示,表示每个概念单词的注意力分数att(S(w)
16、j)=exp(wcS(W)j)|S(W)|k=1exp(wcS(W)K)(5)wcS(W)j其中,表示上下文嵌入,表示义原信息的平均值。s=c1,c2,.,cnxci Rdcxwi Rdwxri Rdrxyi Rdy多特征嵌入层是指将多个特征融合嵌入,结合多语义词典,实现多粒度的实体提取,多特征嵌入如图2所示。对于输入的一段文本序列,其中字符特征向量,单词特征向量,部首特征向量,知识特征向量融合嵌入公式为xcwryi=xci xwi xri xyi(6)dcdwdrdyi 1,2,.,n其中,代表字符特征向量的维度,代表单词特征向量的维度,代表部首特征向量的维度,代表知识特征向量的维度,。3
17、模型设计3.1 多特征嵌入层提取医学实体时可以分别从字符、单词、字形、义原4个粒度提取语义特征,并构建多语义词典,准确提取语义特征。义原是最小的语义单位,每个词都可以由若干个义原来组合表示。图2展示了多个特征嵌入的模型结构。图3展示了句子“入院后诊断为阑尾炎”的语义树的形成过程。3.2 BiLSTM层将嵌入层输出的向量输入到BiLSTM层中,用来获取上下文语义信息。BiLSTM能够捕获双向的隐藏层状态,通过拼接双向隐藏层输出,建模上下文信息。3.3 自适应图卷积网络层本文构建一种新的网络模型自适应图卷积网络(AdaptiveGraphConvolutionalNetwork,AGCN)来融合邻
18、近节点特征。具体实现步骤如下所示:图1知识嵌入模块图2基于多特征嵌入的字符表示图3“入院后诊断为阑尾炎”的语义树3034电子与信息学报第45卷V=c1,c2,.,cnci(1 i n)iWlS=S1,S2,.,SnSk(k=1,2,.,n)k首先,构建语义丰富的字符图,使用滑动窗口扫描文本捕获信息。对于一个文本字符序列,其中表示文本中的第 个字。假设滑动窗口的宽度为,以步长为 前进,取得滑动窗口字符集为,其中表示在时刻 的窗口字符间联系。其次,使用点互信息16(PointwiseMutualIn-formation,PMI)来计算字符图中每两个节点之间的关联度,边的权重计算公式如下,如果值大于
19、0,说明两个字符之间存在关联,权重值为PMI值,如果值小于0,说明两个字符之间不存在关联Ai,j=PMI(ci,cj),PMI(ci,cj)01,ci=cj0,PMI(ci,cj)0(7)PMI(ci,cj)cicj其中,是指两个字符 和之间的关联度,主要的计算公式为PMI(ci,cj)=lgp(ci,cj)p(ci)p(cj)(8)p(ci,cj)=m(ci,cj)|S|(9)p(ci)=m(cj)|S|(10)m(ci)ciSm(ci,cj)cicjS|S|S其中,表示字符 在字符集 中出现的频率,表示字符 和字符 一起在字符集 中出现的频率,表示字符集 的数量。VEE=ci,cj,PMI
20、使用表示字符集合,其作为图的节点,表示字符序列之间的一组边,形式为,使用边将各个节点连接起来构成关联图。G=V,Eixixi RmmXX RnmnnXGHH(1)Rnkk最后,将构造的关联图定义为,输入一段医学文本数据,每个字符作为图中的一个节点,每个节点 对应的特征由嵌入层获得为,其中,表示特征向量的维数,所有节点的特征向量拼接构成一个特征矩阵,其中,表示所有 个字符节点。将和字符关联图 输入到AGCN模型中,得到一个特征矩阵,其中,其中 表示每个节点的隐藏层的特征维度H(1)=(AXW(0)(11)A=D12AD12AA=A+INAINDDii=jAijW(0)Rmk其中,表示归一化对称邻
21、接矩阵,表示无向图的邻接矩阵,表示单位矩阵,由于邻接矩阵还包括自身的特征信息,因而加上单位矩阵,使对角线元素有值。表示度矩阵,,是权重矩阵,为激活函数,例如ReLU激活函数。N每个节点经过图卷积层17获取相连的节点的特征向量和关联度,聚合节点信息,进而更新自身节点的特征向量。通过堆叠多层AGCN模型,经过次图卷积,每个字符特征向量通过拓扑结构传播到邻近节点上,进而能够捕获全局的语义特征。逐层传播的公式为H(l+1)=(AH(l)W(l)(12)H(0)=Xl其中,表示层数。3.4 语义融合X多头注意力容易表征特征向量内部的关联关系18。因此,本文采用多头注意力机制来融合BiLSTM模块提取的向
22、量和AGCN模块提取的向量。将经过多头注意力机制融合后的向量输入到CRF层实行序列标注,利用最大似然方法对CRF模型进行参数优化。4 实验本文实施一系列的实验以研究结合多特征嵌入和多网络融合的有效性。4.1 数据集CCKS2019数据集、CCKS2020数据集由医渡云技术有限公司提供。总共标注出6种实体类型,分别是疾病和诊断(Disease)、影像检查(Image-Check)、实验室检验(Lab-Check)、手术(Operation)、药物(Medicine)和解剖部位(AnatomicalSite)。由于存在标注不统一、实体位置偏差的问题,需要对输入数据进行优化处理。本文采用手工调整方式
23、进行改正,统一英文字母大小写,将句子以句号进行分割,将文本中的标点符号“;”“:”等删除。数据预处理后,CCKS2019有1379条数据,CCKS2020有1 050条数据集。本文使用NER任务中常用的BIO标注模式。其中,B表示命名实体的开头,I表示命名实体的中间,O表示不是命名实体。中文电子病历标注结果如图4所示。4.2 参数设置及评价指标在实验中,设定句子的最大长度为256,长度大于256将被截断,长度不足256将使用标签补充。采用保留验证法对超参数进行优化。使用验证集对超参数进行优化。模型的参数如表1所示。本文采用精确度(Precision,P)、召回率(Re-call,R)、F1值、
24、计算复杂度和计算时间作为评价指标,当且仅当实体的边界和类别均被正确识别时,认为该实体才被正确识别。4.3 对比实验结果及分析本文选取了最具代表性的NER模型,并将它第8期雷松泽等:结合多特征嵌入和多网络融合的中文医疗命名实体识别3035们与本文所提MFE-MNF模型进行比较。BiLSTM-CRF可以有效地提取上下文信息,是NER基本框架。Bert细化了编码单元,与Word2vec嵌入方式相比,Bert的F1值更高,表明Bert嵌入方式拥有较强鲁棒特性。ME-CNER模型采用多重嵌入,BiGRU-CRF网络作为标记器。与基线BiLSTM-CRF相比,ME-CNER在CCKS2019数据集上的F1
25、评分提高了2.54,在CCKS2020数据集上的F1评分提高了3.18,充分显示了多重嵌入的有效性。Lattice模型19采用BiLSTM-CRF结构,性能略优于ME-CNER模型。Bert-GCN-CRF模型20利用图卷积网络来解决上下文信息获取问题,F1值得到了提升,表明GCN对于NER任务是有用的资源。表2比较了在CCKS2019数据集上多种NER模型的结果,表3比较了在CCKS2020数据集上各种NER模型的结果。本文所提MFE-MNF模型采用多特征嵌入的方法提取特征向量,不仅嵌入字符特征、单词特征、部首特征,而且融入了外部知识,提供了更丰富的语义信息,并结合BiLSTM和自适应图卷积
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结合 特征 嵌入 网络 融合 中文 医疗 命名 实体 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。