基于知识增强的中文电子病历命名实体识别.pdf
《基于知识增强的中文电子病历命名实体识别.pdf》由会员分享,可在线阅读,更多相关《基于知识增强的中文电子病历命名实体识别.pdf(8页珍藏版)》请在咨信网上搜索。
1、基于知识增强的中文电子病历命名实体识别李宛泽,宋波,齐岳山(青岛科技大学信息科学技术学院,青岛266061)通信作者:宋波,E-mail:摘要:针对中文电子病历中医疗嵌套实体难以处理的问题,本文基于 RoBERTa-wwm-ext-large 预训练模型提出一种知识增强的中文电子病历命名实体识别模型 ERBEGP.RoBERTa-wwm-ext-large 采用的全词掩码策略能够获得词级别的语义表示,更适用于中文文本.首先结合知识图谱,使模型学习到了大量的医疗实体名词,进一步提高模型对电子病历实体识别的准确性.然后通过 BiLSTM 对电子病历输入序列编码,能够更好捕获病历的中上下语义信息.最
2、后利用全局指针网络模型 EGP(efficientGlobalPointer)同时考虑实体的头部和尾部的特征信息来预测嵌套实体,更加有效地解决中文电子病历命名实体识别任务中嵌套实体难以处理的问题.在 CBLUE 中的 4 个数据集上本文方法均取得了更好的识别效果,证明了 ERBEGP 模型的有效性.关键词:中文电子病历;命名实体识别;知识增强;嵌套实体;全局指针网络模型;深度学习引用格式:李宛泽,宋波,齐岳山.基于知识增强的中文电子病历命名实体识别.计算机系统应用,2023,32(12):112119.http:/www.c-s- Named Entity Recognition for Ch
3、inese Electronic Medical RecordsLIWan-Ze,SONGBo,QIYue-Shan(SchoolofInformationScienceandTechnology,QingdaoUniversityofScienceandTechnology,Qingdao266061,China)Abstract:RegardingthechallengeofhandlingnestedmedicalentitiesinChineseelectronicmedicalrecords,thisstudyproposesaknowledge-enhancednamedentit
4、yrecognitionmodelforChineseelectronicmedicalrecordscalledERBEGPbasedontheRoBERTa-wwm-ext-largepre-trainedmodel.ThecomprehensivewordmaskingstrategyemployedbytheRoBERTa-wwm-ext-largemodelcanobtainsemanticrepresentationsatthewordlevel,whichismoresuitableforChinesetexts.First,themodellearnsasignificantn
5、umberofmedicalentitynounsbyintegratingknowledgegraphs,furtherimprovingentityrecognitionaccuracyinelectronicmedicalrecords.Then,thecontextualsemanticinformationwithintherecordscanbebettercapturedthroughBiLSTMencodingoftheinputsequenceofmedicalrecords.Finally,theefficientGlobalPointer(EGP)modelisadopt
6、edtosimultaneouslyconsiderthefeaturesofboththeheadandtailofentitiestopredictnestedentities,addressingthechallengeofhandlingnestedentitiesinnamedentityrecognitiontasksofChineseelectronicmedicalrecords.TheeffectivenessoftheERBEGPmodelisdemonstratedbyyieldingbetterrecognitionresultsonthefourdatasetswit
7、hinCBLUE.Key words:Chineseelectronicmedicalrecords;namedentityrecognition(NER);knowledgeenhancement;nestedentities;globalpointernetworkmodel;deeplearning1引言中文电子病历命名实体识别是医学信息处理和自然语言处理领域的研究热点之一.近年来,随着电子病历系统的广泛应用,医疗领域产生了大量的中文电子计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(
8、12):112119doi:10.15888/ki.csa.009322http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041收稿时间:2023-05-22;修改时间:2023-06-28;采用时间:2023-07-12;csa 在线出版时间:2023-09-22CNKI 网络首发时间:2023-09-26112系统建设SystemConstruction病历数据.这些数据包含了丰富的医学信息,如疾病名称、药物名称、手术名称等,因此可以作为医学知识的宝库.然而,中文电子病历数据规模庞大,医学信息呈现多样化和非结构化的特点,因此如何有效地从中文电子病历中
9、提取医学信息,成为医学信息处理和自然语言处理领域的重要研究方向之一.命名实体识别(namedentityrecognition,NER)是从文本中识别并提取出具有特定意义的实体名称的任务,是信息抽取、文本挖掘和自然语言处理中的一项基本任务.电子病历命名实体识别旨在从电子病历中自动化地识别和提取出病人信息、疾病名称、药品名称、手术名称等医学实体信息.这对于医疗机构、医生和研究人员来说都具有重要意义,不仅可以协助医生进行临床分析来提高医疗诊断效率,而且能够加快智慧医疗研究的进展.目前,许多研究者已经对电子病历命名实体识别进行了大量的研究,并提出了各种方法和算法.其中,深度学习算法(如卷积神经网络、
10、循环神经网络和注意力机制等)的出现,使得电子病历命名实体识别的准确率和效率得到了显著提高.但是,中文电子病历命名实体识别领域还存在一些挑战和难点,如医疗嵌套实体难以处理、中文实体边界的模糊性和实体类别的不平衡性等.因此,针对中文电子病历中医疗嵌套实体难以处理的问题,本文基于 RoBERTa-wwm-ext-large 预训练模型提出一种知识增强的中文电子病历命名实体识别模型 ERBEGP.ERBEGP 借助于 EGP 从全局的角度出发,同时考虑实体的起始和终止位置,利用头部和尾部的特征信息来预测嵌套实体.同时结合知识图谱和 Bi-LSTM 以提高模型的准确性和高效性.在 cMedQANER、c
11、EHRNER、cMeEE 和 cMeEE-V2 这 4 个数据集上进行实验验证,F1 值分别达到了 81.22%、80.97%、67.03%和 67.28%.2相关工作 2.1 预训练模型预训练模型(pre-trainedmodel)是指使用大规模语料库先对模型进行训练,再通过迁移学习的方法将模型应用于特定任务中的一种模型.目的是学习语言的潜在结构和规律,并从中抽象出通用的语言表示形式,以便在各种自然语言处理任务中使用.预训练模型可以使得自然语言处理在不同的任务上表现更加出色,而无需进行特定任务的训练,减少了人工标注数据的需求,大大提高了效率.GoogleAI1于 2018 年提出的一种预训练
12、语言模型 BERT(bidirectionalencoderrepresentationsfromTransformers).采用双向 Transformer编码器进行预训练,通过 MLM(maskedlanguagemodel)和 NSP(nextsentenceprediction)两个任务对大规模的文本数据进行无监督学习,使得模型能够自动地学习到词汇、句子之间的语义关系和上下文信息.BERT 在多项自然语言处理任务上都取得了非常好的效果,成为目前最先进的语言模型之一.目前,主流的预训练模型有 BERT、RoBERTa 和 ALBERT 等.由于医学表述通常具有专业性、复杂性和多样性等特点
13、,这对预训练模型的算法设计和数据处理都提出了挑战.李正民等人2基于 BERT 提出的多特征融合模型 BERT-BiLSTM-IDCNN-Attention-CRF,通过融合模型 BiLSTM 和迭代膨胀卷积(IDCNN)有效地获得了电子病历上下文特征和局部特征,在 CCKS2020数据集上相较于 BiLSTM-CRF 等基准模型 F1 值提升1.27%.赵奎等人3提出了一种改进的 BiLSTM-CRF深度学习模型用于电子病历命名实体识别,通过 BiLSTM对病历文本进行特征提取和 CRF 对病历文本进行约束,提高了电子病历命名实体识别有效性,相对于传统的 BiLSTM-CRF 模型,该模型在实
14、体类别上的 F1 值提升了 3%11%.张芳丛等人4基于 RoBERTa 提出深度学习模型 RoBERTa-WWM-BiLSTM-CRF,通过融合模型 RoBERTa-WWM、BiLSTM 和 CRF 有效解决了中文电子病历命名实体识别中存在的一词多义和词识别不全的问题.2.2 知识图谱预训练模型通常是通过大规模的文本语料库进行训练的,例如 BERT 系列模型.这些模型学习到了大量的语言知识,包括词汇、语法和语义.然而,这些模型并不总是具有完整的语义知识,比如一些专业领域的实体和关系等知识.这就需要知识图谱来填补这些空白.知识图谱是一种结构化的知识表示形式,它以图形的形式呈现实体、概念和它们之
15、间的关系.知识图谱可以提供大量的结构化知识,例如实体、关系、属性等等,这些知识可以被用来扩展预训练模型的语义表示能力.随着各种基于知识图谱的预训练模型相继出现,医疗知识图谱也得到了快速发展.2020 年,Lee 等人5在 BERT 模型的基础上进行改进和微调,结合医疗知识图谱提出专门用于处理生物2023年第32卷第12期http:/www.c-s-计 算 机 系 统 应 用SystemConstruction系统建设113医学领域的文本数据的医疗预训练模型 BioBERT.BioBERT 的知识图谱数据主要是从 PubMed 和 PMC等生物医学文献数据库中提取的,这些数据集包含了大量的生物医
16、学专业术语和实体,可以更好地适应生物医学领域的特点.BioBERT 是第 1 个基于生物医学语料库的预训练模型6.同年,阿里巴巴 Zhang 等人7提出针对中文医学文本的预训练模型 MC-BERT,同样以 BERT 模型为基础模型,通过知识图谱同时将生物医学语料和生物医药实体知识注入到模型中进行训练.在命名实体任务 cEHRNER 和 cMedQANER 上,相较于其他经典模型识别效果得到了显著提高,平均 F1 值达到 90%.2021 年,Rasmy 等人8提出了生物医学领域的预训练模型 Med-BERT,相比于 BioBERT,Med-BERT 的知识图谱数据也是采用 PubMed 和 P
17、MC 等生物医学文献数据库.但 Med-BERT 是直接采用医学领域语料进行模型预训练.随后,杨飞洪等人9采用 Med-BERT 模型进行中文电子病历命名实体识别,在 cMed-QANER 数据集上 F1 值达到 82.29%,且实验结果表明模型对“药物”实体的识别率较高.3ERBEGP命名实体识别模型本文通过结合知识增强的 RoBERTa-wwm-ext-large10、BiLSTM11和 EGP6,构建了一个电子病历命名实体识别模型 ERBEGP,如图 1 所示.B-疾病I-疾病OB-疾病OEfficient GlobalPointerBiLSTMtokentokentokentokent
18、okenRoBERTa-wwm-ext-large知识图谱词嵌入层中文电子病历文本图 1ERBEGP 模型总体架构ERBEGP 模型中文电子病历命名实体识别基本流程如下.1)首先,中文电子病历文本输入到模型后需要进行数据拷贝,一部分作为初始电子病历文本直接送入词嵌入层,另一部分交给知识图谱.2)知识图谱通过检索匹配相应的知识三元组,将知识三元组与初始电子病历文本融合得到融合文本序列送入嵌入层,以此获得数据集以外的医疗知识.3)经过 RoBERTa-wwm-ext-large 将输入的文本序列映射成高维度的向量表示,通过全词掩码策略捕获文本中字级别和词级别的语义特征作为后续模型的输入.4)RoB
19、ERTa-wwm-ext-large 的输出结果被输入到BiLSTM 中进行序列编码,通过 BiLSTM 的 3 种门控机制,对电子病历文本选择性地进行遗忘或传递,以此来捕获长序列文本依赖的特征信息,能够更全面地理解文本中的上下文语义.5)最后经过 EGP 模型,利用实体起始和终止位置的特征信息来预测嵌套实体,更加灵活地进行命名实体识别任务中的序列标注,最终得到标注序列.3.1 RoBERTa-wwm-ext-large 预模型RoBERTa-wwm-ext-large10是基于 RoBERTa 模型的中文预训练语言模型,其名称中的“wwm”代表“wholewordmasking”,即采用了全
20、词掩盖策略进行训练.相比于原始的 RoBERTa 模型,RoBERTa-wwm-ext-large 使用更大规模的语料库进行无监督训练,同时采用了数据增强、全词掩盖策略以及动态掩盖策略等训练技巧,以最大化语言模型对输入文本的理解.RoBERTa-wwm-ext-large 在多项中文自然语言处理任务上取得了优秀表现,在命名实体识别任务上超越了 BERT、RoBERTa等其他先进的预训练模型.全词掩码策略可以缓解中文电子病历中信息丢失的问题.在 BERT 的掩码策略 MLM 中1,将输入的句子中一些单词进行随机掩盖,替换成特殊的掩码符号Mask,并要求模型预测这些单词,从而使模型学习到对上下文的
21、理解.但是在中文任务中 MLM 随机掩码的是某一个字,但在中文里有实际含义更有可能是这个字所组成的词或短语,这样掩码策略可能会导致一些重要的信息被丢失.而在 RoBERTa-wwm-ext-large 的全词掩码策略中,通过使用分词工具 LTP12识别词汇边界进行中文分词,然后根据全词掩码策略将整个作为掩码单元进行掩码替换再进行预测.全词掩码策略通过保留整个词组或短语的完整性而不仅仅是单个汉字特征,缓解了中文电子病历中信息丢失的问题,可以使模型更好地理解文本的上下文.例如图 2 所示,在模型的输入层输入病历文本“快速抗原检测能够识别新冠病毒”;图 2(a)中 BERT 利用 Wordpiece
22、 进行分割,MLM 将“快”“原”和“冠”这计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第12期114系统建设SystemConstruction3 个字进行 Mask,因此 BERT 在训练时学习到的更多是字与之间的关系.而在图 2(b)中 RoBERTa-wwm-ext-large 利用 LTP 进行中文分词,然后通过全词掩码策略随机选取医疗实体名词“快速抗原检测”和“新冠病毒”进行 Mask,因此 RoBERTa-wwm-ext-large 在训练时学习到的更多是词组与之间的关系.(a)MLM 掩码策略示例图Mask language modelWhole w
23、ord masking快快原原速速抗抗检 测检 测能 够 识 别能 够 识 别新病 毒新病 毒冠冠(b)全词掩码策略示例图 图 2不同掩码策略对比图 3.2 ER 预训练语言模型尽管 RoBERTa-wwm-ext-large 在自然语言处理任务中表现出色,但是仍然存在一些改进的方向.虽然RoBERTa-wwm-ext-large 使用了大规模的无标注数据进行训练,但是在某些特定任务和领域中,如本文中的医疗领域,可能需要更专业、更丰富的训练数据.因此,本文提出一个知识增强的预训练语言模型 ER(enhanced-RoBERTa-wwm-ext-large),通过 RoBERTa-wwm-ext
24、-large 与外部知识库结合起来,利用外部知识更有效地提高模型的性能.(subject,predicate,object)subjectobjectpredicate知识图谱可以看作是一种结构化的语义知识库,通常以知识三元组的形式进行表示,其中和是实体,是它们之间的关系.预训练模型引入知识图谱的策略可以分为预训练阶段引入和微调阶段引入13.相比于预训练阶段引入,在微调阶段引入知识图谱可以快速更换不同领域相关的知识库,在各专业领域的下游任务中获得性能提升.本文采用微调阶段引入知识图谱方法将知识三元组与 RoBERTa-wwm-ext-large 进行知识融合,如图 3 所示.基本方法如下.s=
25、c0,c1,c2,cnE=Noun0,Noun1,Noun2,Nounn1)在知识检索层对初始语句使用分词工具 LTP 识别词汇边界进行中文分词,得到实体名词集合.ENouniKE=K_Query(E,K)E=(wi,ri0,wi0),(wi,rik,wik)2)对集合 中每个实体在知识图谱中进行检索匹配14,生成相应的三元组.Est t=K_Inject(s,E)3)将检索到的知识三元组通过绝对位置与相对位置与初始语句 进行融合,生成句子树,14.绝对位置是指融合知识三元组后将句子按句子语序依次标记的位置.相对位置是指保留三元组的字符顺序标记,在初始语句之前的位置标记上直接进行拼接的位置.输
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 知识 增强 中文 电子 病历 命名 实体 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。