基于K-BERT的中文妇产科电子病历实体识别研究.pdf
《基于K-BERT的中文妇产科电子病历实体识别研究.pdf》由会员分享,可在线阅读,更多相关《基于K-BERT的中文妇产科电子病历实体识别研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、医学数据科学第 37 卷第 1 期医学信息Vol.37 No.12024 年 1 月Journal of Medical InformationJan.2024作者简介:张由(1993.4-),男,上海人,硕士研究生,主要从事医学自然语言处理及机器学习研究通讯作者:李舫(1974.4-),女,山西运城人,博士,讲师,主要从事图像分割、图像配准、点集配准及机器学习研究基于 K-BERT 的中文妇产科电子病历实体识别研究张 由袁李 舫渊上海电力大学计算机科学与技术学院袁上海201306冤摘要院针对利用预训练模型进行中文妇产科电子病历命名实体识别时袁BERT缺乏一定的医疗领域专业知识而导致其识别性能
2、下降的问题袁提出了一种基于知识图谱的预训练模型要要要K-BERT的命名实体识别模型K-BERT-BiLSTM-CRF遥通过K-BERT预训练模型获取包含医学背景知识的语义特征向量袁利用双向长短时记忆网络渊BiLSTM冤与条件随机场渊CRF冤提取上下文相关特征并且解决标签偏移问题袁完成实体识别遥利用真实妇产科医疗电子病历数据集进行训练袁K-BERT-BiLSTM-CRF模型的F1值达到了90.04%遥实验表明袁相比一般BERT的模型袁K-BERT-BiLSTM-CRF命名实体识别模型在中文妇产科电子病历领域上的表现更优异袁识别效果更好遥关键词院K-BERT曰双向长短时记忆网络曰条件随机场曰妇产科
3、电子病历曰命名实体识别中图分类号院TP391.1文献标识码院ADOI院10.3969/j.issn.1006-1959.2024.01.012文章编号院1006-1959渊2024冤01-0065-07Research on Entity Recognition of Chinese Obstetrics and Gynecology Electronic Medical RecordsBased on K-BERTZHANG You,LI Fang(College of Computer Science and Technology,Shanghai University of Electr
4、ic Power,Shanghai 201306,China)Abstract:When the pre-trained model is used to name entity recognition of Chinese obstetrics and gynecology electronic medical records,BERTlacks certain professional knowledge in the medical field,which leads to the decline of its recognition performance.A pre-trained
5、model based onknowledge graph-K-BERT name entity recognition model K-BERT-BiLSTM-CRF is proposed.The K-BERT pre-training model is used to obtainthe semantic feature vector containing the medical background knowledge,and the bidirectional long short-term memory network(BiLSTM)andconditional random fi
6、eld(CRF)are used to extract the context-related features and solve the label offset problem to complete the entity recognition.Using the real obstetrics and gynecology medical electronic medical record data set for training,the F1value of the K-BERT-BiLSTM-CRF modelreached 90.04%.Experiments show th
7、at compared with the general BERT model,the K-BERT-BiLSTM-CRF name entity recognition model performsbetter in the field of Chinese obstetrics and gynecology electronic medical records,and the recognition effect is better.Key words:K-BERT;Bidirectional long short-term memory;Conditional random fields
8、;Obstetrics and gynecology electronic medical records;Nameentity recognition电子病历(electronic medical records)是医疗系统信息化的产物,是医务人员在其医疗活动过程中,使用医疗机构信息系统生成的关于病患的文字、符号、图标、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录1。随着医疗信息化的快速发展,电子病历已经成为医疗服务的重要基础设施之一。同时,智慧医疗已经成为医疗行业的新兴发展方向,电子病历作为智慧医疗的重要数据源之一,将对未来医疗的发展产生重要影响。在妇产科领域,电
9、子病历的应用也日益广泛。由于妇产科疾病的特殊性和敏感性,电子病历可以更加全面、准确地记录妇产科患者的病历信息,对于提高医疗质量、优化医疗服务、保障女性健康具有重要意义。因此,研究妇产科电子病历对女性的意义已成为当前的热点问题,有望为妇产科领域的医疗服务提供更为优质的支持。命名实体识别(name entityrecognition,NER)是指从非结构化文本中识别出具有特定意义的实体,如人名、地名、机构名等2。在电子病历中,由于病历信息的非结构化特点,传统的基于规则、关键词匹配或机器学习的方法无法满足实际需求。因此,采用深度学习等技术对电子病历进行命名实体识别已成为当前的研究热点之一。对于妇产科
10、领域的电子病历数据进行 NER 任务的研究也愈发重要。妇产科领域具有许多特殊的术语和专业知识,对于实现对电子病历中妇产科实体的自动识别,需要在语料库的构建、特征的选择、模型的训练窑医学数据科学窑65医学数据科学第 37 卷第 1 期医学信息Vol.37 No.12024 年 1 月Journal of Medical InformationJan.2024等方面进行一系列的优化。同时,由于妇产科领域的疾病分类较为复杂,电子病历中的实体种类也更加繁多,对 NER 任务的难度和要求提高了不少。通过NER 任务可以更加全面、准确地识别和记录妇产科患者的病历信息,为后续的医疗诊疗提供有力支持。1研究背
11、景及现状早期命名实体识别技术主要是基于规则、模板和特征工程等传统机器学习方法,其主要思路是通过手工设计规则、特征和模板等来提取实体特征并识别命名实体。这些方法依赖于领域专家的经验和先验知识,但是往往难以涵盖所有的实体类型和语境,因此在实际应用中往往表现不尽如人意。近年来由于深度学习发展迅速,越来越多的研究人员将相关技术运用到命名实体识别的研究上。这些方法可以自动学习语言特征,无需手工设计特征和规则,可以更好地适应不同的语境和实体类型,大大降低了人工成本。Lample G 等3提出双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)与条件随
12、机场(Conditional Random Field,CRF)结合的神经网络模型,由于 BiLSTM 的双向结构能够获取上下文的序列信息,并且 CRF 可以处理标签间的依赖关系,因此在命名实体识别任务上得到了相当理想的效果。王若嘉等4将 BiLSTM-CRF 引入中文电子病历命名实体识别领域,标注数据集,建立BiLSTM-CRF 模型对电子病历中症状、检查等 5 类命名实体进行识别,得到了 78.12%的值;李超凡等5将词嵌入与 BiLSTM-CRF 进行结合,对病历进行实体识别,进一步提高了模型性能,值达到了 90.8%。Lu NJ 等6使用上海一家三甲医院的 11 万条住院和门诊记录结合
13、搜狗词典,将单词边界信息编码为模型输入特征,使用多级嵌入(字符级嵌入、词语级嵌入和字典特征级嵌入)作为 BiLSTM-CRF 输入,达到了 92.68%的值。2018 年谷歌团队 Devlin J 等7所提出来的一种语 言 预 处 理 模 型 BERT(Bidirectional EncoderRepresentations from Transformer)来表征词向量。BERT 通过在海量的无标注数据上预训练语言模型,然后在命名实体识别任务上进行微调,可以在少量标注数据的情况下取得较好的效果,极大地降低了标注数据的需求。基于 BERT 研究和改进模型被广泛研究以及应用8,例如谢腾等9设计
14、BERT-BiLSTM-CRF 模型用于中文实体识别,在 MSRA 语料和人民日报语料库上分别达到了 94.65%和94.67%的值。在中文电子病历命名实体识别领域,Liu ML 等10利用网络爬取的数据,构造细粒度BiLSTM-CRF 分层标签模型,结合包含拼音、字形信息的 BERT 模型,引入额外的标签信息和语义信息,提升了模型的性能,得到了 85.59%的值;张芳丛等11将 RoBERTa-WWM 中文预训练模型与BiLSTM-CRF 结合,设计了 RoBERTa-WWM-BiL原STM-CRF 的中文电子病历命名实体识别模型,由于RoBERTa 预训练模型对 BERT 进行了改进,使用
15、了中文训练样本,并且使用中文全词遮掩技术,解决了词识别不全及一词多义的问题,提高了识别的准确率,值达到了 89.08%。现有研究存在以下两方面问题:其一,BERT 模型一般通过大量开放语料库进行预训练,以获得通用的语言表示形式。但是由于开放语料库的专业知识不够充分,导致这些 BERT 模型在垂直领域表现不佳。在处理电子病历命名实体识别任务时,经过维基百科预训练的 Google BERT 表现不佳。如果使用垂直领域的文本直接进行预训练,由于 BERT 通常含有 110 M 以上的参数,训练一个垂直领域的BERT 需要大量的计算资源以及时间。其二,妇女由于其特殊的生理及病理特点,受情绪以及环境因素
16、影响较男性更为显著,对于隐私保护的要求也更高12。近年来移动互联网和智能手机的高速发展,开发妇产科线上问诊平台、智能预问诊、智能分诊导诊等系统对于照顾妇女患者情绪以及保护隐私有着积极的作用。但关于电子病历实体识别的研究采用的数据集大多为全科数据集,暂无专门针对妇产科的研究,这导致了许多妇产科相关应用只能利用全科数据集训练的模型,模型性能往往不够理想,实际应用效果欠佳,对于妇女患者会产生一定的困扰。基于上述两个问题,结合近期 Liu W 等13提出的基于知识图谱的预训练模型 K-BERT,本文提出了一种 K-BERT-BiLSTM-CRF 命名实体识别模型,具体步骤如下:淤采用某三甲医院的 30
17、0 份真实妇产科电子病历作为数据集,并且进行数据预处理(脱敏、标注等);于将垂直领域知识图谱三元组数据集与已预处理妇产科电子病历已标注数据注入 BERT进行训练,得到具有领域知识的预训练模型 K-BERT,并获得其特征向量;盂将得到的特征向量输入BiLSTM-CRF 网络,利用 BiLSTM 以及 CRF 获得语66医学数据科学第 37 卷第 1 期医学信息Vol.37 No.12024 年 1 月Journal of Medical InformationJan.2024图1 K-BERT-BiLSTM-CRF料的上下文序列信息以及纠正错误标签顺序,获得最优标签序列,完成妇产科电子病历文本中
18、的实体识别。2研究方法2.1 模型框架 模型整体结构如图 1 所示。模型整体分为 3 层,分别是 K-BERT 层、BiLSTM 层以及CRF 层。2.2 K-BERT K-BERT 是融合知识图谱的语言训练模型,如图 1 所示,模型由知识层、嵌入层、可见层和掩码转换器组成。处理步骤如下:淤将输入的妇产科电子病历文本语句表示为S=w0,w1,wn,其中 wi为中文单个字符。于将 S 输入 K-BERT 模型中,其知识层会自动识别知识图谱中相关的实体,并将 S 扩充成带有实体关系的三元组形式 wi,rk,wj,其中 wi,wj,rk为医学实体,为实体间关系。这样 S 会变成一个包含实体以及实体间
19、关系的句子树。以输入“卵巢囊肿会引起下腹疼痛”为例,知识层会以知识图谱为标准,将句子中的“卵巢囊肿”和“下腹疼痛”抽取出来,并且将实体扩充成三元组卵巢囊肿,belongs_to,妇科、“卵巢囊肿”,do_eat,“海参”、“下腹疼痛”,has_symptom,“腹泻”,然后将这3 个三元组注入原句子中形成句子树,见图 2。盂将句子树输入嵌入层和可见层。嵌入层主要的作用为给句子树添加软索引位置,见图 2,之后将其铺平。目的是为了将句子树铺平之后仍然不丢失原来的位置信息,以得到正确的序列。每个树干上都标有数字,表达的即是软位置索引,如卵 1 巢 2 囊 3肿 4 do_eat5 海 6 参 7。如
20、此标记之后,每根树干上表达的均为正确的位置信息。可见层通过生成一个可见矩阵 M,来限制词与词之间的关系。M 定义如式(1):Mij=0,wi,wj相互可见-肄,wi,wj相互不可见嗓瑟#(1)#其中,相互可见的取值为 0,互不可见的取值为,i 与 j 均为硬位置索引。榆将铺平后的句子树以及可见矩阵输入到掩码转换器中。掩码转换器由 12 层掩码自注意力模块堆叠而成,其作用为确保一个词只和同一个树干的上下文有关系。Mask-Self-Attention 的定义如式(2)式(4):图2句子树结构67医学数据科学第 37 卷第 1 期医学信息Vol.37 No.12024 年 1 月Journal o
21、f Medical InformationJan.2024Qi+1,Ki+1,Vi+1=hiWq,hiWk,hiWv#(2)#Si+1=softmaxQi+1Ki+1+Mdk姨蓸蔀#(3)hi+1=Si+1Vi+1#(4)其中,Wq,Wk,Wv是模型需要学习的矩阵向量参数;hi是隐状态的第 i 个 Mask-Self-Attention 块;dk是缩放因子,用于控制训练过程中的梯度稳定性;M 为可见矩阵。如果两个字在同一树干上,则 Mij的值为 0,之后按照 softmax 进行打分计算;若两个字不在同一树干上,则 Si+1的得分为 0,Mij的值为负无穷,也就意味着这两个字相互不可见。如图
22、2 所示,如果不加以处理直接输入 BERT,模型会误认为“下腹疼痛”是在“海参”之后,甚至会理解为“海参”会引发“下腹疼痛”,这会对模型性能造成很大的影响。2.3 BiLSTM 与 CRF 长短期记忆网络(LSTM)是RNN(循环神经网络)的一种变体,解决了 RNN 训练过程中梯度爆炸或梯度消失的问题,使网络能够实现长期记忆,并且捕捉上下文信息,其核心结构为遗忘门、输入门、输出门及记忆单元14,其结构用公式表达为:ft=滓(Wf伊ht-1,xt+bt)#(5)it=滓(Wi伊ht-1,xt+bi)#(6)C軒t=tanh(Wc伊ht-1,xt+bc)#(7)CT=ft伊Ct-1+it伊Ct#(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BERT 中文 妇产科 电子 病历 实体 识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。