基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别.pdf
《基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别.pdf》由会员分享,可在线阅读,更多相关《基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别.pdf(8页珍藏版)》请在咨信网上搜索。
1、第41卷第1期2024年1月D01:10.3969/j.issn.1005-202X.2024.01.018基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别中国医学物理学杂志Chinese Journal of Medical PhysicsVol.41 No.1January 2024医学人工智能-125李盛青,苏前敏,黄继汉?1.上海工程技术大学电子电气工程学院,上海2 0 16 2 0;2.上海中医药大学药物临床研究中心,上海2 0 12 0 3【摘要】目的:提出一种基于BioBERT预训练模型的纳排标准命名实体识别方法(BioBERT-Att-BiLSTM-CRF),可自
2、动提取临床试验相关信息,为高效制定纳排标准提供帮助。方法:结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,并建立命名实体识别语料库以明确实体识别任务。BioBERT-Att-BiLSTM-CRF首先将文本转换为BioBERT向量并输入至双向长短期记忆网络以捕捉上下文语义特征;同时运用注意力机制来提取关键特征;最终采用条件随机场解码并输出最优标签序列。结果:BioBERT-Att-BiLSTM-CRF在纳排标准命名实体识别数据集上的效果优于其他基准模型。结论:使用BioBERT-Att-BiLSTM-CRF能更高效地提取临床试验的纳排标准相关信息,从而增强临床试验注册数据的科学性,
3、并为临床试验纳排标准的制定提供帮助。【关键词】纳排标准;命名实体识别;双向长短期记忆网络;条件随机场;临床试验【中图分类号】R318Named entity recognition of eligibility criteria for clinical trials based on BioBERT and BiLSTMLI Shengqing,SU Qianmin,HUANG Jihan?1.School of Electronic and Electrical Engineering,Shanghai University of Engineering Science,Shanghai
4、201620,China;2.Center forDrug Clinical Research,Shanghai University of Traditional Chinese Medicine,Shanghai 201203,ChinaAbstract:Objective To present a named entity recognition method referred to as BioBERT-Att-BiLSTM-CRF for eligibilitycriteria based on the BioBERT pretrained model.The method can
5、automatically extract relevant information from clinicaltrials and provide assistance in efficiently formulating eligibility criteria.Methods Based on the UMLS medical semanticnetwork and expert-defined rules,the study established medical entity annotation rules and constructed a named entityrecogni
6、tion corpus to clarify the entity recognition task.BioBERT-Att-BiLSTM-CRF converted the text into BioBERTvectors and inputted them into a bidirectional long short-term memory network to capture contextual semantic features.Meanwhile,attention mechanisms were applied to extract keyfeatures,and a cond
7、itional random field was used for decodingand outputting the optimal label sequence.Results BioBERT-Att-BiLSTM-CRF outperformed other baseline models on theeligibility criteria named entity recognition dataset.Conclusion BioBERT-Att-BiLSTM-CRF can efficiently extracteligibility criteria-related info
8、rmation from clinical trials,thereby enhancing the scientific validity of clinical trial registrationdata and providing assistance in the formulation of eligibility criteria for clinical trials.Keywords:eligibility criteria;named entity recognition;bidirectional long short-term memory network;condit
9、ional randomfield;clinical trial【文献标志码】A【文章编号】10 0 5-2 0 2 X(2 0 2 4)0 1-0 12 5-0 8前言根据世界卫生组织(WorldHealthOrganization,WHO)的定义,临床试验是一种以志愿者为主要研究【收稿日期】2 0 2 3-0 8-2 0【作者简介】李盛青,硕士研究生,研究方向:人工智能技术,E-mail:【通信作者】苏前敏,博士,副教授,研究方向:医学数据挖掘、医学数据分析,E-mail:对象的科学研究,旨在评估新的实验性药物、现有药品和医疗设备的疗效与安全性的系统性试验,对促进医学发展和提高人类健康具有
10、积极作用。美国临床试验注册中心是全球最大的临床试验注册平台之一,其数据覆盖范围广、数据质量高且更新及时,为临床试验的设计和优化提供有力的支持,其中的纳入排除标准(简称“纳排标准”)是决定受试者能否被纳人实验组的关键因素,也是试验成功的前提条件之一。患者数量招募不足是过去的临床试验经常面临-126-的问题之一 2 1,而这种情况通常与纳排标准存在直接或间接的关系。在早期的研究中,纳排标准的制定主要通过研究人员依靠手动检索与比较分析法进行,然而这两种方法费时且容易出现主观误差,严重影响筛选方案的制定效率和准确性。与复杂繁琐的手动流程相比,经过严格测试的人工智能算法能快速、高效地制定纳排标准,提高临
11、床试验的效率和质量,同时缩短试验的周期并降低成本。因此,采用人工智能算法辅助筛选方案的制定和优化已成为临床试验设计和实施的研究热点。作为信息抽取的子任务,命名实体识别可以识别处理医学中的专有名词(如药物名称等)3。但是,由于生物医学实体的多样性与变异性,识别生物医学实体是一项具有挑战性的任务。生物医学实体识别方法主要分为基于字典和规则的方法以及基于深度学习的方法。基于规则和字典的命名实体识别方法主要利用已有的标准术语词典及匹配算法识别文本中出现的术语,并结合领域专家的观点建立词典或规则模板 4-5。医学领域专业术语众多,随着新的实体名称不断出现,词典的及时更新将面临巨大挑战;此外,单纯依赖传统
12、的词典匹配方法也难以达到较高的性能,通常需要结合其他方法使用 6 。虽然基于复杂规则的系统精确率高,但随着规则变得越来越特殊,召回率会越来越低。因此,该方法通常与机器学习方法相结合以提高模型性能 7-8 。机器学习已被广泛应用于序列标注问题的研究中,对序列中的每个单词赋予特定标签,通过输入单词序列,输出相应的实体和预测结果。机器学习主要解决两个问题,即确定实体边界和预测实体类型,并且能为每个实体分配特定标签,以表明其开始、中间和结束等词位信息。自然语言处理(Natural Language Processing,NLP)的深度学习技术不断进步,为生物医学文本挖掘模型带来新的可能性。2 0 15
13、年,百度研究院提出深度学习应用于命名实体识别的模型,即双向长短期记忆网络-条件随机场(Bidirectional Long Short-Term MemoryNetwork-Conditional Random Field,BiLSTM-CRF),该模型通过深度建模上下文信息,再利用条件随机场解码整个句子的标签。如今,NLP已不再是单个模型处理单个任务,而是在大量语料上预训练通用模型,并对特定下游任务进行微调,ELMO、G T P、BER T 等微调后的模型在许多NLP任务上都表现优异。自动纳排标准采用了多种方法,包括基于模式匹配和规则的EliXR9、El i X R-T I M E 10 1
14、和ERGO系统等。此外,还有大量的研究集中在信息抽取方面,如EliIE和Criteria2Queryl12以及Tseo等 13 的工作。中国医学物理学杂志针对目前临床试验纳排标准标注语料匮乏和术语专业性强等问题,本研究参考医学术语系统UMLS,并结合医学专家定义和纳排标准数据的特点,预先制定纳排标准实体标注规则,采用BIO标注方式创建基于纳排标准的训练语料库,并将预训练语言模型BioBERT引人纳排标准实体识别任务中,提出一种基于BioBERT与BiLSTM的医学实体识别模型。1BioBERT-Att-BiLSTM-CRF命名实体识别模型本研究提出的医学实体识别模型BioBERT-Att-Bi
15、LSTM-CRF的整体架构如图1所示。首先将英语文本转换成BioBERT的输人格式。然后将其输人BioBERT网络中以识别句子特征。BioBERT通过编码层的BiLSTM捕捉词向量中的长距离依赖关系,得到句子中每个单词的正确标签;使用注意力机制提取重要特征并减少噪声干扰。最后采用CRF层为最终预测的标签引人约束条件,以提高标签预测的准确率。该方法在经典BiLSTM-CRF的基础上进行改进,引入BioBERT语言模型以及注意力机制,进一步提高命名实体识别的准确性和效率。labellabelCRF层CRF注意力层AttentionSTMBiLSTM层人LSTM嵌入层人word图1BioBERT-A
16、tt-BiLSTM-CRF模型架构图Figure 1 BioBERT-Att-BiLSTM-CRF model architecture1.1BioBERT模型BioBERT是针对生物医学领域的语言表示模型 1。该模型利用大规模的生物医学语料库进行预训练。BioBERT与BERT具有相同的架构,编码器均采用双向Transformer,并且基于注意力机制表示文第41卷labelLSTMLSTMBioBERTwordword第1期本序列的上下文关系,能很好地并行计算和捕获长距离文本特征。BioBERT的Embedding包括3种不同的嵌人特征,分别是TokenEmbeddings、Se g me
17、n t李盛青,等.基于BioBERT与BiLSTM的临床试验纳排标准命名实体识别-127*Embeddings和Position EmbeddingS。具体嵌人特征如图2 所示。InputTokenEmbeddingsSegmentEmbeddingsPositionEmbeddings(CLS)ECLS)+EE图2 Embedding示意图Figure2EmbeddingdiagrammydogEEaEsEPEEiscuteSEPhelikesplayElke#ingSEPEngE为提高模型效果,该模型结合了“掩码语言模型(Masked Language Model)”和“下一句预测(Nex
18、tSentence Prediction)”两个任务。在掩码语言模型中,每次会随机选取文本序列中15%的词,其中,8 0%的词被掩盖,即用特殊的标记符号替换原始词汇;10%的词被替换为随机生成的其他词;10%则直接保留原始词,不进行任何处理。模型需要根据上下文信息预测被掩盖的词。下一句预测任务则需要输入两个句子A和B,从中随机选取两个句子进行训练,其中,50%的概率是连续的上下文,另外50%的概率则是不连续的。模型需要判断句子B是否为句子A的下一句,以判断这两个句子之间的关系。在生物医学语料库上进行预训练后,BioBERT在多种生物医学文本挖掘任务中的表现远远超过BERT和其他先进的模型。在生
19、物医学命名实体识别和生物医学关系提取任务中,BioBERT的F1值分别提高0.6 2%和2.8 0%;而在生物医学问答任务中,平均倒数排名提高12.2 4%,表现显著优于其他模型 14。BioBERT的预训练和微调概述如图3所示。首先,采用通用领域预训练的BERT权重对BioBERT进行初始化;随后,通过使用生物医学领域语料库(涵盖PubMed和PMC中的文本)对BioBERT进行进一步预训练;最后,对BioBERT进行微调,并通过命名实体识别、关系抽取和问答等任务进行评估。Pre-trainingofBioBERTPre-training CorporaPublMed 4.5BwordsPM
20、C13.5BwordsWeight InitializationBERTfromDevlinetal.Fine-tuningof BioBERTBioBERT Pre-trainingTask-SpecificDatasetsNamed Entity RecognitionNCBldisease,BC2GM,.Relation ExtractionTmTEU-ADR,ChemProt,.EEPre-trained BioBERTwithbiomedical domain corporaFigure 3 Pre-training and fine-tuning of BioBERTBioBERT
21、Fine-tuningtheadult renal failure cause.VOOB1TmTmVariantsintheGENESregioncontributetoDISEASES susceptiltyTrueQuestionAnsweringWhatdoesmTOR standsfor?BioASQ5b,BioASQ 6b,.mammalian target of rapamycin,图3BioBERT的预训练和微调1.2.BiLSTM模型传统的循环神经网络在处理长文本时可能会出现梯度消失或梯度爆炸的问题。为解决这个问题,Hochreiter等 15 提出长短期记忆网络(LSTM)。
22、相比传统的循环神经网络模型,LSTM通过增加门控机制和记忆单元的方式来捕捉长距离依赖关系。门控机制主要用于存储文本特征,而记忆单元则用于筛选已经存储的信息。LSTM模型通过累加更新的方式来传递信息,避免在处理长文本时可能出现的问题。LSTM的单元结构如图4所示。其中,X,表示t时刻的输人向量,C,表示记忆细胞,C,表示中间状态,h,表示隐藏状态,f表示遗忘门,;表示输入门,表示输-128-出门。遗忘门确定前一个步长中保留或摒弃哪些信息,输入门用于处理当前序列位置的输入,控制记忆单元决定存储哪些重要信息,输出门确定下一个隐藏状态。中国医学物理学杂志第41卷输出层后向传递层h前向传递层h.XXCa
23、nh送忘门输入门fLanhh-1?图4LSTM单元结构图Figure4LSTMunit structure遗忘门基于前一时刻的隐藏状态ht-,和当前时刻的输人词X计算得出,具体公式如下:,=o(W;ht-1,X,+b,)输人门的值和中间状态C,的计算公式如下:i,=o(W:h.1,X +b)(2)C,=tan(We hr.1,X,+be)(3)t时刻的细胞状态C,基于输入门的值遗忘门的值f中间状态,和前一时刻细胞状态C,.计算得出,具体公式如下:C,=o(fCr.1+i:C.)t时刻输出门的值o,和隐藏状态h,由前一时刻的隐藏状态ht-1、当前时刻的输人词X,和当前时刻隐藏状态h,计算得出,计
24、算公式如下:0,=o(W.h.-1-X,+b.)h,=o,*tan(C.)其中,为sigmoid函数,其输出值范围在0 到1之间,用于表示需要保留或遗忘的信息的比例;W和b分别表示链接两层的权重矩阵和偏置向量,通过反向传播算法更新,使得模型可以适应输人数据的特征。然而,LSTM模型还存在一些缺陷。通常情况下,前向LSTM无法处理下文的内容信息,从而限制模型在学习下文信息时的表现,对模型的最终性能产生不良影响,特别是在处理序列标注任务等NLP任务时,上下文信息对于单词、词组甚至字符都非常重要。为解决这个问题,有学者提出BiLSTM。BiLSTM本质上仍是一个循环神经网络,它将前向和后向LSTM网
25、络连接在一起,同时考虑前后两个方向的内容信息来提高整个NLP模型的性能。BiLSTM的结构如图5所示。X输出门图5BiLSTM结构图Figure5BiLSTM model structure1.3注意力机制2014年,Minh等 16 首次将注意力机制引人循环神经网络模型,并用于图像处理。随后,注意力机制逐渐被应用到NLP任务中。2 0 17 年,谷歌团队首次在文本表达中使用注意力机制 17 。该机制的工作原理是通过函数计算当前输入模块与整个输人信息之间的相似性,从而计算出每个输人模块对于当前输(1)出的重要性,并将其作为权重赋予输入语句,最终得到注意力分布i,用于调整不同输入模块在生成输出时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BioBERT BiLSTM 临床试验 标准 命名 实体 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。