基于深度学习的命名实体识别方法研究.pdf
《基于深度学习的命名实体识别方法研究.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的命名实体识别方法研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、第 22卷 第 10期2023年 10月Vol.22 No.10Oct.2023软 件 导 刊Software Guide基于深度学习的命名实体识别方法研究关菁华,黄启亮,吕泽华,谭梦琪(大连外国语大学 软件学院,辽宁 大连 116044)摘要:命名实体识别作为自然语言处理研究的基础,主要任务是识别文本中的地名、人名、组织机构名等专有名词。针对BERT模型的不足,以轻量化模型为目的进行改进,在保证精度的前提下,减少模型训练时间并提高特征提取能力。采用Albert和RoBERTa-WWM代替BERT,并结合BiLSTM-CRF模型分别进行实验。实验结果表明,Albert在采用跨层参数共享机制减少
2、大量参数的情况下,不仅各项评价指标与BERT相差无几,并且很大程度上减少了对资源的使用。RoBERTa在采用动态掩码和全词掩盖后,F1值提升5%左右,RoBERTa的动态掩码和全词掩盖更符合中文命名实体识别研究。关键词:命名实体识别;深度学习;序列标注;预训练模型DOI:10.11907/rjdk.221500开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP18 文献标识码:A文章编号:1672-7800(2023)010-0090-05Named Entity Recognition Method Research Based on the Deep Learning
3、GUAN Jinghua,HUANG Qiliang,LYU Zehua,TAN Mengqi(School of Software,Dalian University of Foreign Languages,Dalian 116044,China)Abstract:As the basis of natural language processing research,named entity recognition is the main task of recognizing proper nouns such as place names,personal names and org
4、anization names in text.Aiming at the shortcomings of BERT model,the paper improved the lightweight model,reduced the training time of the model and improved the feature extraction ability on the premise of ensuring the accuracy.Albert and RoBERTa-WWM were used instead of BERT,and combined with BiLS
5、TM-CRF model,experiments were carried out respectively.The experimental results show that when the cross-layer parameter sharing mechanism is adopted to reduce a large number of parameters,Albert not only has the same evaluation indexes as BERT,but also reduces the use of resources to a great extent
6、.After using dynamic mask and full word masking,F1 value increased by about 5%.RoBERTas dynamic mask and full word masking are more consistent with the research on Chinese named entity recognition.Key Words:named entity recognition;deep learning;sequence labeling;preliminary training model0 引言随着大数据时
7、代的快速发展,数据呈爆炸式增长。这一现象使得有意义的信息提取成为一项重要且关键的任务,因此自然语言处理中,信息提取技术应运而生。命名实体识别(Named Entity Recognition,NER)1作为自然语言处理研究的基础,近年来备受关注,其主要任务是识别文本中的地名、人名、组织机构名等专有名词2,其识别效果对后续的机器翻译、事件抽取、知识图谱构建等任务影响很大。中文比英语在命名实体识别上更加复杂,英语中的命名实体有着明显边界,例如地名人名的首字母大写等,对于中文而言,命名实体没明显边界、构成结构复杂、类型多种多样且不断有新的命名实体涌现,因此中文命名实体识别依然是一个重要且值得深入研究
8、的课题。1 相关工作从目前研究情况看,低资源语言(例如藏语、蒙古语)3受关注范围较广,而且中文命名实体识别在国内一收稿日期:2022-05-06基金项目:辽宁省社会科学规划基金项目(L17BTQ005,L18BTQ004);大连外国语大学科研基金项目(2021XJYB18,2016XJJS30)作者简介:关菁华(1979-),女,博士,大连外国语大学软件学院副教授,研究方向为自然语言处理;黄启亮(2001-),男,大连外国语大学软件学院学生,研究方向为软件工程;吕泽华(2002-),男,大连外国语大学软件学院学生,研究方向为计算机科学与技术;谭梦琪(1998-),女,大连外国语大学软件学院硕士
9、研究生,研究方向为文本细粒度情感分析。本文通讯作者:黄启亮。第 10 期关菁华,黄启亮,吕泽华,等:基于深度学习的命名实体识别方法研究直备受科研人员的高度重视。目前,命名实体识别实现方法主要有传统的统计模型和神经网络模型。NER方法4-6主要分为以下4类:(1)基于规则的方法。依赖于手工制定的规则,可以基于特定领域的地名词典、语法规则。著名的基于规则的NER 方法有 lase-ii、NetOwl、Facile、SAR、FASTUS 和 LTG,这些方法主要基于手工制定的语义和语法识别实体,由于特定领域的规则加上词典的不完整性,这些方法往往具有高精确度、低召回率等特点,领域迁移十分困难。(2)无
10、监督方法。主要基于聚类的方法,根据文本相似度分析得到不同的文本簇,表示不同的实体组别。(3)基于特征的监督学习方法。通过监督学习将NER任务转换为多分类任务或者是序列标签任务,因此这类方法依赖于特征工程。特征工程使用一个特征向量表示文本中的词,进而可以使用许多机器学习算法隐马尔科夫模型(Hidden Markov Model,HMM)7-8、条件随机场(Conditional Random Field,CRF)9和支持向量机(Support Vector Machine,SVM)10等。(4)基于深度学习的方法。与其他方法相比,基于深度学习的NER模型目前已经处于主导地位并取得了最先进的成果。
11、深度学习可以通过分布式向量表达,更好地自动发现隐藏的特征从而实现端到端的训练,并建立更复杂的NER模型。标准的基于深度学习的 NER 模型11-12由输入层、编码层和解码层 3层结构组成。输入层使用词级别或者字符级别的向量表示。词级别表示的常用词嵌入方法有:Word2vec13-14、Glove、fastText、SENNA。字符级别表示的常用字符嵌入方法有:基于CNN15和基于RNN16,字符嵌入可缓解未登录词(OOV)问题。随着近几年预训练模型在自然语言处理上的重大突破,基于神经网络的深度学习模型在命名实体识别任务中表现得更加优秀。在预训练模型被提出前,以Word2vec为代表的词向量技术
12、是最常用的文本特征表达方法,直到ELMo17提出了与上下文相关的文本特征表示方法后,预训练模型才得到发展并在NER任务中大放异彩。基于深度学习的命名实体识别研究已经持续了多年,现已进入相对成熟的阶段,Bert-BiLSTM-CRF18是NER模型中使用较多且效果不错的模型之一,其中Bert(Bidirectional Encoder Representation from Transformers,BERT)模型在预处理时将进行2项任务,分别是Masked LM(Masked Language Model,MLM)和下一句预测(Next Sentence Prediction,NSP),其中M
13、LM会对每个序列进行静态掩盖,在一个序列中随机静态掩盖掉15%的标签,虽然在统计学意义上依旧可以学习到特征,但实际上破坏了中文特有的词结构(例如 MASK 球)。MLM任务在每个Epoch中,对于同一个序列掩盖的标签是相同的,如果训练数据较小,就会破坏词之间的相互依赖关系。虽然基于Bert的NER模型可以达到很好的效果,但其不足之处在于规模太大,需要很强的计算能力,导致资源占用过多、训练时间过长,而且很难在便携式设备上进行训练。为了解决上述问题,本文结合中文特有的词结构19和语言学特征,使用不同的自注意力机制预训练模型并结合BiLSTM-CRF20模型在保证精确度的前提下进行微调实验。使用一种
14、鲁棒优化的BERT预训练方法全词掩盖(A Robustly Optimized BERT Pretraining ApproachWhole Word Masking,RoBERTa-WWM)21,将全词掩盖预训练模型作为预训练的输入进行实验,此预训练模型将在每个Epoch的相同序列中动态地选择15%的词进行掩盖,而不是在字符级上进行15%的掩盖,这更符合中文语言的词结构,提高了模型对特征能力的提取。由于BERT是超大规模预训练模型,在便携式设备上训练时间长、占用资源过多,因此使用其轻量化模型ALBERT22进行研究,在保留精度的前提下提高模型训练速度。2 Albert-BiLSTM-CRF
15、与 RoBERTa-BiLSTM-CRF2.1Albert预训练模型在NLP任务中,好的预训练模型至关重要,从目前的Bert、XLNet23、RoBERTa 看,性能越好的模型,其参数量也越大。如果想要扩大预训练模型的规模,会遇到内存限制。为了解决此问题,Albert降低了参数量,提升了参数使用效率。为了更好地发挥参数的功能,它使用了2种减少参数量的方法。跨层参数共享:在 Albert中,全连接层和注意力层参数全部共享,很大程度上减少了参数量;Embedding因式分解:利用矩阵分解的思想,在嵌入词向量后添加一个全连接层,将E映射到H维度,因此Albert模型的Embedding层设置为128
16、维,利用全连接层进行映射,使得映射后的维度与Hidden层的维度相同,将参数量从O(VH)减少到O(VE+EH)。Albert在预处理时会进行2项任务,分别是Masked LM和句子顺序判断(Sentence Order Prediction,SOP)。Albert与 Bert的 MLM 任务相同,均是随机遮罩进行预测。但在后续研究中发现,Bert模型中的NSP任务并不能使模型学习到句子间的连贯性信息,在下游任务中进行NSP任务反而会使模型性能下降。因此Albert使用了SOP,此任务会进行句子顺序的预测,使得模型可以学习句子之间的连贯性信息并在一定程度上解决NSP任务。2.2RoBERTa-
17、WWM预训练模型RoBERTa-WWM模型是Bert模型的优化版本,主要在Bert模型上进行以下调整:(1)采用更大的模型参数和训练数据。训练时间更长,batch size更大,训练数据更多,模型参数量更大。(2)对训练方法进行改进。由于NSP任务对模型没有实质性的性能优化,因而 RoBERTa-WWM 移除了 NSP 912023 年软 件 导 刊任务。(3)加长训练序列。训练序列更长,有助于提升模型性能。(4)动态掩码与全词掩盖。每次向模型输入一个序列时,就进行一次随机掩码,随着数据的输入,模型会适应不同的掩码策略,从而学习到不同的语言特征。全词掩盖针对中文特有的词结构进行全词掩码,使得模
18、型可以更好地学习到中文语言复杂的语言特征。(5)文本编码(Byte-Pair Encoding,BPE)。该编码方式是字符级和单词表示的混合,可以处理自然语言语料库中常见的大量词汇且不依赖于完整单词,而是依赖于子词(sub-word)单元。子词单元是根据自然语言语料库进行统计分析而得,是一种统一的编码方式。2.3BiLSTMRNN的结构能够很好地利用序列之间的关系,可以动态地获取序列间的信息并对其进行记忆保存,但是 RNN在实现时容易出现梯度消失问题。LSTM 模型是在 RNN模型上加入门限机制和记忆单元从而解决了梯度消失问题。在后续研究中发现,无论是 RNN 还是 LSTM,都是从前向后传递
19、信息,在NER任务中,现在的词性也会与后面的词有关,类似于BRNN的双向LSTM被提出以解决此问题,其结构如图1所示。双向的LSTM也称BiLSTM,它将训练2条LSTM,一条从左到右,另一条从右到左,随后进行状态序列拼接并输出。在t时刻,给定输入xt,LSTM的隐藏层输出表示具体计算过程如下:ft=Wf ht-1,Xt+bf(1)it=Wi ht-1,Xt+bi(2)Ct=tanhWC ht-1,Xt+bC(3)Ct=ft*Ct-1+it*Ct(4)ot=(Woht-1,xt+bo)(5)ht=ot*tanh(Ct)(6)其中,W为模型参数矩阵,b为偏置向量,为记忆单元的状态,和tanh为2
20、种不同的激活函数,ft、it、ot分别是遗忘门、输入门、输出门,Xt、ht分别为状态向量和输入向量。这种门限机制可以有效捕获序列前后信息从而解决梯度消失问题。2.4CRFBiLSTM 可以学习到上下文信息,但是并不能使模型学习到前后标签的约束关系。由于CRF中有着特征转移矩阵,可以使模型学习到标签之间的顺序和一些约束规则,可以更好地对标签进行预测。2.5 Albert-BiLSTM-CRF 与 RoBERTa-BiLSTM-CRF 命名实体识别模型Albert-BiLSTM-CRF 与 RoBERTa-BiLSTM-CRF 均是将预训练模型与BiLSTM网络和CRF模型结合起来的 2种模型,模
21、型结构如图2所示。由图2可以看出,命名实体模型是以BERT等预训练模型作为输入,经过BiLSTM层对每个序列分别进行向前和向后处理,使模型学习到上下文关系后,输出给CRF层进行序列前后标签约束关系的学习。3 实验与分析3.1实验数据及评价指标实验数据来源于开源的新闻网站,实验采用BIO序列标注模式,对每个字符进行标注,B表示实体类型的第一个词,I表示实体类型其余的词,O表示非实体类型。本次任务分为 7 种实体类型,如表 1 所示。数据共有 216 547字,其中CW标签有3 295个,ORG标签有9 010个,LOC标签有2 903个,FNAME标签有840个,LNAME标签有3 820个,D
22、ATE标签有17 425个,其余为O标签,训练集与验证集以7 3的比例划分。对于每一种实体类型,本次实验都采用准确率(Precision,P)、召回率(Recall,R)和F1值(F1-score)作为衡量模型性能的标准。各指标计算公式如下:P=TPTP+FP 100%(7)R=TPTP+FN 100%(8)LSTMLLSTMRLSTMLLSTMRhL0hL1LSTMLLSTMRhL2hR0hR1hR2拼接hc Fig.1BiLSTM model structure图1BiLSTM 模型结构雷神山院医Encoder特征表示层(BERT,ALBERT,RoBERTa)LSTMLSTMLSTMLS
23、TMLSTMLSTMLSTMLSTMLSTMLSTMLayerB-ORGI-ORGI-ORGI-ORGI-ORGBiLSTMCRF Fig.2Pre-trained model-BiLSTM-CRF model structure图2预训练模型-BiLSTM-CRF 模型结构 92第 10 期关菁华,黄启亮,吕泽华,等:基于深度学习的命名实体识别方法研究F1=2PRP+R 100%(9)其中,TP表示预测为正类且样本为正类,FP表示预测为正类且样本为负类,FN表示预测为负类且样本为正类,TP+FP表示预测为正类的样本数,TP+FN表示实际为正类的样本数。3.2模型搭建与参数设置本文提及的模型采
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 命名 实体 识别 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。