基于注意力机制特征融合的中文命名实体识别_廖列法.pdf
《基于注意力机制特征融合的中文命名实体识别_廖列法.pdf》由会员分享,可在线阅读,更多相关《基于注意力机制特征融合的中文命名实体识别_廖列法.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 4期2023年 4月Computer Engineering 计算机工程基于注意力机制特征融合的中文命名实体识别廖列法,谢树松(江西理工大学 信息工程学院,江西 赣州 341000)摘要:命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和 BiLSTM 的模型。使用相对位置编码和修改注意力计算公
2、式对 Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用 BiLSTM 捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对 Word2Vec等传统词向量方法无法表示词的多义性问题,使用 RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集 Resume和 Weibo上 F1值分别达到 96.68%和 71.29%,相比 ID-CNN、
3、BiLSTM、CAN-NER等方法,具有较优的识别效果。关键词:注意力机制;Transformer编码器;特征融合;中文命名实体识别;预训练模型开放科学(资源服务)标志码(OSID):中文引用格式:廖列法,谢树松.基于注意力机制特征融合的中文命名实体识别 J.计算机工程,2023,49(4):256-262.英文引用格式:LIAO L F,XIE S S.Chinese named entity recognition based on attention mechanism feature fusion J.Computer Engineering,2023,49(4):256-262.Ch
4、inese Named Entity Recognition Based on Attention Mechanism Feature FusionLIAO Liefa,XIE Shusong(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,Jiangxi,China)【Abstract】Named Entity Recognition(NER)is the basis of information extraction and retrieval,kno
5、wledge mapping,and other tasks in the field of Natural Language Processing(NLP).In the NER task,the Transformer encoder pays more attention to global semantics and is insensitive to position and direction information,while the Bidirectional Long-Short Term Memory(BiLSTM)network can extract direction
6、 information from text but lacks global semantic information.To obtain global semantic and direction information simultaneously,a model of a dynamic fusion of the Transformer encoder and BiLSTM,using an attention mechanism,is proposed.The Transformer encoder is improved by using relative position co
7、ding and a modified attention calculation formula.The improved Transformer encoder is used to extract global semantic information,and the BiLSTM is used to capture direction information.Using the attention mechanism,the weight is dynamically adjusted,and the global semantic and direction information
8、 are deeply fused to obtain richer context features.By decoding the Conditional Random Field(CRF),the entitys annotation sequence prediction is realized.Furthermore,in view of the inability of Word2Vec and other traditional word vector methods to express the polysemy of words,RoBERTa-wwm pretraining
9、 model is used as the embedding layer to provide character-level embedding,obtain more contextual semantic and vocabulary information,and enhance the effect of entity recognition.The experimental results show that the F1 value of the proposed method is 96.68%and 71.29%respectively on the Chinese NER
10、 benchmark datasets,Resume and Weibo.Compared with ID-CNN,BiLSTM,CAN-NER,and other methods,the proposed method has a better recognition effect.【Key words】attention mechanism;Transformer encoder;feature fusion;Chinese Named Entity Recognition(NER);pretraining modelDOI:10.19678/j.issn.1000-3428.006443
11、2基金项目:国家自然科学基金(71761018)。作者简介:廖列法(1975),男,教授、博士,主研方向为城市计算、电子商务、个性化推荐、自然语言处理;谢树松,硕士研究生。收稿日期:2022-04-11 修回日期:2022-05-27 Email:开发研究与工程应用文章编号:1000-3428(2023)04-0256-07 文献标志码:A 中图分类号:TP391第 49卷 第 4期廖列法,谢树松:基于注意力机制特征融合的中文命名实体识别0概述 命名实体识别(Named Entity Recognition,NER)是一项旨在文本中确定实体的边界并将实体准确归类的任务。命名实体识别任务是许多自
12、然语言处理(Natural Language Processing,NLP)任务的基础,例如信息抽取、问答、信息检索、知识图谱等,备受研究人员的关注。命名实体(Named Entity,NE)1最早是在第六届信息理解会议上被提出,用于识别文本中人名、地名、组织机构名等。在早期,命名实体识别方法都是基于规则和统计学习构建的。传统方法虽然取得一定的效果,但是存在人工特征构建困难、高度依赖专业领域知识,以及模型难以迁移等问题。随着计算机的计算能力不断提高,基于深度学习的命名实体识别方法已逐步取代传统方法并成为主流。在基于深度学习的命名实体识别方法中,命名实体识别一般被视为序列标注任务,其一般框架2-
13、3分为输入分布式表示、上下文编码器,以及标签解码器三部分。随着自然语言处理技术在中文领域的发展和应用,中文命名实体识别也受到国内外学者的广泛关注。与英文相比,中文词语之间不存在明显的分界,因此,中文命名实体识别更具有挑战性。中文命名实 体 识 别 任 务 首 先 进 行 中 文 分 词(Chinese Word Segmentation,CWS),然后采用词级别的向量表示作为输入。后续的研究表明,相比词级别的向量表示,字符级嵌入具有较优的性能4。这是因为中文分词不可避免地会出现错误,导致实体边界的预测存在问题。因此,使用字符级嵌入作为中文命名实体识别方法的输入成为研究人员的首选。基于字符级嵌入
14、的方法虽然避免了中文分词产生的误差,但是同样会丢失词汇信息。而实体边界一般是词汇的边界,基于字符级嵌入的方法在对实体边界的预测时面临诸多挑战。近年来最流行的BERT(Bidirectional Encoder Representations from Transformer)预训练模型也不能解决该问题。因为BERT 模型是以字符为最小粒度进行切分,而不是词5,所以使用 BERT预训练模型仅能获得字符级嵌入,无法获得中文的词汇信息。而 RoBERTa-wwm模型作为 BERT 的一种改进模型,在中文文本中使用全词遮蔽策略和动态遮蔽策略,以获得一定的词汇信息和更多的语义信息,更适用于中文命名实体识
15、别任务6。在对中文文本进行向量表示的研究取得一定进展的同时,将上下文编码器作为中文命名实体识别的重要 组 成 部 分 也 得 到 快 速 发 展。双 向 长 短 期 记 忆(Bidirectional Long-Short Term Memory,BiLSTM)网络作为中文命名实体识别任务中最常用的上下文编码器,具有较优的序列建模能力,能够充分地利用上下文特征,保留文本的顺序信息。虽然 BiLSTM 使用前向和后向的网络架构,但是仅把前向信息和后向信息拼接起来,对于序列中某个字或词,并没有同时与上下文相联系,缺少全局信息。Transformer网络具有较优的并行能力和全局建模能力,广泛应用在机
16、器翻译、预训练模型等自然语言处理任务上7-8,Transformer架构和注意力机制也开始被应用在命名实体识别任务中9-10。然而,Transformer架构更加关注全局语义,对位置和方向信息不敏感11-12。在命名实体识别任务中,字符之间的相对方向和距离有助于模型识别实体。例如,“在”之 后 的 词 语,往 往 是 地 点 类 别 的 实 体。因 此,对Transformer编码器进一步改进是非常有必要的,使其适用于中文命名实体识别任务。Transformer编码器未能有效区分上下文信息来自上文或者下文。BiLSTM可以区别当前字词的上文和下文,但缺少全局语义信息。因此,本文提出基于注意力机
17、制的特征融合模型 TBAC,结合 Transformer 和BiLSTM优势获取全局语义信息和方向信息。使用注意力机制动态融合Transformer编码器提供的全局信息和BiLSTM捕获的方向信息,提取有效的上下文特征,避免信息冗余。在上下文编码层中同时使用Transformer和 BiLSTM 作为编码器,采用相对位置编码和修改注意力计算公式对 Transformer 编码器进行改进。将RoBERTa-wwm预训练模型作为嵌入层得到的动态字符级嵌入增强模型识别效果,避免分词产生的错误信息和一词多义问题。1相关工作 1.1命名实体识别COLLOBERT 等13使用统一神经网络模型框架处理多项序
18、列标注任务,其中包括命名实体识别。该框架将预训练词向量作为序列标注任务的输入,随后使用卷积神经网络进行上下文编码,最后使用条件随机场(Conditional Random Field,CRF)进行解码并输出。这是最早采用端到端对多任务联合训练进行序列标注任务的工作。HUANG 等14考虑当前词 的 上 下 文 信 息,将 BiLSTM 作 为 编 码 器,提 出BiLSTM-CRF模型并将其应用在命名实体识别任务中。BiLSTM-CRF 充分考虑当前词的上下文信息,是目前最主流的命名实体识别模型,因此,具有较优的 效 果。STRUBELL 等15采 用 卷 积 神 经 网 络(Convolut
19、ional Neural Network,CNN)作为上下文编码器,但是并没有使用传统的 CNN,而是采用膨胀卷积神经网络(ID-CNN)扩大感受野。相较于传统的 CNN,ID-CNN 能够捕捉更长的上下文信息。与BiLSTM 相比,ID-CNN 充分利用 GPU 的并行性提高运算效率,并没有降低准确率。近年来,基于注意力机制的 Transformer结构具有远距离捕捉上下文信息的能力和并行能力,广泛应用于自然语言处理领域。但是,在命名实体识别任务上,基于注意力机制的Transformer 结构的识别效果却远不如 LSTM 网络。2572023年 4月 15日Computer Engineer
20、ing 计算机工程YAN 等16分析 Transformer的注意力机制,发现其在方向性、相对位置、稀疏性方面不适用于命名实体识别任务,通过改进注意力打分函数,使得 Transformer结构在命名实体识别任务上的性能得到大幅提升。大多数研究人员使用词汇等外部信息17-18来增强 中 文 命 名 实 体 识 别,ZHANG 等19提 出 基 于Lattice LSTM 的中文命名实体识别模型。该模型在获取字信息的基础上显式地融合了词的边界信息和语义信息。LI 等20提出 FLAT 模型,设计一种位置编码的方法,用于编码字和词的相对位置,以直接建模字符与所有匹配词汇信息间的交互,从而无损地引 入
21、 词 汇 信 息。PENG 等21提 出 一 种 基 于 Soft-lexicon 编码字词信息的中文命名实体识别方法,把字和词的信息编码成联合表示,不仅利用潜在词的边界信息,还利用了词的语义信息。WU 等22提出MECT 模型,把字、词、汉字结构信息作为多元嵌入,并使用双流模型融合多元嵌入信息。这些研究在中文命名实体识别领域取得较优的效果,但是需要词汇信息或者其他外部资源,可迁移性较低。1.2词向量MIKOLOV 等23提出 Word2Vector,其核心思想是通过单词的上下文得到固定长度的分布式表示,也被称为“词嵌入”或者“词向量”。Word2Vector 包括通过上下文预测当前词(CBO
22、W)和通过当前词预测上下文(Skip-gram)两部分。BERT 模型结构如图 1 所示,BERT 是 Google 以Transformer为主要框架的预训练语言模型。BERT使用 Masked语言模型(Masked Language Model,MLM)以及下一个句子预测(Next Sentence Prediction,NSP)2种预训练任务。MLM随机遮蔽输入句子的一部分单词,以预测被遮蔽的单词,类似于完形填空。NSP则是预测两句话是否具有上下文关系。BERT通过这 2个预训练任务,从海量文本中以自监督的方式训练生成融合上下文信息的词向量。LIU等24提出RoBERTa模型,使用动态遮
23、蔽策略,即每次向模型输入一个文本序列时都会生成新的掩码模式,在预训练过程中,模型会逐渐适应不同的掩码策略,学习到不同的语言特征。实验结果表明,NSP任务不能有效提高 RoBERTa模型的性能,因此,RoBERTa模型不再进行NSP任务。在去除NSP任务后,还使用了更多的数据进行预训练,有效提高RoBERTA模型的性能。以 BERT 为代表的预训练模型是以字为最小粒度进行切分,没有考虑到中文分词。CUI 等25使用中文全词遮蔽(Whole Word Masking,WWM)策略进行改进,即对组成同一个词的汉字全部进行遮蔽。RoBERTa-wwm 通过中文全词遮蔽策略学习词语级别的语义,更加适用于
24、中文命名实体识别。2本文模型 本文所提的 TBAC模型如图 2所示,主要由嵌入层、上下文编码层、特征融合层和解码层 4 部分组成。首先,将文本输入到嵌入层以获取字符级嵌入;然 后,在 上 下 文 编 码 层 分 别 使 用 Transformer 和BiLSTM 抽取上下文特征,一起送入到特征融合层并使用注意力机制进行融合;最后,在解码层使用条件随机场进行解码并输出标签。2.1嵌入层本文使用 Word2Vector 词向量和预训练模型作为嵌入层,其中,预训练模型使用哈工大讯飞联合实验室预训练的 RoBERTa-wwm模型。假设模型初始输入为句子S=(x1,x2,xn)。当使用 RoBERTa-
25、wwm 模型时,输出为字符级嵌入R=(r1,r2,rn)。当使用 Word2Vector词向量时,同样得到 字 符 级 嵌 入 和 二 元 字 符 级 嵌 入,分 别 为c=(c1,c2,cn)和b=(b1,b2,bn),其中,字符级嵌入以字为单位,二元字符级嵌入则以双字为单位,拼接起来得到最后的词向量,如式(1)所示:VVec=c;b(1)图 1BERT模型结构Fig.1Structure of BERT model图 2TBAC模型整体架构Fig.2Overall architecture of TBAC model258第 49卷 第 4期廖列法,谢树松:基于注意力机制特征融合的中文命名
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 注意力 机制 特征 融合 中文 命名 实体 识别 廖列法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。