基于句级别GAN的跨语言零资源命名实体识别模型.pdf
《基于句级别GAN的跨语言零资源命名实体识别模型.pdf》由会员分享,可在线阅读,更多相关《基于句级别GAN的跨语言零资源命名实体识别模型.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2406-2411ISSN 10019081CODEN JYIIDUhttp:/基于句级别GAN的跨语言零资源命名实体识别模型张小艳*,段正宇(西安科技大学 计算机科学与技术学院,西安 710600)(通信作者电子邮箱)摘要:针对低资源语言缺少标签数据,而无法使用现有成熟的深度学习方法进行命名实体识别(NER)的问题,提出基于句级别对抗生成网络(GAN)的跨语言NER模型SLGAN-XLM-R(Sentence Level GAN Based on XLM-R)。首先,使用源语
2、言的标签数据在预训练模型XLM-R(XLM-Robustly optimized BERT pretraining approach)的基础上训练NER模型;同时,结合目标语言的无标签数据对XLM-R模型的嵌入层进行语言对抗训练;然后,使用NER模型来预测目标语言无标签数据的软标签;最后,混合源语言与目标语言的标签数据,以对模型进行二次微调来得到最终的NER模型。在CoNLL2002和CoNLL2003两个数据集的英语、德语、西班牙语、荷兰语四种语言上的实验结果表明,以英语作为源语言时,SLGAN-XLM-R 模型在德语、西班牙语、荷兰语测试集上的 F1 值分别为 72.70%、79.42%、
3、80.03%,相较于直接在XLM-R模型上进行微调分别提升了5.38、5.38、3.05个百分点。关键词:跨语言;命名实体识别;XLM-R;语言对抗训练;预训练模型中图分类号:TP391.1 文献标志码:ACross-lingual zero-resource named entity recognition model based on sentence-level generative adversarial networkZHANG Xiaoyan*,DUAN Zhengyu(College of Computer Science and Technology,Xi an Univers
4、ity of Science and Technology,Xi an Shaanxi 710600,China)Abstract:To address the problem of lack of labeled data in low-resource languages,which prevents the use of existing mature deep learning methods for Named Entity Recognition(NER),a cross-lingual NER model based on sentence-level Generative Ad
5、versarial Network(GAN),namely SLGAN-XLM-R(Sentence Level GAN based on XLM-R),was proposed.Firstly,the labeled data of the source language was used to train the NER model on the basis of the pre-trained model XLM-R(XLM-Robustly optimized BERT pretraining approach).At the same time,the linguistic adve
6、rsarial training was performed on the embedding layer of XLM-R model by combining the unlabeled data of the target language.Then,the soft labels of the unlabeled data of the target language were predicted by using the NER model,Finally the labeled data of the source language and the target language
7、was mixed to fine-tune the model again to obtain the final NER model.Experiments were conducted on four languages,English,German,Spanish,and Dutch,in two datasets,CoNLL2002 and CoNLL2003.The results show that with English as the source language,the F1 scores of SLGAN-XLM-R model on the test sets of
8、German,Spanish,and Dutch are 72.70%,79.42%,and 80.03%,respectively,which are 5.38,5.38,and 3.05 percentage points higher compared to those of the direct fine-tuning on XLM-R model.Key words:cross-language;Named Entity Recognition(NER);XLM-R(XLM-Robustly optimized BERT pretraining approach);linguisti
9、c adversarial training;pre-trained model0 引言 命名实体识别(Named Entity Recognition,NER)是一项基本的信息提取任务,旨在识别文本中的命名实体,并将它归入预定义的实体类型(如人、组织、地点等)。作为信息提取的一个子任务,它是信息检索1、问题回答2和文本总结3等的关键构建模块。近年来深度学习方法在NER领域取得了不错的成绩,目前 流 行 的 方 法 在 预 训 练 语 言 模 型(Pre-trained Language Model,PLM)的基础上添加一个线性分类器,然后使用标签数据对整个PLM进行微调。深度学习方法的应用需
10、要大量的标签数据,然而,除了几种高资源的语言,大部分的语言如藏语、维吾尔语、蒙古语等的标签数据都是有限的,而且人工标注数据通常费时且昂贵4。因此,随着深度学习的发展,在目标语言中没有或有极少标签数据的场景下,研究如何将高资源语言中的数据或知识迁移到低资源语言获得了越来越多的关注。针对跨语言低资源命名实体识别中的标签数据稀缺问题,近年来许多学者进行了研究,现有的方法主要分为数据迁移方法和模型迁移方法。数据迁移方法是将源语言的标签数据通过映射、翻译等文章编号:1001-9081(2023)08-2406-06DOI:10.11772/j.issn.1001-9081.2022071124收稿日期:
11、20220801;修回日期:20221104;录用日期:20221111。作者简介:张小艳(1967),女,陕西西安人,教授,硕士,主要研究方向:人工智能、软件工程及开发技术、企业信息化建设;段正宇(1998),男,安徽安庆人,硕士研究生,主要研究方向:深度学习、自然语言处理。第 8 期张小艳等:基于句级别GAN的跨语言零资源命名实体识别模型方法,转换成目标语言的标签数据。Sun等5直接将低资源语言翻译成英语,并提出了反向注意力知识迁移机制来从预训练模型中获得语言对齐的语义特征。但直接翻译造成的单词词序不一致会影响模型的表现,因此 Liu等6提出了 MulDA(Multilingual Dat
12、a Augmentation framework for low-resource cross-lingual NER)模型,首先将实体标签以线性化的形式嵌入到句子中构建新的句子集,接着使用机器翻译将新的句子集翻译成目标语言的句子,并根据实体标签重构成目标语言的数据集,保证标签序列与句子词序的对应。同样地,Jain等7首先利用机器翻译系统对句子和实体进行翻译,接着使用正交矩阵和音标相似度匹配实体,最后通过数据集的分布式统计结果确定最终的翻译的语料完成数据的迁移。Ding等8将线性化嵌入方法应用到了有少量标签数据的目标语言上,提出了数据增强模型 DAGA(Data Augmentation wi
13、th a Generation Approach for low-resource tagging tasks),将实体标签嵌入到句子中,并进行同种类型实体的替换来扩充数据现有目标语言标签数据集。模型迁移方法通过提取源语言上语言无关的特征训练模型,或充分利用目标语言上的无标签数据来提升模型在双语之间的对齐能力,之后直接在目标语言上使用训练好的模型进行推理预测。跨语言非监督的模型的建立是模型迁移方法的热点,Bari等9基于人类学习第二语言的可理解输出理论,不使用目标语言的任何的平行语料、跨语言词典、标签数据,建立了非监督的跨语言NER模型。随着预训练模型的发展,开始有研究者将目光放在大型跨语言预
14、训练模型上,而非自行进行非监督训练构建模型。Keung等10基于多语言BERT(multilingual Bidirectional Encoder Representations from Transformers,mBERT)模型11,以英语作为源语言,判别语言是否属于英语的对抗训练,表明对抗学习能够提升mBERT上英语与其他语言之间的对齐。Wu等12扩展了元学习理论到跨语言NER中,使用少量的标注数据,结合元学习训练一个多语言模型的初始化参数,以快速地将模型调整到给定的语言场景中,并通过计算句子相似度建立多种伪码NER任务来进行元学习。Pfeiffer 等13提出基于适配器的框架 MAD
15、-X(Multiple ADapters for cross-lingual transfer),通过学习模块化语言和任务表示,可以实现对任意任务和语言的高可移植性和参数的有效传输。Wu等14认为以前大部分的工作都过度依赖于标签数据,没有充分使用到无标签的目标语言数据,因此将教师学生网络应用在跨语言NER任务上,将源语言上训练的NER模型作为教师模型,使用目标语言上的无标签数据训练学生模型,使教师模型与学生模型的输出保持一致。部分研究者研究两种方法对跨语言模型的贡献,结合两种迁移方法来提高跨语言模型的表现。Wu等15提出模型迁移和数据迁移互相之间有辅助作用,前者可以获得语言无关的特征,但是却无
16、法获取目标语言的特定任务的信息,后者可以通过翻译来扩展数据,但是数据迁移方法对上下文信息的挖掘会因为不准确的翻译而削弱,因此提出了 UniTrans(Unify both model and data Transfer for cross-lingual NER)模型,结合了上述两种迁移方法,采用知识蒸馏利用无标签的目标语言数据。同样地,Yi等16使用源语言的标注数据生成目标语言的伪码数据来进行数据迁移,使用不同的伪码数据训练多对教师-学生模型来进行模型迁移。Fu等17将问题限定在源语言标签数据也稀少的更苛刻情况下,结合翻译对比学习和标签对比学习将数据从源语言迁移到目标语言,使用知识蒸馏来对原
17、始模型和数据中的知识进行提取。上述研究中基于多语言PLM的跨语言NER模型取得了不错的效果。然而,由于多语言预训练是在多种语言上以非监督训练的方式训练而来,在进行跨语言NER时会引入多种语言的噪声,因此这类方法依然存在着PLM在双语之间对齐效果不佳的问题。因此,本文采用预训练模型XLM-R(XLM-Robustly optimized BERT pretraining approach)18作为基础模型,采用对抗神经网络提取与语言特征进行模型迁移,提升模型在双语之间的对齐能力,采用二次微调方法挖掘目标语言中的信息,进行数据迁移,提出了基于句级别语言对抗生成网络(Generative Adver
18、sarial Network,GAN)的跨语言命名实体识别模型 SLGAN-XLM-R(Sentence Level GAN based on XLM-R)。首先使用源语言对NER模型进行微调,同时使用源语言的标签数据和目标语言的无标签数据进行对抗训练,提升模型在两种语言之间的对齐能力;接着在目标语言上,使用NER模型对目标语言数据进行推理,获得目标语言的软标签数据;最后混合源语言的标签数据和目标语言的软标签数据,对模型进行二次微调来提取目标语言无标签数据中的知识,提升模型在目标语言上的表现。本文基于XLM-R模型提出了句级别语言对抗学习模型架构,使多语言模型在双语之间的对齐效果优于现有的词级
19、别的对抗学习架构;设计并实现了SLGAN-XLM-R跨语言命名实体识别模型。在 CoNLL2002数据集19和 CoNLL2003数据集20上,以英语作为源语言,德语、西班牙语、荷兰语作为目标语言进行了实验。1 SLGANXLMR模型 1.1模型整体架构本文提出的跨语言命名实体识别模型的核心是基于XLM-R18的句级别对抗生成网络。模型整体由三部分组成:XLM-R特征提取层、SLGAN&NER层和模型微调层。XLM-R特征提取层使用预训练模型XLM-R作为特征提取器提取多语言输入语料中的特征向量;SLGAN&NER层在特征提取层上添加线性分类器建立NER模型,同时将XLM-R模型作为生成器,训
20、练一个判别器模型判别输入的语料是否属于源语言,提高模型在双语之间的对齐能力;模型微调层的作用是使用对齐后的多语言NER模型,结合目标语言的无标签数据,生成目标语言的软标签数据,并与源语言的有标签数据混合,对多语言NER模型进行微调,得到最终的跨语言命名实体识别模型。模型的整体架构图如图1所示。图1SLGAN-XLM-R神经网络模型的整体结构Fig.1Overall structure of SLGAN-XLM-R neural network model2407第 43 卷计算机应用1.2XLM-R特征提取层XLM(Cross-lingual Language Model pretrainin
21、g)模型21是Facebook于2019年提出的多语言预训练模型,整体思路基于BERT11,通过共享词表的方式克服了BERT在多语言上的信息不互通难题,将不同的语言放在一起采用新的训练目标进行训练,让模型能够掌握更多的跨语言信息。在其他下游任务上,训练语料较为稀少的语言可以利用其他语料上学到的信息。XLM提出了3个预训练任务,分别是因果语言建模任务(Causal Language Modeling,CLM)、掩 码 语 言 建 模 任 务(Masked Language Modeling,MLM)和 翻 译 语 言 建 模 任 务(Translation Language Modeling,T
22、LM)。CLM 任 务 是 一 个Transformer语言模型,该模型被训练来对给定句子预测后一个单词的概率;MLM任务是使用由任意数量的句子组成的文本流,随机将其中的单词替换成掩码单词,并预测掩码单词可能代表的词的概率;TLM任务是MLM的扩展,不考虑单语种的文本流,而是将并行的翻译对拼接起来,在源语言句子和目标语言句子中随机将一些词替换成掩码单词,在预测掩码位置可能代表的词时,首先从句子的上下文入手,当通过上下文不足以推断出被遮蔽的单词时,注意对应的翻译的内容,引导模型将源语言和目标语言进行对齐。其中CLM和MLM在单语种数据集上采用无监督的方式训练,TLM使用平行语料以有监督的方式训练
23、。XLM-R模型18建立在XLM模型和RoBERTa模型22的基础上,相较于XLM模型进行了以下改进:1)增加了语种数和训练集的数,使用超过2 TB的100多种语言数据,以自监督的方式训练跨语言表征;2)在微调期间,基于多语言模型的能力来使用多语言的标注数据,以提升下游任务的性能;3)调整了模型的参数,删除了TLM任务,以抵消使用跨语言迁移来将模型扩展到更多语言时限制了模型理解每种语言的能力的不利因素。在本文所构建的模型中,使用XLM-R模型作为特征提取层23,计算过程如式(1)(3)所示:h0=XEmbedding(X)(1)mtxe=LN(ht-1+MH(ht-1,ht-1,ht-1);t
24、 1(2)ht=LN(mtxe+FFN(mtxe)(3)其中:XEmbedding()表示XLM-R模型的嵌入函数,包含词嵌入和位置嵌入,X=xi1 i N是句子经过子词切分后的输入;MH()表示多头注意力函数;ht表示XLM-R模型第t层的输出。LN()表示层归一化函数;FNN()表示前馈神经网络;mtxe表示XLM-R模型第t层多头注意力层的输出。通过式(1)(3)得到XLM-R模型的最终输出的特征向量h。1.3SLGAN&NER层本文中的NER模型是在特征提取层的基础上添加了线性分类层,将特征向量h作为输入,使用softmax()函数来预测单词x所属的实体类别,具体计算过程如式(4)所示
25、:P(YNER)=softmax(WNERh+bNER)(4)其中:P(YNER)R|C|是单词x所属实体类别的概率分布,C是实体类别标签的集合,表示学习的参数,|C|表示集合中标签种类数。WNER Rde|C|和bNER R|C|是需要学习参数,de是特征向量h的维度。本文中的语言对抗模型将XLM-R作为生成器,训练一个句级别的判别器模型判断XLM-R中生成的特征向量是否属于源语言,提高了模型在两种语言之间的对齐能力。判别器由3个线性转换和1个ReLU函数组成,用来对特征向量进行分类,最后使用sigmoid()函数预测向量是否属于源语言的概率分布,具体过程如式(5)(7)所示:hd1=WDI
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 级别 GAN 语言 资源 命名 实体 识别 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。