基于无监督预训练的跨语言AMR解析.pdf
《基于无监督预训练的跨语言AMR解析.pdf》由会员分享,可在线阅读,更多相关《基于无监督预训练的跨语言AMR解析.pdf(9页珍藏版)》请在咨信网上搜索。
1、 基于无监督预训练的跨语言AMR解析*范林雨,李军辉,孔 芳(苏州大学计算机科学与技术学院,江苏 苏州 2 1 5 0 0 6)摘 要:抽象语义表示AMR是将给定文本的语义特征抽象成一个单根的有向无环图。由于缺乏非英文语言的AMR数据集,跨语言AMR解析通常指给定非英文目标语言文本,构建其英文翻译对应的AMR图。目前跨语言AMR解析的相关工作均基于大规模英文-目标语言平行语料或高性能英文-目标语言翻译模型,通过构建(英文,目标语言和AMR)三元平行语料进行目标语言的AMR解析。与该假设不同的是,本文探索在仅具备大规模单语英文和单语目标语言语料的情况下,实现跨语言AMR解析。为此,提出基于无监督
2、预训练的跨语言AMR解析方法。具体地,在预训练过程中,融合无监督神经机器翻译任务、英文和目标语言AMR解析任务;在微调过程中,使用基于英文AMR 2.0转换的目标语言AMR数据集进行单任务微调。基于AMR 2.0和多语言AMR测试集的实验结果表明,所提方法在德文、西班牙文和意大利文上分别获得了6 7.8 9%,6 8.0 4%和6 7.9 9%的S m a t c h F1值。关键词:跨语言AMR语义解析;序列到序列模型;预训练模型中图分类号:T P 3 9 1文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 4.0 1.0 1
3、8C r o s s-l i n g u a l AMR p a r s i n g b a s e d o n u n s u p e r v i s e d p r e-t r a i n i n gF AN L i n-y u,L I J u n-h u i,KONG F a n g(S c h o o l o f C o m p u t e r S c i e n c e&T e c h n o l o g y,S o o c h o w U n i v e r s i t y,S u z h o u 2 1 5 0 0 6,C h i n a)A b s t r a c t:AMR(
4、A b s t r a c t M e a n i n g R e p r e s e n t a t i o n)a b s t r a c t s t h e s e m a n t i c f e a t u r e s o f a g i v e n t e x t i n t o a s i n g l e-r o o t d i r e c t e d a c y c l i c g r a p h.D u e t o t h e l a c k o f n o n-E n g l i s h l a n g u a g e AMR d a t a s e t s,c r o s
5、s-l i n g u a l AMR p a r s i n g a i m s t o p a r s e n o n-E n g l i s h t e x t i n t o t h e c o r r e s p o n d i n g AMR g r a p h o f i t s E n g l i s h t r a n s l a t i o n.C u r r e n t c r o s s-l i n g u a l AMR p a r s i n g m e t h o d s r e l y o n l a r g e-s c a l e E n g l i s h-
6、t a r g e t l a n g u a g e p a r-a l l e l c o r p o r a o r h i g h-p e r f o r m a n c e E n g l i s h-t a r g e t l a n g u a g e t r a n s l a t i o n m o d e l s t o b u i l d(E n g l i s h,t a r g e t l a n g u a g e,AMR)t r i p l e t p a r a l l e l c o r p o r a f o r t a r g e t l a n g u
7、a g e AMR p a r s i n g.I n c o n t r a s t t o t h i s a s s u m p-t i o n,t h i s p a p e r e x p l o r e s t h e p o s s i b i l i t y o f a c h i e v i n g c r o s s-l i n g u a l AMR p a r s i n g w i t h o n l y l a r g e-s c a l e m o n o l i n g u a l E n g l i s h a n d t a r g e t l a n g
8、u a g e c o r p o r a.T o t h i s e n d,w e p r o p o s e c r o s s-l i n g u a l AMR p a r s i n g b a s e d o n u n s u p e r v i s e d p r e t r a i n i n g.S p e c i f i c a l l y,d u r i n g p r e t r a i n i n g,w e i n t e g r a t e u n s u p e r v i s e d n e u r a l m a c h i n e t r a n s
9、l a t i o n t a s k s,E n g l i s h AMR p a r s i n g t a s k s,a n d t a r g e t l a n g u a g e AMR p a r s i n g t a s k s.D u r i n g f i n e-t u n i n g,w e u s e a n E n g l i s h AMR 2.0-b a s e d t a r g e t l a n g u a g e AMR d a t a s e t f o r s i n g l e-t a s k f i n e-t u n i n g.E x
10、p e r i m e n t a l r e s u l t s o n AMR 2.0 a n d a m u l t i l i n g u a l AMR t e s t s e t s h o w t h a t o u r m e t h o d a c h i e v e s S m a t c h F 1 s c o r e s o f 6 7.8 9,6 8.0 4,a n d 6 7.9 9 i n G e r m a n,S p a n i s h,a n d I t a l i a n,r e s p e c t i v e l y.K e y w o r d s:c
11、r o s s-l i n g u a l AMR p a r s i n g;s e q 2 s e q m o d e l;p r e-t r a i n e d m o d e l*收稿日期:2 0 2 2-1 0-2 1;修回日期:2 0 2 2-1 2-0 5通信作者:李军辉(l i j u n h u i s u d a.e d u.c n)通信地址:2 1 5 0 0 6 江苏省苏州市苏州大学计算机科学与技术学院A d d r e s s:S c h o o l o f C o m p u t e r S c i e n c e&T e c h n o l o g y,S o o
12、 c h o w U n i v e r s i t y,S u z h o u 2 1 5 0 0 6,J i a n g s u,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 6卷第1期2 0 2 4年1月 V o l.4 6,N o.1,J a n.2 0 2 4 文章编号:1 0 0 7-1 3 0 X(2 0 2 4)0 1-0 1 7 0-0 91 引言抽象语义表示AMR(A b s t r
13、a c t M e a n i n g R e p-r e s e n t a t i o n)1是一种新兴的语义解析表示形式,旨在从句子文本中抽象出语义特性,并利用图结构呈现句子的结构化语义信息。AMR将句子语义结构表示为一个单根的有向无环图。图1所示示例是以德文作为目标语言文本,首先解析为AMR序列,再将AMR序列转化为AMR图。图1 c中的节点表示文本中的概念,如“t a k e-0 1”表示“获取”这个概念,“0 1”表示t a k e的第1种词义;图中的边表示概念之间的语义关系,如“:A R G 0”表示概念“b o t h”为 概 念“t a k e-0 1”的 施 事 者。由 于
14、AMR是对文本进行抽象语义表示,抛开了句子的语法结构保存了文本的语义信息,因此它可以被应用于许多语义相关的自然语言处理任务中,如文本摘要2、机器翻译3等。F i g u r e 1 E x a m p l e o f c r o s s-l i n g u a l AMR p a r s i n g图1 跨语言AMR解析示例近年来,AMR解析的相关研究多是围绕英文开展。K o n s t a s等人4首次将AMR解析看作是一个序列到序列的问题,引起了广泛关注。随后,基于T r a n s f o r m e r序列到序列模型5的AMR解析成为AMR解析的主流方式。G e等人6通过向序列到序列的
15、AMR解析模型中引入句法和语义知识,提高AMR解析性能。X u等人7也将AMR语义解析作为序列到序列的任务,并联合机器翻译任务、句法分析任务以及AMR解析任务进行预训练,最后在AMR语料上进行微调,最终性能获得了极大的提升。Y u 等人8探究在使用序列到序列模型时融入AMR图的结构化信息,针对解码端已经解码的字符构建AMR子图,再根据当前解码端的输入字符,在子图中找到其祖先结点,将这部分信息融入到解码端,辅助解析下一个字符。B e v-i l a c q u a等人9以预训练模型B A R T(B i d i r e c t i o n a l a n d A u t o-R e g r e
16、s s i v e T r a n s f o r m e r s)作 为 初 始 化模型。与G e等人6和X u等人7的工作不同的是,该文献对AMR图的线性化方式有所改变,使用自定义符号对AMR图的概念进行替换,解决了AMR图线性化过程中共入概念信息不一致的问题。受语料资源的限制,目前大部分AMR的相关研究都是面向英文的。受启发于句子的语义表示是跨语言 的,D a m o n t e 等人1 0首 次提出跨 语 言AMR解析任务,其实验结果表明AMR语义表示可以 在 不 同 语 言 之 间 共 享;还 对AMR数 据 集L D C(L i n g u i s t i c D a t a C
17、o n s o r t i u m)2 0 1 5 E 8 61中的测试集进行了翻译,并公开了其他非英文(德文、西班牙文、意大利文和中文)的AMR解析测试集,即L D C 2 0 2 0 T 0 71 0数据集。图1是跨语言AMR解析的一个例子,可以看到,对于语义相同的英文和德文,它们的AMR是一致的。在特定语言的AMR解析任务中,由于缺少人工标注的AMR语料,相关研究多集中于跨语言AMR解析,即以AMR作为公共的语义表示,实现目标语言的AMR解析。例如,X u等人1 1利用大规模平行语料,提出多任务预训练的方法进行跨语言AMR解析,以德文为例,在预训练过程中联合英-德和 德-英 机 器 翻
18、译、英 文AMR分 析、德 文AMR解析、AMR-英文文本生成和AMR-德文文本生成共6种任务,并提出了多种微调方法,最终在德文AMR解析上获得了7 0.4 5%的S m a t c h F1值。C a i等人1 2也借助已有的翻译系统,将目标语言翻译为英文,并联合英文输入进行跨语言AMR解析。以上相关研究假设存在英文与目标语言的平行句对,或存在高性能的英文与目标语言翻译系统。与这些相关工作不同的是,本文是探讨在没有平行句对或高性能翻译系统的情况下的跨语言AMR解析。也就是说,假设仅存在英文和目标语言单语文本,如何实现高性能的跨语言AMR解析。受启发于无监督机器翻译任务 1 3以及X u等人1
19、 1的相关工作,本文将AMR解析看作是序列到序列的生成任务,并与无监督机器翻译任务一起进行基于多任务学习的预训练。具体地,在数据方面,本文主要是围绕单语英文语料进行,同时借助单语目标语言语料实现跨语言AMR解析任务。为了实现目标语言到AMR的映射,需要构建(英文,目标语言,AMR)三元(伪)平行语料。首先,构171范林雨等:基于无监督预训练的跨语言AMR解析建平行语料(英文,AMR),本文采用AMR解析工具,对单语英文进行解析,获得(英文,AMR)的伪平行语料;然后,构建目标语言与平行语料(英文,AMR)英文端的映射,以英文作为桥梁,构建(目标语言,AMR)训练语料。由于不具备(英文,目标语言
20、)平行语料,本文主要是在预训练阶段引入机器翻译任务,实现英文到目标语言的翻译。在任务方面,本文引入无监督机器翻译方法构建英文到目标语言的翻译;为了更好地指导目标语言AMR解析任务,在预训练阶段还引入英文AMR解析任务;预训练的最后一个任务是目标语言AMR解析任务。在预训练阶段结束后,利用预训练后模型的翻译能力对AMR 2.0金标准语料的源端英文进行翻译,获得(目标语言,AMR)银标准语料,并基于该语料进行微调。本文分别以德文、西班牙文和意大利文作为目标语言,实现跨语言AMR解析。基于L D C 2 0 2 0 T 0 71 0的实验结果表明,本文提出的方法是有效的,在德文、西班牙文、意大利文分
21、别获得了6 7.8 9%,6 8.0 4%和6 7.9 9%的S m a t c h F1值。本文的主要工作包括:(1)首次探索了在没有目标语言和英文平行语料或者高性能英文-目标语言翻译系统的情况下,如何实现高性能的跨语言AMR解析。(2)提出了融合无监督机器翻译和AMR解析的多任务学习预训练方法。在预训练过程中,随着翻译性能的提升,跨语言解析的质量也将逐步提升。(3)基于L D C 2 0 2 0 T 0 71 0进行实验,实验结果表明,以德文、西班牙文和意大利文为目标语言的跨语 言AMR解 析 性 能 分 别 达 到 了6 7.8 9%,6 8.0 4%和6 7.9 9%的S m a t
22、c h F1值。2 相关工作2.1 AMR解析 自从B a n a r e s c u等人1提出了英文AMR的标注准则,并且公布AMR的标注语料,就开启了一系列针对AMR解析的研究。目前基于AMR解析的研究主要是基于以下几种方式:首先是两阶段的AMR解析1 4 1 7,该方法首先生成节点,然后再构建边;其次是基于转移的AMR解析1 8 2 0,这种方法将源端词汇与目标端AMR图的概念进行对齐,随后针对源端不同的词汇采取不同的转移行动来构建边或插入节点;然后是基于图的AMR解析2 1,2 2,提出该方法是为了更好地建模图结构,基于图的遍历顺序D F S(D e p t h F i r s t S
23、 e a r c h)或B F S(B r e a d t h F i r s t S e a r c h)生成节点;最后是基于序列到序列的方式进行AMR解析7,2 3,2 4,该方法首先对AMR图进行序列化,序列化的方法包括B F S和D F S,然后使用序列到序列模型进行AMR解析。上述这些方法中,序列到序列的方法使用广泛且受到很多研究人员的青睐,因为该方法实现简单且性能可观。且随着预训练模型在AMR解析任务中成功应用,使用预训练模型进行AMR解析也逐渐形成主流。如B e v i l a c q u a等人9使用B A R T作为预训练模型,以序列到序列的方式进行AMR解析,通过探索不同的
24、线性化方法达到了当时最好的性能;B a i等人2 5在B A R T预训练模型的基础上,针对AMR的图结构提出了图的预训练方法,并将预训练与微调的任务进行统一,在AMR解析任务中取得了不错的性能提升。2.2 跨语言AMR解析上述所有相关的研究都是探究英文AMR解析任务。由于缺乏跨语言AMR的训练语料,针对目标语言AMR解析任务的研究非常有限。实际上,能否将AMR应用在不同语言仍然是个开放性的问题。V a n d e r w e n d e等人2 6首次进行跨语言AMR解析任务,首先将目标语言文本解析为语义形式,然后将其作为锚点解析成AMR图。D a m o n t e 等人1 0试图将目标语言
25、词汇与AMR的概念进行对齐,使用基于转移的方法进行跨语言AMR解析。X u等人1 1提出了跨语言AMR解析的预训练模型,实现跨语言AMR解析以及AMR到文本的双向预测。该模型主要在预训练阶段引入机器翻译任务,联合跨语言AMR解析任务在大量外部语料的使用下,实现模型对文本语义的理解。抛开外部语料的使用,C a i等人1 2提出了一种新的方法,将金标准AMR语料的英文端使用机器翻译模型翻译成目标语言,随后以英文和目标语言为输入,进行跨语言AMR解析。上述研究都是在具备(英文,目标语言)或者(英文,AMR)平行语料的情况下进行的。本文主要探索仅围绕单语英文和单语目标语言的情况下如何进行跨语言AMR解
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 监督 训练 语言 AMR 解析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。