基于差分融合句法特征的英语语法纠错模型.pdf
《基于差分融合句法特征的英语语法纠错模型.pdf》由会员分享,可在线阅读,更多相关《基于差分融合句法特征的英语语法纠错模型.pdf(8页珍藏版)》请在咨信网上搜索。
1、基于差分融合句法特征的英语语法纠错模型罗松,汪春梅,袁非牛,戴维(上海师范大学信息与机电工程学院,上海201418)通信作者:罗松,E-mail:摘要:当前的英文语法纠错模型往往忽略了有利于语法纠错的文本句法知识,从而使得英语语法纠错模型的纠错能力受到影响.针对上述问题,提出一种基于差分融合句法特征的英语语法纠错模型.首先,本文提出的句法编码器不仅可以直接从文本中无监督地生成依存关系图和成分句法树信息,而且还能将上述两种异构的句法结构进行特征融合,编码成高维的句法表征.其次,为了同时利用文本中的语义和句法信息,差分融合模块先使用差分正则化加强语义编码器捕获句法编码器未能生成的语义特征,然后采用
2、协同注意力将句法表征和语义表征进一步融合,作为 Transformer 编码端的输出特征,最终输入到解码端,从而生成语法正确的文本.在 CoNLL-2014英文纠错任务数据集上进行对比实验,结果表明,该方法的准确率和 F0.5值优于基于 Copy-AugmentedTransformer 的语法纠错模型,其 F0.5值提升了 5.2 个百分点,并且句法知识避免了标注数据过少问题,具有更优的文本纠错效果.关键词:自然语言处理;语法纠错;句法知识;协同注意力;差分融合引用格式:罗松,汪春梅,袁非牛,戴维.基于差分融合句法特征的英语语法纠错模型.计算机系统应用,2023,32(10):293300.
3、http:/www.c-s- Error Correction Model Based on Differential Fusion Syntactic FeatureLUOSong,WANGChun-Mei,YUANFei-Niu,DAIWei(SchoolofInformation,MechanicalandElectricalEngineering,ShanghaiNormalUniversity,Shanghai201418,China)Abstract:CurrentEnglishGECmethodstendtoignorethesyntacticknowledgeintexts,w
4、hichplaysanimportantroleingrammaticalerrorcorrection,andthustheerrorcorrectionabilityofEnglishGECmodelsisaffected.Toaddressthisproblem,thestudyproposesaGECmethodwhichisbasedonthedifferentialfusionsyntacticfeatures.First,theproposedsyntacticencodercangeneratedependencygraphandconstituencysyntactictre
5、einformationfromrawdatainanunsupervisedwayandconductthefeaturefusionofthesetwoheterogeneoussyntacticstructurestoencodehigh-dimensionalsyntacticrepresentation.Second,toutilizebothsemanticandsyntacticinformationinthetext,thedifferentialfusionmodulefirstusesdifferentialregularizationtoenhancethesemanti
6、cencodertocapturethesemanticfeaturesthatthesyntacticencoderfailstogenerate.ThenthesyntacticrepresentationandsemanticrepresentationarefurtherfusedbycrossattentionastheoutputfeaturesoftheTransformerencoder,whicharefinallyinputtothedecodertogenerategrammaticallycorrecttext.ThecomparisonexperimentontheC
7、oNLL-2014taskdatasetshowsthattheprecisionandF0.5valueofthismethodarebetterthanthoseoftheGECmodelbasedontheCopy-AugmentedTransformer,andtheF0.5valueofthismethodisimprovedby5.2percentagepoints.Thesyntacticknowledgeavoidstheproblemoflackinghigh-qualityannotatedtrainingcorporaandhasabetterperformanceint
8、exterrorcorrection.Key words:naturallanguageprocessing(NLP);grammaticalerrorcorrection;syntacticknowledge;crossattention;differentialfusion计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(10):293300doi:10.15888/ki.csa.009259http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基
9、金项目:国家自然科学基金(62272308)收稿时间:2023-03-24;修改时间:2023-04-28;采用时间:2023-05-06;csa 在线出版时间:2023-07-14CNKI 网络首发时间:2023-07-17ResearchandDevelopment研究开发293语法纠错(grammaticalerrorcorrection,GEC)任务旨在利用自然语言处理技术,自动识别并纠正非英语母语学习者书写的文本中所包含的动词时态、拼写、标点符号等语法错误1.如表 1 所示,第 1 行表示系统的输入,第 2 行表示系统的输出,加粗单词“about”属于句子中多余的单词.表 1语法纠错
10、系统的输入输出示例输入/输出示例输入Iappreciateallaboutthis.输出Iappreciateallthis.现阶段的 GEC 常被视为神经机器翻译任务的特例2,将标准的 encoder-decoder 机器翻译模型,运用到语法纠错任务中.除此之外,基于预训练模型的语法纠错模型也渐渐的展露其优势3.尽管上述工作均大幅度地提高了语法纠错的性能,但都只是将输入句子处理成 token 序列,都未能充分挖掘句子的语义(semantic)和句法(syntactic)信息.句法作为语法的一个分支,包含句子中单词的排列次序、短语组成等结构信息.根据句法结构的表现形式,可分为依存关系图(dep
11、endencygraph)和成分句法树(constituentsyntactictree).前者是描述词与词之间的相互依存关系,后者则是关注短语及短语之间的层次关系.多项自然语言处理的下游任务,如机器翻译4、语义角色标注5、情感分析6,表明添加句子的句法信息能够提高模型的性能.因此,在 GEC 任务中,希望模型可以更多地提取句法层面的信息,捕捉源语句与目标语句的句法差异,提高模型的纠错性能.语法纠错目前存在两个问题.首先,语法纠错任务中难以获得大量的标注数据,模型训练往往达不到很好的效果.其次,源语句与目标语句之间可能只存在一个或几个字符有所不同,导致源语句与目标句子之间的文本编辑距离很小,很
12、难定位错误的字符.但在句法结构上存在较大的差异.如图 1 所示,在例句“Iappre-ciateallthis.”中,如果输入时将冗余的“about”写入句子中,可以明显地看出错误句子(ungrammatical)的句法结构发生了很大的变化.不过,语法纠错任务下的输入句子往往存在语法错误,现有的句法解析模型解析出来的句法信息存在错误.针对以上问题,本文在 Transformer 纠错模型基础上,新增了句法编码器和差分融合两个模块.本文提出的模型可以将句法特征融入到 Transformer 纠错模型中.句法编码器不仅能够从原始句子中无监督地生成依存关系图和成分句法树信息,而且更进一步地将两者进行
13、特征融合,形成深层次的句法向量信息.差分融合模块将句法向量信息和 Transformer 捕获的语义向量信息进行差分融合,使模型可以更有效地利用句法特征信息,提高 GEC 模型的性能.实验结果表明所提模型的准确率 P(precision)、召回率 R(recall)和F0.5都有很大的提高.ROOTROOTIappreciatethisaboutUngrammaticalGrammaticalallIappreciatethisall图 1因冗余的字引发的句法结构变化实例1相关工作研究者将语法纠错任务视为机器翻译的特例7,序列到序列的网络结构常被用于语法纠错任务中.其中,Transformer
14、 语法纠错模型成为基线模型8.由于 BERT9、BART10等预训练语言模型的语言性能优异,最近被广泛应用在语法纠错模型的编码端,获取丰富的语义信息,提高了语法纠错性能.语法纠错任务目前存在的挑战依然是缺少大量的数据集.为此,多种数据增强的方法涌现出来11,一方面使用人工预设的语法错误规则对正确的句子进行噪声扰动,从而合成平行句子对;另一方面则是反向翻译的方式,自动生成平行句子对.为了缩短人造数据与标注数据的分布差异,对抗学习(adversariallearning)也常被使用到数据增强模块中12.与此同时,部分研究者将语法纠错任务看作序列到编辑(sequence-to-edit,Seq2Ed
15、it),不再直接预测正确的句子序列,而是预测句子的编辑操作,从而对输入句子的语法错误进行修改13.除此之外,结合句子间的上下文信息14、模型集成和重排序技术也能提高语法纠错模型的性能15.在语法纠错研究中,研究者们也探索了将句法信息融入到语法纠错模型.Li 等人16采用了现有的句法解析模型对输入句子进行解析,获取依存关系图和成计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第10期294研究开发ResearchandDevelopment分句法树的信息,然后通过图注意力机制将依存关系图和成分句法树的信息分别编码到语法纠错模型中.但 Li 等人只利用了单一的句法结构,既没
16、有考虑两者融合的句法结构信息,也没有考虑现有的句法解析模型处理存在语法错误的句子可能会生成错误的依存关系图或成分句法树信息的问题.早期的论文工作证明,依存关系图和成分句法树具有互补性,两者融合能提高下游任务的性能17.本文将依存关系图和成分句法树的融合成互补的依存-成分句法信息,输入到语法纠错模型中,最终生成语法正确的句子.2本文模型为了将句法知识融入语法纠错模型中,本文提出一种新颖的差分融合句法特征的英语语法纠错模型,实现英语文本的语法纠错.在 Transformer 结构外添加了句法融合器(syn-fusion)、句法编码器(syn-encoder)和差分融合模块(diff-fusion)
17、,框架如图 2 所示.其中N、N1、N2、N3分别是句法融合器卷积层的层数、句法编码器、语义编码器和解码器的个数.Embedding layerMulti-headSyn-attentionAdd&NormFeedforwardAdd&NormFeed forwardAdd&NormMasked multi-headattentionMulti-headattentionFeed ForwardLinearSoftmaxSource sentenceTarget sentenceEmbedding layerMulti-headattentionAdd&NormSem-encoderN2Dec
18、oderN3Cross attentionAdd&NormAdd&NormDifferentialregularizationSyn-encoderN1ConvolutionlayersNDistancelayerHeightlayerFusionLayerConstlayerDeplayerDiff-fusionSyn-fusionOutput图 2模型整体框架图首先输入句子经过词嵌入层(embeddinglayer),得到句子向量,作为语义编码器、句法编码器以及句法融合器的输入.其次,语义编码器将句子向量编码为高维隐含语义特征,句法编码器将句法融合器生成的依存-成分句法向量与句子向量编码为
19、高维隐含句法特征,然后通过协同注意力将语义特征和句法特征进行特征融合,最后将其输入到解码器,从而生成正确句子.特别的,在句法编码器和语义编码器之间设计了一个差分正则器(differentialregularization),用于减少句法和语义的重叠信息,鼓励语义编码器生成句法编码器未能捕捉到的语义特征.2.1 Transformer 模型Transformer 模型是一个可获取句子深层语义信息的端到端的序列生成模型,由编码器和解码器两个部分组成,即图 2 中的语义编码器(sem-encoder)和解码器(decoder).语义编码器由 N2个相同的神经模块组成,每一模块由两个子层组成,分别是多
20、头注意力层(multi-headattention)和前馈层(feedforward).其中,多头注意力层是由多个注意力层拼接组成的,每个注意力层计算采用的是放缩点乘(scaleddot-product),如式(1)和式(2)所示.Att(Q,K,V)=Softmax(QKTdk)V(1)MultiHead=Att1;Att2;Atth(2)QKV其中,、和 分别表示注意力层的查询矩阵(query)、2023年第32卷第10期http:/www.c-s-计 算 机 系 统 应 用ResearchandDevelopment研究开发295Att dkMultiHead键值矩阵(key)以及实值矩
21、阵(value),它们是由输入向量经过 3 个不同的线性层得到,用以计算输入向量的注意力.表示输入向量的特征维度大小,为多个注意力的拼接.FFN(x)前馈层()是由两个线性层串行连接而成,其计算如式(3)所示.FFN(x)=ReLU(xW1+b1)W2+b2(3)W1b1W2b2ReLU其中,、和均为可学习参数,为激活函数.解码器也是由 N3个相同的模块构成,它的功能是结合编码器生成的高维向量预测目标句子.解码器在编码器的基础上多了一个掩码多头注意力层(maskedmulti-headattention),目的是保证模型不能看到未预测词的信息.为了防止过拟合和加快模型收敛速度,语义编码器和解码
22、器的每个子层后面都有一个残差结构和归一化层(Add&Norm).实际上,纠错任务的源语句和目标语句的绝大部分单词是相同的.因此本文引入了复制机制,直接从源句子中复制正确的单词,可以很好地解决未登录词(out-of-vocabularywords)的问题.2.2 句法融合器在介绍句法融合器时,先介绍句法距离18和句法高度19的定义以及两者的联系.句法距离是用来记录将句子分割成更小成分的过程.分割点的顺序记录了句子的层次结构,通过预测句法距离序列就可以得到成分句法树.D(w1,w2,wn1)DwiiD=(1,2,n)n(1,2,n)句法高度是用来描述依存关系图中非根节点到根节点的距离.设为句子的依
23、存关系图,中的的高度为.依存关系图的句法高度可以是由任意 个实值元素 组成的序列,但要求与保持同样大小关系顺序.由于不知道单词应该是属于父节点的左边还是右边,所以无法通过句法高度重构原始的依存关系图.针对此问题,将无标签成分句法树的父节点(分割点)与最大句法高度的 token 一一对应,借助句法距离将无标签的成分句法树转换为依存关系图.句法融合模块目的是从输入的句子向量中直接生成融合的依存-成分句法信息.首先,将词嵌入层输出的句子向量输入到 N 层卷积网络中,如式(4)所示.Sl,i=tanh(conv(Sl1,iw,Sl1,i+w)(4)Sl,iliS0,iwi2w+1 tanh其中,代表第
24、 层的第 个位置输出,是单词的词向量,卷积核大小为,为激活函数.SN,iwiwi+1iiwii其次,将 N 层卷积网络的输出向量输入到距离层(distancelayer)和高度层(heightlayer)分别得到单词和第 个分割点的距离 和单词的高度,如式(5)和式(6)所示.i=ReLU(W1sN,i,sN,i+1T)W2(5)i=ReLU(W1sN,i+b1)W2+b2(6)W1W2W1W2b1b2ReLU其中,、和均为可训练参数,为激活函数.T=(1,2,n1)xjxipconsti,j(j|i)再次,将句法距离输入到成分句法层(constlayer),通过式(7)计算单词和单词 的成分
25、句法分布概率.pconsti,j(j|i)=Sigmoid(tanh(ji)+1)(7)xjxipdepi,j(j|i)然后,遵循 Shen 等人20提出的计算方法,依存关系层(deplayer)通过式(8)式(10)计算单词是单词父节点的概率.pC(l,r|i)=p(l1 i)lk i)p(ri)(8)pPr(j|l,r)=Softmax(l,r)(9)pdepi,j(j|i)=l,rpPr(j|l,r)pC(l,r|i)(10)pC(l,r|i)xil,rppPr(j|l,r)xjl,r其中,表示包含单词 最小成分跨度的概率,表示累计分布概率函数,本文使用了 Sigmoid 函数;表示单词
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 融合 句法 特征 英语语法 纠错 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。