结合向量化方法与掩码机制的术语干预翻译模型.pdf
《结合向量化方法与掩码机制的术语干预翻译模型.pdf》由会员分享,可在线阅读,更多相关《结合向量化方法与掩码机制的术语干预翻译模型.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 11期2023年 11月Computer Engineering 计算机工程结合向量化方法与掩码机制的术语干预翻译模型张金鹏,段湘煜(苏州大学 计算机科学与技术学院,江苏 苏州 215000)摘要:术语干预神经机器翻译模型通常借助人为给定的术语翻译来改变译文,从而改善翻译质量。向量化干预方法为术语干预任务提供了新的范式,但仅考虑将术语与句子信息以向量的形式融合,没有关注术语信息对术语翻译效果的影响。为此,构建一种结合向量化方法与掩码机制的术语干预机器翻译模型,将人为给定的源端术语与目标端术语编码为特征向量,显式地融入机器翻译模型的编码器、解码器以及输出层。在训练阶段,借助掩码机
2、制屏蔽注意力机制中源端术语对应的关键字,增强模型编码器与解码器对术语特征向量的关注。在推理阶段,利用 掩 码 机 制 优 化 术 语 干 预 输 出 层 的 概 率 分 布,进 一 步 提 高 术 语 字 符 的 翻 译 准 确 率。在 WMT2014 德 英 和WMT2021英中数据集上的实验结果表明,相较于基于原始向量化方法的 Code-Switching机器翻译模型,所提模型的术语翻译准确率分别提升了 9.27和 2.95个百分点,并且能大幅度提升长术语的翻译准确率。关键词:机器翻译;术语干预;向量化;注意力机制;掩码机制开放科学(资源服务)标志码(OSID):中文引用格式:张金鹏,段湘
3、煜.结合向量化方法与掩码机制的术语干预翻译模型 J.计算机工程,2023,49(11):70-76,84.英文引用格式:ZHANG J P,DUAN X Y.Terminology intervention translation model combining vectorization method and mask mechanism J.Computer Engineering,2023,49(11):70-76,84.Terminology Intervention Translation Model Combining Vectorization Method and Mask M
4、echanismZHANG Jinpeng,DUAN Xiangyu(School of Computer Science and Technology,Soochow University,Suzhou 215000,Jiangsu,China)【Abstract】The terminology intervention Neural Machine Translation(NMT)model optimizes translations with the help of human-provided translations;this improves the translation qu
5、ality.Recently,vectorization methods have emerged to provide a new paradigm for terminology intervention tasks;however,these methods consider only fusing terminology information with sentence information and neglect the low contribution of terminology vectors to terminology translation.To address th
6、ese issues,a terminology intervention machine translation model combining the vectorization method and mask mechanism is built.This model encodes human-provided source terminology and target terminology into feature vectors and integrates them into the encoder,decoder,and output layers of the machin
7、e translation model.To enhance its attention to term feature vectors,the model uses a mask mechanism to mask the keys corresponding to the source-side terminologies in the attention mechanism during the training phase.In the inference phase,the probability distribution of the output layer is optimiz
8、ed to improve terminology generation.The experimental results on the WMT 2014 German-English and WMT2021 English-Chinese datasets show that,compared with the Code-Switching machine translation model based on the original vectorization method,the proposed model has improved the terminology translatio
9、n accuracy by 9.27 and 2.95 percentage points,respectively,and can significantly improve the translation accuracy of long-terms.【Key words】machine translation;terminology intervention;vectorization;attention mechanism;mask mechanismDOI:10.19678/j.issn.1000-3428.0066031基金项目:国家自然科学基金(61673289)。作者简介:张金
10、鹏(1996),男,硕士研究生,主研方向为自然语言处理;段湘煜,教授。收稿日期:2022-10-19 修回日期:2023-01-12 Email:人工智能与模式识别文章编号:1000-3428(2023)11-0070-07 文献标志码:A 中图分类号:TP391.2第 49卷 第 11期张金鹏,段湘煜:结合向量化方法与掩码机制的术语干预翻译模型0概述 神经机器翻译(Neural Machine Translation,NMT)是自然语言处理领域的一项重要且具有挑战性的任务1。随着信息技术的不断发展,电商、医药、新能源等领域涌现出大量行业术语2-4,错误的术语翻译可能会严重影响用户体验,这便要
11、求机器翻译系统具备更高的准确性与可控性。在统计翻译年代,基于短语的机器翻译系统5可以对系统输出进行良好的控制,实现对指定单词的强制翻译6,然而这种强制干预不适用于神经机器翻译。2022 年,WANG 等7借助向量化方法将词典知识显式地融入模型控制术语翻译。虽然向量化方法为术语干预提供了新的范式,但其只考虑了如何将术语信息与句子信息融合,并没有强调模型对术语信息的关注。在向量化方法中,目标术语的翻译主要依据两部分信息:一是源端句子信息,包含源端术语及其上下文;二是人为给定的术语约束,包含正确的术语翻译。本文建立一种结合向量化方法与掩码机制的术语干预机器翻译模型,在训练阶段借助掩码机制对源端术语加
12、以屏蔽,以增强编码器与解码器对约束信息的关注,同时在推理阶段借助掩码机制优化术语干预输出层的概率分布,最终达到提升术语翻译准确率的目的。1相关工作 目前,主流的术语干预方法可以分为两类:一类是对传统的束搜索加以改进,引入强制解码策略;另一类是使用数据增强方法调整模型输入。1.1基于强制解码的术语干预方法网格束搜索(GBS)8是典型的基于强制解码的术语干预方法,相较于传统束搜索,网格束搜索为术语额外增加一个维度,用于标记已经生成的术语单词数量,从而将束搜索拓展为网格的形式。假设术语单词数为 C,GBS 将维护 C+1 组用于存储满足不同术语单词数的候选译文,最后从第 C+1 组(术语全部生成)的
13、候选译文中选取得分最高的句子作为解码输出。由于网格束搜索增加了额外的维度,解码复杂度随术语单词数量线性增长。为了克 服 上 述 问 题,POST 等9提 出 使 用 动 态 束 分 配(DBA)的策略改进 GBS。不同于 GBS,DBA 控制解码过程中波束的总量不变,并采用动态分配的策略将波束分配给 C+1 组,保证解码复杂度与术语单词数无关。HU 等10进一步提出借助向量数组优化的动态束分配策略(VDBA),使 DBA 能够以批处理方式运行,优化了解码效率。虽然此类方法通过对束搜索加以改进,确保指定术语出现在译文中,但其愈发繁琐的解码过程使其明显慢于传统束搜索解码。1.2基于数据增强的术语干
14、预方法目前,工业界采用的术语干预方法主要基于数据增强技术,原因在于采用数据增强技术无需修改模型结构,只需使用标准的束搜索即可达到一定程度的术语干预效果,且解码速度快。SONG 等11提出使用字符替换的方法(Code-Switching)进行术语干预,具体做法是借助先验的术语词典,将源句中的源端术语替换为目标端术语,用于翻译模型训练。在推理阶段,人们需要提前将源句中的术语替换为指定的翻译再进行解码。DINU 等12提出保留源端术语并在其右侧拼接目标术语的方式进行数 据 增 强。在 WMT2021 英 中 术 语 翻 译 任 务 中,WANG 等13对此类方法做进一步拓展,将源端术语使用特殊标记替
15、换,并在该标记的右侧指明源端术语及其翻译(TermMind)。目前,数据增强方法最主要的缺点在于术语干预的成功率有限,说明只改变训练数据而不调整模型结构难以到达理想的干预效果。2融合向量化方法与掩码机制的术语干预机器翻译模型 采用 Transformer14作为机器翻译模型的基础结构(Vanilla),模型由编码器、解码器以及输出层构成,Transformer 借助编码器与解码器将具体的单词或者子词转化为向量化表示,并借助输出层将解码器的输出向量转化为词表概率。2.1基于向量化方法的术语干预机制基于向量化方法的术语干预机器翻译模型如图 1 所示。对比传统的 Transformer 模型,基于向
16、量化方法的术语干预模型存在以下改动:1)借助词嵌入层以及多头注意力机制将源端术语以及目标端术语向量化(图 1 虚线区域);2)将这些携带术语信息的特征向量融入翻译模型的编码器与解码器(分别对应图 1中编码器融合术语信息以及解码器融合术语信息);3)引入额外的输出概率分布提高术语生成的准确率(对应图 1中术语干预输出层)。712023年 11月 15日Computer Engineering 计算机工程2.1.1术语向量化向量化干预方法首先将源端术语与目标端术语分别转化为额外的键Kterm与值Vterm,以便将术语信息融入编码器的自注意力机制以及解码器的编码器-解码器注意力机制。使用(S,T)表
17、示一组术语对在经过词向量层与位置编码层后得到的向量表示。在通常情况下,源端术语与目标端术语的长度不一致,在形态上不对齐15。在这种情况下,将S与T分别作为键与值是不可行的,需要额外增加一层多头注意力使得T与S形态一致,如式(1)所示:Kterm=SVterm=attn(STT)(1)其中:Kterm与Vterm分别表示一组术语的键与值,且Kterm与Vterm Rd|s|,d与|s|分别表示模型的词嵌入维度以及该组术语中源端术语所包含的单词数量,Vterm可以被看作是向量T在源端长度上的重新分配。事实上,由于一组平行句对中包含不止一组术语,因此Kterm与Vterm由N组术语键值拼接得到,如式
18、(2)所示:Kterm=Kterm1;Kterm2;KtermNVterm=Vterm1;Vterm2;VtermN(2)2.1.2编码器融合术语信息的过程在 Transformer 中,编码器由词嵌入层以及 6 层编码层构成,编码层的自注意力机制由多头注意力网络构成,用于学习文本的上下文表示。每层的自注意力机制如式(3)所示:Hout=attn(HencHencHenc)(3)其中:Hout表示自注意力机制的输出,Hout Rd|x|;Henc表示编码层的输入,Henc Rd|x|,|x|表示编码层输入的序列长度。由于编码器的每一层都包含不同级别的语义信息16,因此应确保术语信息融入编码器的
19、每一层。在编码端,向量化方法借助自注意力机制融合Kterm与Vterm。在每一层执行自注意力过程前,使用两层适应网络将包含术语信息的键值与原始输入Henc拼接,确保编码器在自注意力过程中可以显式地融合术语信息,如式(4)所示,以此达到术语干预的目的。Kunion=adapt()Kterm;HencVunion=adapt()Vterm;Henc(4)其中:adapt表示包含两层线性变换以及 ReLU 激活函数的适应网络,该适应网络对所有编码层是通用的;Kunion与Vunion分别表示引入术语干预的键与值,Kunion和Vunion Rd()|x|+|s|,|s|表示所有源端术语的长度之和。在
20、编码层中,融合术语信息的自注意力机制如式(5)所示:Hout=attn(HencKunionVunion)(5)2.1.3解码器融合术语信息的过程将术语信息融入解码器的方式与编码器类似,区别为选取编码器-解码器注意力机制融合术语信息。在 Transformer 中,解码器由词嵌入层以及 6 层解码层组成,解码层由自注意力组件、编码器-解码器注意力组件以及前向网络构成。每一层的编码图 1基于向量化方法的术语干预机器翻译模型Fig.1Terminology intervention machine translation model based on vectorization method72第
21、 49卷 第 11期张金鹏,段湘煜:结合向量化方法与掩码机制的术语干预翻译模型器-解码器注意力机制如式(6)所示:Hout=attn(HdecHencHenc)(6)其中:Henc表示编码端提供的输入;Hdec表示解码端自注意力组件提供的输入,Hdec Rd|y|,|y|表示解码器输入的长度。对于每一层的编码器-解码器注意力机制,融合术语信息的键值如式(7)所示:Kunion=adapt()Kterm;HencVunion=adapt()Vterm;Henc(7)其中:Kunion和Vunion Rd()|y|+|s|,与编码器融合术语信息类似,解码器借助adapt将术语特征向量与该注意力机制
22、的原始输入Henc进行拼接,得到新的键Kunion与值Vunion。在融合术语信息后,编码器-解码器注意力机制如式(8)所示:Hout=attn(HdecKunionVunion)(8)2.1.4术语干预输出层如图 1 所示,向量化方法借助术语干预输出层进一步提升术语翻译准确率。在 Transformer中,输出层用来将解码器最后一层的输出转化为子词级别的概率。使用hk Rd 1表示解码器在k时刻的输出,使用s与t表示人为给定的术语对,则 Transformer模型的输出如式(9)所示:Pmodel(y|y kxst;)=Softmax(hkW)(9)其 中:W Rd|表 示 输 出 嵌 入
23、矩 阵,|表 示 词 表大小。为了进一步借助术语信息干预文本生成,受控制文本生成17的启发,在输出层引入额外的概率分布对输出分布进行调整,如式(10)所示:Pplug(y|y kxst;)=0y tmax()0cos()wy|wyhk|hky t(10)其中:wy表示子词y的词向量;t表示所有目标术语子词集合。在得到Pplug后,使用门控单元控制Pplug的干预力度,门控单元如式(11)所示:g(yhk)=Sigmoid(tanh(wTyW1;hTkW2)W3)(11)其中:W1和W2 Rd d;W3 R2d 1。模型借助 3 个可训练的线性变换生成干预权重g,最终的输出概率如式(12)所示:
24、P(y|y kxst;)=(1-g(yhk)Pmodel(y|y kxst;)+g(yhk)Pplug(y|y kxst;)(12)2.2掩码机制掩码机制被广泛应用于各项任务中,用于屏蔽无关信息或者对原数据加噪,例如自回归生成模型在解码器中借助掩码操作屏蔽后续文本,在各项任务中对填充符进行处理,以及在掩码语言模型中直接使用掩码符号对一定比例的原文本进行替换。此外,ReLU 激活函数以及丢弃机制(Dropout)都被认为是一种掩码操作。本文在训练阶段借助掩码机制屏蔽源端术语,增强模型编码器与解码器对约束信息的关注;在解码阶段引入掩码机制,改善输出层的概率分布,进一步提升术语翻译准确率。2.2.1
25、结合掩码机制的编码器向量化干预方法将术语信息直接拼接到编码器自注意力机制的键值中,当自注意力机制进行查询操作时,可以显式地看到两部分信息,分别是人为给定的术语信息以及源端句子信息,源端句子又可以分为源端术语和源端术语上下文两部分。如图 2 所示,Qx3可以查询到术语信息Kterm1与Kterm2,以及源端句子信息Kx。由于人为给定的术语信息Kterm1与Kterm2包含对源端术语的正确翻译,因此需要增强模型对这部分信息的关注。假设源端句子x中,x2与x3表示源端术语部分,在训练阶段,使用掩码将Qx3对原句中术语部分Kx2与Kx3的注意力权重置为 0,使得模型在只有Kterm1与Kterm2以及
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结合 量化 方法 掩码 机制 术语 干预 翻译 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。