![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于词序扰动的神经机器翻译模型鲁棒性研究.pdf
《基于词序扰动的神经机器翻译模型鲁棒性研究.pdf》由会员分享,可在线阅读,更多相关《基于词序扰动的神经机器翻译模型鲁棒性研究.pdf(12页珍藏版)》请在咨信网上搜索。
1、2023 年 10 月 Chinese Journal of Network and Information Security October 2023 第 9 卷第 5 期 网络与信息安全学报 Vol.9 No.5 基于词序扰动的神经机器翻译模型鲁棒性研究 赵彧然,薛傥,刘功申(上海交通大学网络空间安全学院,上海 200240)摘 要:预训练语言模型是自然语言处理领域一类十分重要的模型,预训练微调成为许多下游任务的标准范式。先前的研究表明,将BERT等预训练语言模型融合至神经机器翻译模型能改善其性能。但目前仍不清楚这部分性能提升的来源是更强的语义建模能力还是句法建模能力。此外,预训练语言模型
2、的知识是否以及如何影响神经机器翻译模型的鲁棒性仍不得而知。为此,使用探针方法对两类神经翻译模型编码器的句法建模能力进行测试,发现融合预训模型的翻译模型能够更好地建模句子的词序。在此基础上,提出了基于词序扰动的攻击方法,检验神经机器翻译模型的鲁棒性。多个语言对上的测试结果表明,即使受到词序扰动攻击,融合BERT的神经机器翻译模型的表现基本上优于传统的神经机器翻译模型,证明预训练模型能够提升翻译模型的鲁棒性。但在英语德语翻译任务中,融合预训练模型的翻译模型生成的译文质量反而更差,表明英语 BERT 将损害翻译模型的鲁棒性。进一步分析显示,融合英语 BERT 的翻译模型难以应对句子受到词序扰动攻击前
3、后的语义差距,导致模型出现更多错误的复制行为以及低频词翻译错误。因此,预训练并不总能为下游任务带来提高,研究者应该根据任务特性考虑是否使用预训练模型。关键词:神经机器翻译;预训练模型;鲁棒性;词序 中图分类号:TP393 文献标志码:A DOI:10.11959/j.issn.2096109x.2023078 Research on the robustness of neural machine translation systems in word order perturbation ZHAO Yuran,XUE Tang,LIU Gongshen School of Cyber Sci
4、ence and Engineering,Shanghai Jiao Tong University,Shanghai 200240,China Abstract:Pre-trained language model is one of the most important models in the natural language processing field,as pre-train-finetune has become the paradigm in various NLP downstream tasks.Previous studies have proved integra
5、ting pre-trained language models(e.g.,BERT)into neural machine translation(NMT)models can improve translation performance.However,it is still unclear whether these improvements stem from enhanced semantic or 收稿日期:20220927;修回日期:20230302 通信作者:刘功申, 基金项目:国家自然科学基金(U21B2020);上海市科技计划项目(22511104400)Foundati
6、on Items:The National Natural Science Foundation of China(U21B2020),Shanghai Science and Technology Plan(22511104400)引用格式:赵彧然,薛傥,刘功申.基于词序扰动的神经机器翻译模型鲁棒性研究J.网络与信息安全学报,2023,9(5):138-149.Citation Format:ZHAO Y R,XUE T,LIU G S.Research on the robustness of neural machine translation systems in wordorder
7、perturbationJ.Chinese Journal of Network and Information Security,2023,9(5):138-149.第 5 期 赵彧然等:基于词序扰动的神经机器翻译模型鲁棒性研究 139 syntactic modeling capabilities,as well as how pre-trained knowledge impacts the robustness of the models.To address these questions,a systematic study was conducted to examine the
8、 syntactic ability of BERT-enhanced NMT models using probing tasks.The study revealed that the enhanced models showed proficiency in modeling word order,highlighting their syntactic modeling capabilities.In addition,an attacking method was proposed to evaluate the robustness of NMT models in handlin
9、g word order.BERT-enhanced NMT models yielded better translation performance in most of the tasks,indicating that BERT can improve the robustness of NMT models.It was observed that BERT-enhanced NMT model generated poorer translations than vanilla NMT model after attacking in the English-German tran
10、slation task,which meant that English BERT worsened model robustness in such a scenario.Further analyses revealed that English BERT failed to bridge the semantic gap between the original and perturbed sources,leading to more copying errors and errors in translating low-frequency words.These findings
11、 suggest that the benefits of pre-training may not always be consistent in downstream tasks,and careful consideration should be given to its usage.Keywords:neural machine translation,pre-training model,robustness,word order 0 引言 将预训练语言模型(PLM,pre-trained lan-guage model),如 BERT1等,融入神经机器翻译模型中是自然语言处理领域
12、十分热门的研究方向2-5。融合之后,机器翻译模型能够利用 PLM学习到丰富语义和句法知识6-15,进而提升翻译模型的鲁棒性和翻译效果16。但之前的研究更关注改进模型的效果,忽略了对这些提升的来源进行解释,并且缺乏预训练语言模型如何影响翻译模型鲁棒性的考量。本文首先检验了 BERT 能否改进机器翻译模型的句法能力。使用一些探针对传统的神经机器翻译模型 Transformer17(记作 NMT 模型)的编码器和融合了 BERT 的 Transformer 模型(记作BERT-NMT 模型)的编码器进行测试10,18,检验它们分别编码了哪些句法相关的信息。实验结果表明,融合BERT 后,机器翻译模型
13、编码器在词序建模以及重建依存句法树相关任务上的表现更好。为了验证这些提升确实是由 BERT 带来的,实验过程中使用掩码操作分别遮掩了自注意力模块和BERT-编码器(BERT-Enc,BERT-encoder)注意力模块。结果证明,BERT 的确能够帮助提高翻译模型对词序进行建模的能力,特别是显著提高模型在双词调换(BShift,bi-gram shift)任务上的表现。直觉上来讲,这种特性能够帮助机器翻译模型更好地处理源语言句子中的词序扰动攻击。为了检验这一猜想,本文提出了一种以概率 p 交换两个相邻词以改变词序的攻击方法,并使用双语替换评测19(BLEU,bilingual evaluati
14、on un-derstudy)和 BERTScore20对攻击后模型的翻译结果进行评价。在机器翻译工坊(WMT,workshop on machine translation)提供的多个语言翻译任务上进行实验表明,虽然词序扰动的概率不同,BERT-NMT 模型生成的译文质量几乎优于 NMT模型生成的译文,但在英德翻译任务中,随着扰动概率的增加,使用英文 BERT 反而会给模型生成的译文质量带来消极影响,说明英文 BERT 将破坏翻译模型的鲁棒性。为了找到使用英文 BERT 训练得到的BERT-NMT 模型翻译质量下降的原因,比较攻击前后源语言端和目标语言端句子的语义变化。使用 WMT14 英德
15、数据集分别训练得到英德翻译模型和德英翻译模型并进行对比。对比发现,英语句子在受到攻击之后语义变化更为明显,这可能是德语具有比英语更为灵活的词序。而源语言端和目标语言端的语义差别则说明:英语 BERT 难以缩小词序扰动攻击前后源语言端的语义变化。为了细致了解翻译质量下降的具体表现,对比 NMT 模型和 BERT-NMT模型分别受到攻击之后输出的译文。随着攻击时扰动概率的增加,BERT-NMT 模型倾向于错误地从源语言端直接复制单词作为译文。此外,对比两个模型在翻译低频词时的正确率。统计结果表明,当扰动概率增加时,BERT-NMT 模型翻译低频词的效果甚至不如普通的 NMT 模140 网络与信息安
16、全学报 第 9 卷 型。可见预训练并不总能为下游任务带来性能上的提升,在使用过程中应该更为小心。1 研究现状 1.1 NMT 模型中的 PLM 神经机器翻译与预训练的交叉领域主要包含以下两条研究线路:将 PLM 融合至神经机器翻译模型;预训练跨语言的语言模型。1.1.1 将 PLM 融合至神经机器翻译模型 在 BERT1被提出之后,出现了许多将 BERT融入机器翻译模型的简单尝试,包括使用 PLM 的输出替代机器翻译模型的嵌入层21,以及使用PLM 的参数对 NMT 模型的编码器进行初始化22。Zhu 等2设计了 BERT-Enc 和 BERT-解码器(BERT-Dec,BERT-decode
17、r)注意力模块,并且混合了不同模块输出的表示。类似地,APT 框架使用基于层的注意力机制对 BERT 的各层输出进行动态混合13。Guo 等23使用两个 BERT 分别作为编码器和解码器,在 BERT 不同层之间添加适配器,以同时利用编码器端和解码器端 BERT 包含的信息。Guo 等24进一步提出冻结 BERT 参数并添加适配器的方法来加速机器翻译模型的训练过程。Shavarani 等15提出更加充分地利用 BERT包含的语言学信息,而非简单地将其作为词嵌入的替代品。Xu 等25使用 145 GB 德语文本训练了一个特制的双语语言模型 BiBERT,来提高模型的翻译效果。1.1.2 跨语言的
18、语言模型预训练 由于 BERT 在训练过程中仅使用单语语料,并不适合执行机器翻译任务,Conneau 等26设计了一个新的翻译语言模型(TLM,translation language model)任务,并使用双语平行语料训练得到 XLM 模型。此外,以 BERT 为代表的单语语言模型往往仅包含编码器,与翻译模型常采用的编码器解码器架构并不匹配,为此,Song 等27提出预训练一个序列到序列架构的模型 MASS。此后,Liu 等28设计了更为复杂的预训练任务,并使用 25 种语言训练得到mBART,使得在翻译任务上进行微调成为可能。Lin 等29使用随机对齐替换任务训练了一个普适性更强的多语言
19、翻译模型 mRASP。Pan等30在 mRASP 的基础上引入对比学习和基于对齐的数据增强以提高模型效果。Li 等31的研究表明,对序列到序列模型进行预训练的过程中使用双向解码器能显著提高模型的翻译效果。1.2 NMT 模型的鲁棒性 尽管相比先前的统计机器翻译模型,神经机器翻译模型生成的译文质量有了显著提高,但其仍存在一些不足之处。Belinkov 等32发现基于字符的神经机器翻译模型的翻译效果很容易受到文本中噪声的影响。Cheng 等33指出同义词替换同样能够降低神经机器翻译模型的翻译效果。为了检验神经机器翻译模型的鲁棒性,之前的研究还尝试在输入中加入笔误,对输入中的字符或单词执行交换、重复
20、以及删除操作,并对模型的相应输出进行评价3435。为了提高 NMT 模型的鲁棒性,主流的方法为基于对抗学习32,即使用人工添加噪声的数据训练 NMT 模型。Sato 等36提出向输入添加使得损失增大最多的噪声以增强模型的鲁棒性。Cheng 等37设计了一个基于梯度的方法来生成对抗样本。此外,Sennrich 等38以及 Michel 和Neubig39说明使用子词表示句子能够帮助机器翻译模型更好地处理扰动。Cheng 等33提出了一个新的训练目标,最大化原始输入和扰动过的样本之间的相似性。UniDrop40在特征、结构和数据3 个维度使用丢弃法来提高机器翻译模型的效果。此外,Cheng 等41
21、将有监督训练和自监督训练相结合来提高神经机器翻译模型应对代码转换类型干扰的鲁棒性。本文使用融合 BERT 的神经机器翻译模型来探究 BERT 为神经机器翻译模型带来了哪些影响。之前的研究表明,BERT 能够提高文本分类模型的鲁棒性16。但 BERT 是否会影响神经机器翻译模型的鲁棒性还不得而知,这是本文要探究的问题。2 BERT 改善句法能力 本节通过实验来分析 BERT 如何影响神经机器翻译模型的建模能力,具体来说,使用 5 种不同的探针任务来检测 NMT 模型的编码器和BERT-NMT 模型的编码器中分别编码了哪些句第 5 期 赵彧然等:基于词序扰动的神经机器翻译模型鲁棒性研究 141 法
22、相关的信息。2.1 实验设置 2.1.1 探针任务 本文实验共使用以下 5 种探针任务。Distance任务中探针需要依据任意两个单词的向量表示预测它们在依存句法树中之间的距离。Depth 任务则需要探针根据每个单词的向量表示预测其在依存句法树中的深度,即单词和根节点之间的距离。BShift 任务则需要探针根据句子的向量表示判断句中是否存在两个相邻单词的位置被调换了。TreeDepth 任务要求探针预测句子的短语结构树的最大深度。TopConst 任务要求探针对句子的短语结构树最顶层类型进行分类。表 1 提供了每种句法探针任务的示例。表 1 句法探针任务的示例 Table 1 Examples
23、 for each syntactic probing task 任务 示例 标签 Distance why not just bring up the idea of staying in your current lab with your advisor?word:idea,current 3 Depth Budget negotiations between the mayor and the city council are enter-ing high gear.word:mayo 3 BShift She wondered how time much had passed.Inv
24、erted TreeDepth Who knew who would be there?10 TopConst I wanted to start asking questions now,but forced myself to wait.NP_VP_ 单词iw和jw之间的距离T(,)ijdw w定义为两者在依存句法树之间边的数目。对于句子s 12,nw ww,使用探针根据每对单词(,)ijw w对应的表示(,)ijh h来预测它们之间的距离。T(,)()()ijijijdh hhhhh(1)探针B的训练目标为 2,11min(,)(,)nTijijsi jdw wdh hn(2)单词iw的
25、深度T()idw定义为其在依存句法树 中 与 根 节 点 之 间 的 边 数。对 于 句 子12,nsw ww,根据每个单词iw对应的表示ih,使用探针来预测它的深度。T()()()iiidhhh(3)探针的训练目标为 T11minniisidwdhn (4)至于BShift、TreeDepth和TopConst这3个任务,使用包含一层隐藏层的多层感知机(MLP,multi-layer perceptron)分类器作为探针,并使用Sigmoid作为激活函数。给定句子is对应的向量表示ih,预测方法为 softmax MLP()iiyh(5)训练目标为 MLPTminlog()iiiyy(6)其
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 词序 扰动 神经 机器翻译 模型 鲁棒性 研究
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。