计算机辅助翻译的译中效率提升方法研究.pdf
《计算机辅助翻译的译中效率提升方法研究.pdf》由会员分享,可在线阅读,更多相关《计算机辅助翻译的译中效率提升方法研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、第3 6 卷第5 期2023年9 月浙江万里学院学报Journal of Zhejiang Wanli UniversityVo1.36 No.5September 2023计算机辅助翻译的译中效率提升方法研究张秀容,张继光(江苏师范大学,江苏徐州2 2 1 0 0 0)摘要:信息时代的飞速发展,国际交流与日俱增。这种趋势对语言翻译工作的效率、质量提出了更高要求。因此,传统的翻译模式无法满足越来越高的翻译需求。计算机辅助翻译作为当前时代技术发展的产物,对于翻译效率和质量的提升具有重要意义。虽然计算机辅助翻译已取得了突破性进展,但仍存在语料数据库不足、翻译质量有待提升等缺点。文章提出一种计算机辅
2、助翻译的译中效率提升方法,基于4 种在线翻译软件,借助神经网络模型TextCNN自动推荐较优译文再进行译后编辑。这种方法在减少人工翻译工作量、提高工作效率方面具有一定优势。关键词:计算机辅助翻译;TextCNN;机器翻译;翻译效率;神经网络模型中图分类号:H315.9文献标识码:A文章编号:1 6 7 1-2 2 5 0(2 0 2 3)0 5-0 0 8 5-0 8国内对于计算机辅助翻译(CAT)的研究起步较晚。徐彬、王华树等认为计算机辅助翻译具有广义和狭义之分,其重点是狭义的翻译技术;狭义的计算机辅助翻译技术主要包括翻译记忆系统、术语管理系统和对齐工具翻译项目管理2;王华树则认为,除了上述
3、三大功能以外,翻译技术还包括翻译编辑、质量控制、语料回收、机器翻译等3 。陈文安指出计算机辅助翻译的最终发展目标为全自动高质量机器翻译,也就是MT4。随着人工智能技术不断发展、跨语言交流需求增长,计算机辅助翻译技术如何借助大数据、互联网等资源提升翻译效率和质量的趋势愈来愈明显。刘迪莎指出,在计算机辅助翻译过程中仍然存在一些问题,严重影响计算机辅助翻译的质量与效率,例如计算机辅助翻译在语境识别和词汇选择上,难以结合具体的语境,筛选出合适的词汇;在文学文本中,计算机辅助翻译只能将文本的表面意思翻译出来,很难准确传达作者的真情实感 5 。因此,如何运用强大的计算机技术优化计算机辅助翻译的流程与结果变
4、得尤为重要。当前,计算机技术不断进步,大数据、人工智能等先进技术已广泛运用到生产、生活的多个领域。如何将深度学习技术运用到计算机辅助翻译领域的研究,也成为未来发展方向。因此,文章提出一种计算机辅助翻译的译中效率提升方法,在计算机辅助翻译译中阶段,利用神经网络模型TextCNN(以下简称“模型TextCNN”)自动选择最优译文,减少人工翻译的工作量,一定程度上提升翻译质量和效率。1方法1.1整体流程利用CAT进行翻译主要包含译前、译中和译后三个阶段。译前阶段主要是将不同格式的文件进行转换、语料数据库的构建导入以及文件解析后的文本对齐等;译后编辑是对译文的质量检测,调整不恰当的译文;而译中阶段主要
5、是在记忆库、术语库“双库”辅助下进行预翻译,确定匹配率及实际翻译工作量,并确保译文风格统一、表述正确。因此译中阶段的工作直接决定译文质量。收稿日期:2 0 2 2-1 0-1 3基金项目:江苏省研究生实践创新计划立项课题(SJCX22_1221)。作者简介:张秀容(1 9 9 0-),女,安徽合肥人,江苏师范大学外国语学院硕士研究生,研究方向:英语笔译。通信作者:张继光(1 9 8 0-),男,湖北襄阳人,江苏师范大学外国语学院副教授,研究方向:翻译研究。852023 年 9 月在CAT译中阶段,待译文本首先使用CAT内置的语料数据库进行检索和查询,,如果检索到待译文本或相似文本,则返回对应的
6、译文。对于未能检索到的待译文本,一般情况下需要译者自已组织或使用翻译软件查询。文章方法则是自动对未检索到的待译文本在互联网翻译软件中翻译,并通过模型TextCNN自动推荐最优译文。具体流程如图1 所示。1.2多源知识库笔者使用谷歌翻译(https:/)、百度翻译(htps:/)有道翻译(htps:/)和腾讯翻译(https:/)4种在线翻译软件作为多源知识库。谷歌翻译1 7 拥有百万的单字数量级别的双语文本语料库以及属于这两种语言的单语语料库,各自拥有十亿以上的单字。在国内,百度翻译依托互联网数据资源和自然语言处理技术优势,是国内市场份额第一的翻译类产品。百度翻译覆盖了2 1 0 0 万词条,
7、并包含海量双语例句、词语用例、同义词辨析等等,包含提供文档翻译、网页翻译、图片翻译等功能。与百度翻译不同的是,有道翻译最大特点是其基于搜索引擎后台数据和网页萃取技术,从数十亿海量网页中提炼出传统词典无法收录的各类新兴词汇和英文缩写,如影视作品名称、品牌名称、名人姓名、地名、专业术语等。腾讯翻译融合了腾讯人工智能实验室自研的交互式机器翻译、神经网络机器翻译、统计机器翻译、语义理解、信息检索等技术,提供译文片段智能推荐和整句补全功能,性能显著优于传统静态和增量式训练的机器翻译。1.3模型TextCNNTextCNN是自然语言领域较为优秀的文本分类模型,它可以自动学习在线翻译软件译文句子的词语特征、
8、语义特征并判断哪句译文的整体表达更好。将待译文本输人4 种在线翻译软件后,译文不尽相同。人工选择最佳译文,耗时耗力。而采用模型TextCNN自动推荐并选择最优译文,将结果展示给译者以供译后编辑,这种方法省时省力。TextCNN模型结构简单,性能优良,在自然语言领域运用十分广泛。其结构如图2 所示。图中,TextCNN首先将多个译文句子转换为计算机能够识别的编码矩阵(表示句子中单词的个数),然后通过卷积运算提取每个句子中单词之间的关联特征(相当于一个扫描窗口,通过滑动来学习单词之间的关联特征),接着通过最大池化层将学习到的句子特征进行总结,最后根据总结的结果判断哪个译文句子的整体表达更好。2模型
9、训练与评测2.1数据集为了得到模型TextCNN,笔者首先选取涉及经济、人文和政府工作报告方面权威的双语翻译数据共42858条,并通过在线翻译接口分别调用谷歌、百度、腾讯、有道等4 种在线翻译软件,获取对应的译文。浙江万里学院学报译前阶段文件格式转换语料数据库建立语料数据库导入文本对齐Whateverisworthdoingisworthdoingwell句子的nxk编码表示译中阶段文本句子语料数据库检索检索成功人工检查图1 CAT的译中效率提升方法流程包含多个特征的卷积层最大池化层图2 TextCNN模型结构译后阶段质量检测检索失败译文排版.多源知识库修改反馈谷歌翻译腾讯翻译百度翻译有道翻译
10、TextCNN最优结果翻译结果全连接层86张秀容,张继光:计算机辅助翻译的译中效率提升方法研究然后选用机器翻译领域常用的评估策略Bleu8计算翻译软件的译文和权威译文的相近程度。以Bleu最高分译文对应的翻译软件作为标签构建训练TextCNN模型的数据集,部分语料处理结果见表1。在机器翻译任务中,Bleu十分常见,它是用于评估模型生成的句子和实际句子之间差异程度,取值范围在0.0 到1.0之间,如果两个句子完美匹配,那么Bleu为1,如果两个句子完全不匹配,则Bleu为0。源句In a desperate attempt to pull 绝望中,为了摆脱themselves out of th
11、eir down-这一恶性循环,崔ward spiral,Choiswifefound英秀的妻子在韩a job at a restaurant in another国另一个地方找part of the country,and the 到了一份餐厅的couple asked his parents to 工作,夫妇二人还look after their twoyoung拜托男方父母帮children.忙照顾两个小孩。一份工作,这对夫妇让他的父母照顾他们的两个年幼的孩子。谷歌:我们都知道高脂肪饮食的危害。从高血压到糖尿病,心脏病We all know the dangers of a甚至某些形式的
12、癌症,一系列疾病都可以直接归各于饮食不良和dietthatshigh infat.From我们都知道高脂旨超重或肥胖。但日本东京医科齿科大学(TMDU)研究人员的一hypertension to diabetes,heart 肪饮食的危害。高高项新研究发现,高脂肪饮食也会加速脱发。disease to even some forms of 血压、糖尿病、心百度:我们都知道高脂肪饮食的危险。从高血压到糖尿病,心脏cancer,the range of ailments 脏病,甚至一些癌病,甚至是某些形式的癌症,这些疾病的范围可以直接归因于饮that can be laid squarely at
13、 症都可以直接归食不良、超重或肥胖。但日本东洋医学和牙科大学(TMDU)研究the feet of eating poorly and 答于饮食不健康人员的一项新研究发现,高脂肪饮食也会加速脱发。being overweight or obese.But或肥胖。但日本东有道:我们都知道高脂肪饮食的危害。从高血压到糖尿病,从心脏a new study from researchers 京医科齿科大学病到某些类型的癌症,这些疾病都可以直接归咎于饮食不良和超at theToykoMedical and(T MD U)研究人重或肥胖。但日本东京医科和牙科大学(TMDU)的研究人员的一Dental Un
14、iversity(T MD U)i n 员的一项新研究项新研究发现,高脂肪饮食也会加速脱发。Japan have now found having发现,高脂肪饮食腾讯:我们都知道高脂肪饮食的危害。从高血压到糖尿病,心脏a fat-heavy diet can also 也会加速脱发。病,甚至某些形式的癌症,这些疾病都可以直接归咎于饮食不良、accelerate hair loss.超重或肥胖。但日本东京医科大学(TMDU)研究人员的一项新研究发现,高脂肪饮食也会加速脱发。谷歌:妈妈被雷电吓得魂飞魄散。Mother is all of a flutterbe-由于电闪雷鸣,妈百度:母亲因雷鸣电闪
15、而心烦意乱。cause of thunder and lightning。妈感到十分不安。有道:妈妈因为电闪雷鸣而感到非常不安。腾讯:母亲被雷电吓得浑身发抖。对数据集进行统计分析,研究发现,Bleu得分最高的译文中,谷歌翻译译文占9 4 2 9 条,百度翻译译文占8 3 8 4 条,有道翻译译文占1 53 58 条,腾讯翻译译文占9 6 8 7条。说明数据集标签整体分布比较均匀,利于模型的训练。2.2模型训练和性能评测2.2.1训练参数在模型训练过程中,笔者使用了TextCNN训练参数(表2),其中学习率表示模型每次参数更新的幅度大小,它控制着模型的学习进度,如果学习率太大则会导致模型不能收敛
16、,太小的话会导致第5期表1 部分语料处理结果权威译文4种软件翻译结果谷歌:为了摆脱困境,崔的妻子在该国另一个地方的一家餐馆找到了一份工作,这对夫妇要求他的父母照顾他们的两个年幼的孩0.2 9子。百度:崔的妻子在另一个地方的一家餐馆找到了一份工作,这对夫妇要求他的父母照顾他们的两个年幼的孩子。有道:为了摆脱困境,崔某的妻子在韩国另一个地方的一家餐馆找到了一份工作,这对夫妇请崔某的父母照顾两个年幼的孩子。腾讯:为了摆脱困境,崔的妻子在另一个地方的一家餐馆找到了表2 TextCNN训练参数参数值学习率 learning rate0.001卷积核大小(2,3,4)卷积核数量256词向量大小100训练轮
17、数epochs10087Bleu0.280.260.370.510.370.470.500.250.270.630.232023 年 9 月模型陷人局部极值点,不能找到真正的最优解。卷积核大小表示模型通过卷积学习句子的元特征。词向量大小即将句子编码后的维度大小。卷积核数量代表模型对每个句子学习多少次的序列特征。2.2.2优化策略为了提高TextCNN模型的性能,在模型训练过程中,加人了三种优化策略。1.预训练词向量模型(Word2vec)在模型的输人层,需要将文本转换为编码,称为词的表示方法。目前词的表示方法最常用的为词向量,它因能够展示词与词之间的语义关系而被广泛应用。目前,许多研究机构发布
18、了高质量的词向量模型,这些词向量模型都是基于超大规模高质量数据集进行训练得到的,能够很好的表示词与词之间的关系。笔者使用腾讯公司发布的词向量模型以提高TextCNN模型的性能。在腾讯发布的词向量模型中查询语义相近的词结果如表3 所示。InputTop similar words2.K折交叉验证交叉验证主要用于防止模型过于复杂导致出现过拟合的现象,是一种评价数据集泛化能力的统计方法。其基本思想是将数据集通过无重复抽样技术进行划分(划分成K份),这样就能避免模型追求高准确率而过拟合。在本文中,使用1 0 折交叉验证,训练得到1 0 个不同数据集对应的TextCNN模型。3.多模型融合在实际任务中,
19、模型的泛化能力也是评价模型好坏的另外一个重要指标。在使用单个神经网络模型处理某个问题时很容易遇到性能瓶颈,即模型可能在处理具有某类特征的序列时性能较好,而在其他特征的序列特征处理上不尽如人意。因此,可以通过一些科学的方法对多个优秀的模型进行融合,以此来突破单个模型的性能瓶颈,并综合各个模型的优点得到某个问题的最优解决方法,这就是多模型融合。笔者使用结果多数投票的方法,将1 0 折交叉验证得到的1 0 个TextCNN模型进行融合,提高模型的推荐性能。2.2.3实验结果为了评估模型性能,使用自然语言常用的三个评测指标精确率P、召回率R和F值进行评测。其中,P表示在预测结果中预测为正的样本中有多少
20、是真正的样本;R表示样本中正例有多少被预测正确。在实际应用中,P和F越高则说明模型效果越好,但是有时准确率和召回率会出现矛盾的情况,因此通常使用F值进行综合考虑,F值的计算公式为F=2*P*R/(P+R)。模型的最终实验结果如表4 所示。从表4 可以看出,使用三种优化策略,一定程度上提升了TextCNN模型的性能。最优的模型结构为1 0个预训练词向量+TextCNN模型十多种模型的融合,最优结果P为72.33%,R为7 2.6 8%,F值为7 2.50%。3方法实际效果验证为了验证文章方法在实际使用过程中的有效性,笔者搜集了不同领域的英文实例,内容涉及散文、小说、新闻等方面,从翻译效率和译文优
21、化两方面对传统译中编辑和本文方法进行对比。浙江万里学院学报表3 在词向量模型中查询语义相近的词新冠病毒新冠肺炎病毒新型冠状病毒新冠状病毒Covid-19 病毒新冠Word2vec+TextCNN10折+Word2vec+TextCNN10折+Word2vec+TextCNN+多模型融合88:流金岁月半生缘大江大河2迟到的许多年风再起时情深缘起表4 TextCNN模型实验结果模型结构P(%)TextCNN68.2171.0771.5572.33自然语言处理自然语言理解计算机视觉自然语言处理技术NLP机器学习R(%)66.5568.2370.1172.68F(%)67.3769.6270.8272
22、.50张秀容,张继光:计算机辅助翻译的译中效率提升方法研究3.1番翻译效率对比从翻译效率来看,传统的方法需要将CAT未检索到的句子人工输入或复制到一个或多个在线翻译软件中,并对译文进行融合。译者将原句输入或粘贴到翻译软件,需要耗费一定的时间,如果想要对多个翻译软件的译文进行对比,则耗费的时间将成倍增加,在固定的翻译时间内,这间接压缩了译者对译文的检查、优化和质量提升时间。而本文方法只需要输入或粘贴一次,就能一次性返回多种在线翻译软件的译文,并自动推荐质量较好的译文给译者,从而节省了译者对比和选择所耗费的时间,间接提升了译者对译文的优化效率。为此,笔者额外搜集了少量不属于原数据集之外的英文语料,
23、内容涉及政治、经济、散文、小说等方面。分别采用CAT翻译和本文方法进行翻译,并对最终的翻译耗时进行对比,结果如表5所示。3.2译文优化对比在译文优化方面,多个在线翻译软件的译文结果能够为译者优化译文提供参考。1.以用词较为常用、句式比较规范的合同条款为例(见表6)。表6 合同条款翻译及译文推荐We confirm that,at the date hereof,we are not aware of any requirement contained in the documentation referred to in原文paragraph 1 above with which it is
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机辅助 翻译 效率 提升 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。