英汉翻译模板的标准化方案及其应用中国科学院计算技术研究.doc
《英汉翻译模板的标准化方案及其应用中国科学院计算技术研究.doc》由会员分享,可在线阅读,更多相关《英汉翻译模板的标准化方案及其应用中国科学院计算技术研究.doc(15页珍藏版)》请在咨信网上搜索。
1、英汉翻译模板的标准化方案及其应用中国科学院计算技术研究152020年5月29日文档仅供参考英汉翻译模板的标准化方案及其应用北京市自然科学基金资助项目(No. 405 )、北京市教委科技发展项目(No. Km 10005013)第1作者信息:李玉鑑,男,1968年生,博士,副教授,主要研究方向为自然语言处理、模式识别、生物信息学李玉鑑北京工业大学,计算学机学院,多媒体与智能软件技术北京市重点实验室,北京100022E-mail: 摘要:在机器翻译系统中,模板能够作为一种知识表示的方法,其规模的大小和组织的策略将极大地影响系统的整体性能。本文对英汉翻译模板的标准化问题进行了探讨,提出了一个初步方案
2、,并将其应用于英汉翻译系统的设计与实现中,取得了初步的成功,验证了该方案的可行性,从而为在大规模模板库的基础上开发高质量的英汉翻译系统提供了可能性。在 举行的863评测中,本文开发的英汉翻译系统达到的水平:对话翻译人工评测忠实度和流利度分别为73.62和68.16篇章翻译人工评测忠实度和流利度分别为41.16和31.45。关键词:机器翻译;翻译模板;标准化中图分类号:T391.2A Standardization Strategy of English-Chinese Translation Templates and Its ApplicationsLi YujianCollege of C
3、omputer Science and Technology, Beijing University of Technology, Beijing 100022, ChinaBeijing Municipal Key Laboratory for Multimedia and Intelligent Software TechnologyE-mail: Abstract: In machine translation systems, templates can be used as a knowledge representation method, their scale and orga
4、nization will greatly influence the whole systems performance. This paper studies the standardization problem of English-Chinese translation templates and presents an initial strategy for it. By applying it to design and implement a somewhat successful English-Chinese translation system, we show tha
5、t the strategy is useful and practicable, and it provides possibilities to develop high-quality English-Chinese translation systems based on a large scale of template library. In the ”863” evaluation of , the English-Chinese translation system of this paper reaches scores of 73.62 Adeq and 68.16 Fle
6、u for ”dialog test” as well as 41.16 Adeq and 31.45 Fleu for ”article test”.Keywords: machine translation, translation template, standardization1. 引言现有的机器翻译方法主要分为基于规则1-4、基于统计5-11和基于例子12-14这三种。可是由于自然语言的极端复杂性,当前还没有一种分析策略能够彻底解决机器翻译系统所涉及的各种难题。为了综合利用这三种方法的优点,同时克服各自所存在的问题,一种常见办法是把多种翻译策略有机地集成在一起,以实现各种策略之间的
7、优势互补,改进系统的性能15-17。在机器翻译的研究中,除了综合集成多种策略外,另一种重要方法是加大处理粒度18,其基本思想是利用单义的语块(Chunk)代替多义的单词,并给以中心词的标注,目的是为了简化处理的句型,化解机器翻译的歧义问题。基于语块的方法是近年来在自然语言领域兴起的一条新思路19,当前关于单语语块的研究已经取得大量成果21-24。一个能够代替Chunk进行机器翻译的概念是模板(Template)。简单的说,模板能够看作是一个带有变量的Chunk,而Chunk则能够看作一种不带变量的模板。用模板代替Chunk,能够使很多Chunk合并成一个模板,因此模板在语料库中出现的频率要比作
8、为其特例的Chunk大。因此,为了刻划一个语料库中的语言现象,所需要的模板数量将远远少于所需要的Chunk数量,虽然一个模板具有的歧义可能要比一个Chunk的歧义多,可是常常能够消解模板中单个词的多种歧义。本文讨论了模板的定义,对英汉翻译模板的标准化问题进行了探讨,同时提出了一个初步方案,并经过结合句法分析技术和模板匹配替换通用算法将其应用于英汉翻译系统的设计与实现中,取得了初步的成功,验证了该方案的可行性,从而为在大规模英汉翻译模板库的基础上开发高质量的英汉翻译系统提供了可能性。2. 模板的定义和说明在各种自然语言中都存在许多被重复使用的模板结构,抽象地说,模板能够看作具有一定稳定性的语言认
9、知结构。每个模板结构一般由若干常项和变项所组成,比如,英文词组”give sth. to sb.”就是一种模板结构,单词”give”和”to”是常项,”sth.”和”sb.”是变项。当一个模板中的所有变项被其所能取到的常项值替代时所得到的单词序列称为该模板的一个实例。例如,”give the book to me”就是”give sth. to sb.”的一个实例。为了概念的统一起见,本文也把某些不带变项的特殊词组或句子称为模板。从形式语言学的角度看,模板中的常项就是终结符,模板中的变项就是非终结符。一个源语言模板(ST, Source Template)常常在另一种语言中存在着对应的目标语言
10、模板(TT, Target Template),源语言模板和目标语言模板构成的有序对”STTT”一般称为翻译模板。在传统的翻译模板概念中,一般要求一个源语言模板只能有一个目标语言模板,而且源语言模板的非终结符和目标语言模板的非终结符必须一一对应,个数相等,一般也不考虑模板的类别标注问题。这里则把翻译模板定义为源语言模板及其在目标语言中所有可能目标模板的集合。因此,如果考虑模板的类别标注且在每个类别标注下只允许一个目标翻译,那么从形式化的角度看,一个翻译模板能够参照下面的标准结构进行统一描述:Source Template POS tag1. Target Template 1; POS tag
11、2. Target Template 2; POS tagm. Target Template m;其中,”POS tag”表示类别标注的代码。如果使用形式语言的术语,那么每一个源语言模板能够看作下面的结构: (str1)显然,每一个相对应的目标语言模板亦能够写成: (str2)其中在符号串(str1) 和(str2)中,有下面的约束:(1)是从小到大排列的任意r+1个整数,是源语言中的个终结符(可能是空字符),是源语言中的r个非终结符,它们能够相同,也能够不同;(2)是从小到大排列的任意m+1个整数,是目标语言中的个终结符(可能是空字符),是目标语言中的m个非终结符,它们能够相同,也能够不同
12、;(3)必须是中所出现的非终结符或者与中所出现的某个非终结符有某种确定性转换关系, m和r可能不相等。根据上述模板的定义,一个具有两个类别标注的英汉模板例子描述如下: comment about NP vi.评论 NP;n.对 NP 的评论;其中,”NP”表示名词短语,”vi”表示不及物动词类型,”n”表示名词类型。如果不做特殊说明,下文所使用的词类标记与英语语法习惯相同。3. 英汉翻译模板的标准化方案及其应用由于前面关于翻译模板的定义不但允许一个源语言模板能够有多个不同的对应目标语言模板,而且允许每个对应目标语言模板中的非终结符和源语言模板中的非终结符之间存在一对多和多对一的关系,因而比传统
13、的模板定义能够更加合理地反映实际的自然语言现象。另外,由于人类在一生中所能学习和建立的语言认知结构是相当有限的,因此能够想象与语言认知结构相联系的模板数目也是相当有限,虽然这个数目可能达到几万,几十万,甚至几百几千万,可是对建立大规模翻译模板库来说应该是一个有限合理的数字,并不是一个遥不可及的天文数字。有了足够的模板,就能够把给定的句子分析为源语言模板的组合,然后再利用通用模板匹配替换算法进行从源语言到目标语言的翻译25。然而要针对某两种语言建立起一个实际的大规模翻译模板库并非易事,制定细致可行的模板标准化方案是必不可少的步骤。下面将讨论一个建立英汉翻译模板的初步标准化方案。首先,将英汉翻译模
14、板根据其源语言部分分为静态模板和动态模板。静态模板是一些完全由终结符构成的词组,它们总是作为一个整体被使用,严格的说在任何上下文中都只有能具有这种固定的组合与搭配,不会因为上下文的变化而被分开成为不同的意义单元。比如:artificial intelligence n.人工智能;machine translation n.机器翻译;动态模板则是指静态模板以外的任何模板, 也就是说它除了包括所有带有非终结符的模板之外,还包括那些用法随着上下文的不同有时可能被分开或者被重新组合的终结符词组。一个完全由终结符构成的动态模板例子如下:a little pron.一点;该模板之因此是动态模板,因为”a
15、little”还能够组合成其它模板,比如:a little ADJ adj.有点 ADJ;a little while n.一会儿;图1. 模板型英汉翻译系统框图词法分析静态模板分析动态模板分析句法分析模板匹配替换分析词典库静态模板库动态模板库输入英语句子输出翻译结果Earley算法显然,要从一个给定的英语句子中分析静态模板非常容易,因为静态模板在任何上下文中都能够被看作一个固定搭配的词组,因此采用简单的单词比较和匹配技术就能确定。可是,要确定英语句子使用了某个动态模板则不能简单地采用单词匹配和词性匹配的方法,一般需要使用句法分析技术才能在一般情况下得到较好的结果。当前较好的句法分析算法一般都
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 英汉翻译 模板 标准化 方案 及其 应用 中国科学院 计算 技术研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。