机器翻译研究现状与展望概要.doc
《机器翻译研究现状与展望概要.doc》由会员分享,可在线阅读,更多相关《机器翻译研究现状与展望概要.doc(6页珍藏版)》请在咨信网上搜索。
1、机器翻译是建立在语言学、数学、信息学、计算机科学等学科基 础上的多边缘学科。 现代理论语言学的发展、 计算机科学的进步以及 概率统计学的引入 , 对机器翻译的理论和方法都产生了深刻的影响。 Weaver 机器翻译思想的提出 , 开始了机器翻译的研究热潮。 Chomsky 在 50年代后期提出的短语结构语法 , 给出了“从规则生成 句子” 的原则。由于短语结构语法采用单一标记的短语结构来描述 句子的构成 , 描述粒度过粗 , 因此存在约束能力弱、 生成能力过强问 题 , 人们逐渐意识到仅依靠单一的短语结构信息 , 不能充分判别短 语类型和确认短语边界 , 于是 , 复杂特征集和词汇主义被引入自然
2、 语言语法系统 , 广义短语结构语法、 词汇功能语法、 中心语驱动的短 语结构语法等语言学理论也相应地产生。 在这个发展过程中 , 基于规 则方法一直是机器翻译研究的主流。在基于规则的方法中 , 语言规则的产生需要大量的人力 , 而且大 量的语言规则之间往往存在着不可避免的冲突。另外 , 规则方法在保 证规则的完备性和适应性方面也存在着不足。 而此时 , 统计学方法在 自然语言处理的语音识别领域取得了比较好的效果 , 于是 , 基于统 计的机器翻译应运而生。 随着双语语料的大量增加、 计算机性能的提 高 , 基于实例的机器翻译方法被提出, 并由此泛化产生了基于模板的 机器翻译方法。下面我们分别
3、介绍几种典型的机器翻译方法:(1基于规则的机器翻译方法从 Chomsky 提出转换生成文法后, 基于规则的方法一直是机器翻 译研究的主流, Chomsky 认为一种语言无限的句子可以由有限的规则 推导出来。早期的机器翻译系统 , 从体系结构上可以分为直译式、 转换式和 中间语言式 , 它们的不同之处在于对源语言分析的深度 , 它们的相 同点是都需要大规模的双语词典、 大量的源语言推导规则、 语言转换 规则和目标语言生成规则。 其中 , 转换式的基于规则方法对源语言分 析得比较深 , 它涉及到词汇结构分析、 语法分析、 语义分析 , 并完成 词汇、 语法、 语义三层结构从源语言到目标语言的转换
4、, 而且转换式 的方法又充分考虑了源语言和目标语言之间的特征联系 , 它比中间 语言方法更容易获得高质量的翻译结果。 因此 , 转换式的方法更多地 被应用在早期的机器翻译系统中 , 整个翻译过程被分为 , 源语言分 析部分 , 转换部分和目标语生成部分。 而早期的系统 , 如德国西门子 的 METAL 系统、美国的 SYSTRAN 系统、日本日立公司的 ATHENE 系统 以及中国中软公司的 HY-1汉英系统 , 都是基于转换的机器翻译系 统。基于规则的机器翻译的优点在于 , 规则可以很准确地描述出一 种语言的语法构成 , 并且可以很直观地表示出来。 机器可以按照一组 规则来理解它面对的自然语
5、言 , 这组规则包含了不同语言层次的规 则 , 包括用以对源语言进行描述的源语言分析规则、用以对源语言 /目标语言之间的转换规则以及用于生成目标语的生成规则。由此可见 , 基于规则的机器翻译的核心问题是构造完备的或适 应性较强的规则系统。 但是 , 规则库的建立需要花费大量的人力和物 力 , 即使如此 , 规则的完备性仍然不能得到保证 , 规则库很难覆盖 所有的语言现象。随着规则数量的增加 , 规则之间的冲突很难避免; 很难用系统化的规则分类体系、 恰当的规则粒度去刻画语言特征。 而 且早期的规则系统采用的都是确定性规则 , 即 , 非此即彼的规则 , 系统的适应性很差。基于上述问题 , 如何
6、自动地获取语言规则、 如何更好地表示规则 以及如何更好地增强系统的适应能力成为研究人员关注的焦点。 随着 大量语料库的产生 , 统计方法为我们提供了很好的从己有的语言资 源中自动得到我们所需要的语言信息的工具。 复杂特征集和合一运算 的提出也使得我们能以更细的粒度、 更加准确的知识表示形式来描述 规则 , 而词汇化的信息也更多地来自于标注语料库。 针对确定性规则 降低了系统的鲁棒性的弱点 , 概率上下文无关文法川从全局最优的 角度考虑 , 产生最优的翻译结果 , 为机器翻译系统的实用化奠定了 基础。 随着这些方法的引入 , 传统的基于规则的机器翻译方法研究逐 步发展成为对以规则为基础、 语料库
7、方法为辅助的高性能机器翻译方 法的研究。(2基于统计的机器翻译方法除了在某些特定的受限领域 , 基于规则的机器翻译 , 取得了比 较好的效果之外 , 在大部分的实验中 , 基于规则的机器翻译远远没 有达到人们的要求。 而随着语料库语言学的发展和统计学、 信息论在自然语言处理领域的应用 , 人们尝试着用统计的方法进行机器翻译 的研究。 对于机器翻译来说 , 基于统计的方法可以从两个层面上来理 解 , 一种是指某些概率统计的方法在具体的机器翻译过程中的应用 , 比如用概率统计的方法解决词性标注的问题、 词义消歧的问题等; 另 一种较狭义的理解是指纯粹的基于统计的机器翻译 , 翻译所需的所有 知识都
8、来源于语料库本身。(3基于实例的机器翻译方法基于实例的机器翻译思想最早是由 Nagao 提出,其基本思想是 , 在已有的源语言实例句库中 , 待翻译句子按照类比原理匹配出最相 似的实例句 , 取出实例句对应的目标语句子 , 进行适当的改造 , 最 终得出待翻译句子所相应的目标语句子。 整个翻译过程实际上是一个 匹配过程。 它的特点是不需要对源语言进行任何的分析 , 仅仅是通过 类比进行翻译。从翻译过程来看 , 句子一级对齐的双语语料库是基于实例的机 器翻译系统的知识源 , 在基于实例的机器翻译系统中 , 双语对齐语料 库被称为翻译记忆库(Translation Memory 。对于基于实例的系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器翻译 研究 现状 展望 概要
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。