一个汉英机器翻译系统的设计与实现.doc
《一个汉英机器翻译系统的设计与实现.doc》由会员分享,可在线阅读,更多相关《一个汉英机器翻译系统的设计与实现.doc(6页珍藏版)》请在咨信网上搜索。
1、一个汉英机器翻译系统的计算模型与语言模型* 本项目的研究受到863-306资助,合同号为863-306-03-06-2 刘 群+ 詹卫东+ 常宝宝+ 刘颖+(+中国科学院计算技术研究所二室 北京100080)(+北京大学计算语言学研究所 北京100871)摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。关键词:自然语言处理 机器翻译 中文信息处理一、引言我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段.相对而言,汉
2、英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离1。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统.本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。下面我们简要介绍一下本系统的几个主要设计原则: 采用成熟的技术我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 开放的体系结构开放的体系结构主要体现在系统的实现上所采用的软件构件技术8。整个系统采用一些相对独立的软件构件组
3、成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 方便的调试环境本系统强调为语言工作者提供一个方便的调试环境.系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户可以轻松确定翻译出错的位置.机器翻译系统可依据不同的标准进行分类,这些标准也刻划出本系统的一些基本特点:(1) 规则方法与语料库方法规则方法发展到今天,相对来说已比较成熟,但由于专家描
4、述的规则知识通常颗粒度较大,不利于处理大量的细节,因而在处理大规模的开放语料时,遇到了难以克服的困难;而从预料库中获取的知识颗粒度较小,在自然语言处理的某些方面取得了成功,但纯粹基于语料库的的机器翻译系统,还没有比较成功的例子.本系统目前采用的是基于规则的技术,我们计划将其扩展成为一个规则方法与语料库方法相结合的系统。(2) 转换方法与中间语言方法从理论上说,在实现多种语言互译的机器翻译系统时,中间语言方法可以节省很多的工作量。但从已实现的系统来看,使用转换方法较易取得成功。本系统也采用转换方法.(3) 确定性算法与不确定性算法确定性算法的优点是算法较为简单,翻译速度快,缺点是不能提供回溯的能
5、力,翻译过程任何一步的错误将导致整个翻译的失败.不确定算法刚好相反。本系统采用不确定性算法,翻译过程的每一步骤都是不确定的,都可以回溯.二、计算模型我们从系统结构、知识表示、翻译算法三方面来介绍我们所采用的计算模型。管理调试界面使用界面知 识 库 子 系 统词典最终用户图1 汉英机器翻译系统总体结构翻 译 子 系 统语 言 模 型各类规则库实例库语言工作者语言工作者1、系统结构系统总体结构如图1所示。2、知识表示机器翻译的过程可以看成是一个运用知识进行推理的过程。知识表示是这一过程的基础。我们把机器翻译中用到的知识表示形式分为内部知识和外部知识两类。其中外部知识是存放于知识库之中,由语言工作者
6、进行管理的知识,如词典和各类规则库等,内部知识是翻译过程中临时生成的,用于描述所翻译的句子的语法语义特征的知识,如树形图、特征结构和语义网络等。本系统的外部知识表示由知识库子系统进行处理。知识库包括一个语言模型、一部词典、多个规则库和一个实例库。本系统设计的严格的语言模型起统帅作用,其中规定了本系统所使用的源语言和目标语言的词法模型、句法模型和语义模型,即词法、句法和语义的分类和各种属性描述。所有知识库中所用到的各种语言知识描述用的符号格式都必须符合语言模型中的规定.整个系统使用一部双语词典。多个规则库对应于翻译的各个步骤,每个步骤使用相应的规则库.每个规则库的具体格式各不相同,但基本上都采用
7、“树结构+约束”的形式。在知识库的格式定义上,我们特别强调不仅要能描述全局性知识,也要能描述一些局部性的知识。因此我们特别强调词典的描述能力。例如,词典中的局部规则与全局规则具有完全相同的格式,在使用上局部规则优先于全局规则,这样特别有利处理一些与具体词相关的特殊用法。实例库用于存放系统翻译过的句子及其相关信息。本系统的内部知识表示形式包括线图(Chart)、树结构和特征网络三种形式。线图源于Chart Parsing算法,是一种比较通用的语言内部结构表示方法,可以同时表示翻译过程中产生的大量词结点和短语结点,也可以适应多种不同的分析算法。树结构是短语结构分析中最常用的一种表示方法,用于描述句
8、法成分(包括词结点和短语结点)之间的组合关系。每个树结点对应于线图中的一个词结点或短语结点.我们所使用的树结构表示法中要求标出每个句法成分的中心子结点,用于处理属性值在句法成分之间的传播.特征网络是本系统所使用的一种特有的知识表示方法。这种表示法融合了特征结构表示法4和语义网络表示法的一些特点并加以改进,以适合汉英机器翻译的需要。具体来说,特征网络表达具有以下特点:1、一个特征网络由许多个互相关联的特征结点所组成;2、一个特征结点是若干个特征的集合,一个特征是一个“属性-值”对;3、属性分为简单、原子属性和关联属性两种,原子属性的值是一个原子,关联属性的值是另一个特征结点;4、原子分为层次型、
9、符号型、数值型、布尔型等多种类型,原子之间可以通过与、或、非等逻辑操作构成复杂原子,每一种类型的原子有不同的合一算法;5、特征结点之间通过关联属性互相连接,这种连接可以构成回路,我们改进了合一算法,使得这种回路不至于在合一运算时造成死循环;6、一个特征结点对应着句法分析中已经出现或可能出现的一个句法成分,而每一个句法成分(即句法树中的结点)一定有唯一的一个特征结点与之对应;7、在一定的条件下,属性的值可以在特征结点之间进行传递;8、特征结点之间实行真正的合一运算,而不是伪合一运算。特征网络表示法作为一种最基本的知识表示方法在本系统中发挥着重要的作用,它基本上满足了我们在汉英机器翻译中描述各种复
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一个 汉英 机器翻译 系统 设计 实现
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。