机器翻译时汉语生成障碍.docx
《机器翻译时汉语生成障碍.docx》由会员分享,可在线阅读,更多相关《机器翻译时汉语生成障碍.docx(26页珍藏版)》请在咨信网上搜索。
1、机器翻译时汉语生成障碍1.引言当电子计算机1946年问世的时候,人们就提出了机器翻译的想法,并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用相比,机器翻译却是进展最慢的。学者们倾其大半生精力、商家投入为数可观的资金,经历五十多年不懈的研究和开发,得到的成果或者产品却常常不能令人满意。原因是什么呢?从语言研究的角度来说,机器翻译系统分析、理解和生成自然语言的能力都还不到位,处理不了的语言现象很多:有的是句子结构层次弄错了,有的是结构关系弄错了,有的是成分之间的语义关系弄错了,有的是词义辨识错了,还有的错误是源语和目标语之间的对比差异造成的。下面是机器翻译处理汉语动
2、结式不成功的几个例子。先看生成的情况,机器翻译目前还很难生成汉语的动结式,所以我们很少在汉语译文里见到含有动结式的句子。对于下面这个英译汉的例子,三个系统都不能翻译成“他把地扫干净了”:Hesweptthefloorclean.*他干净地扫地了。*他清扫清洁的地板。*他清扫地板干净。再看汉语动结式翻译成英语的例子,它们可以说明目前机器翻译系统分析和理解汉语动结式的能力:他踢坏了三双鞋。*Heplaysthreepairsofevilshoes.*Hekickedthreepairsofshoesbad.*Himkickspoil3pairsofshoes.这段路把妈妈走累了。*Thewayma
3、kemothertiredafterthewalk.*Thissectionofwaywaswalkedmothertired.*Thisroadmotherwalktired.大家吃腻了剩菜。*Everybodyhasfeddedupwiththeleftovers.*Thateverybodyategreasysurplusvegebr.*Alleat,isloathetoleavevegebr.下面我们只讨论动结式的生成问题,其中不包括以下三种情况:1)补语用“得”字连接的;2)补语虚化的,如:“抓住”、“买着”、“看完”、“办成”等;3)补语和动结式的宾语有固定搭配关系的,如:“说走了
4、板”、“看愣了神”、“苦出了头”等等。2.机器翻译中的动结式问题为了说明机器翻译如何处理动结式述语结构,我们需要先看看机器翻译的过程。下图说明了机器翻译的原理,也是机器翻译的整个过程。附图图1机器翻译的过程显然,这是一个理想化的机器翻译过程。从S到I再到T的过程是中介语言的翻译策略,中介语言通常是某种独立于源语和目标语的逻辑表达式。如果是英译汉,对英语的分析和理解要从表层深入到底层,得到描述句子意义的中介语言逻辑表达式。同样地,汉语也要从底层到表层一步一步生成。分析时从表层到底层走得越深,生成时从底层回到表层的过程也就越复杂。因此,需要分别对这两种语言的句法和语义系统作深入的研究。实际上目前大
5、部分机器翻译系统都作不到这个程度,常见的翻译策略是直接法或转换法,或直接和转换相结合的混合方法。我们可以通过一个英译汉的例子对直接法、转换法和中介语言法这三种翻译策略作一个比较:Yougetgoodreceptiononyourradio.译句1你得到好的接收在你的收音机上。译句2你用你的收音机得到好的接收。译句3你的收音机接收情况良好。在机器翻译系统中,用直接法可以得到译句1;用基于句法的转换法,再加上一些语义关系的分析,能得到译句2;译句3是基于理解的,用中介语言法有可能作到。显然,前一节关于动结式英译汉和汉译英的例子,都不是基于理解的翻译。动结式的结构形式简洁,语义关系复杂,在汉语里是很
6、有特点的一种结构。吕叔湘先生曾用它说明汉语句法的灵活性。人们在从各种角度论述动结式述补结构的时候,常常会提到它在对外汉语教学当中是个难点。同样,在机器翻译中它也是个难题。在汉语翻译成外语的系统里,难的是如何分析和理解动结式述补结构。在外语翻译成汉语的系统里,难的是如何生成含有动结式的句子。我们在这里只讨论生成的情况。在这种情况下,源语往往没有相当于汉语动结式的结构形式,也很难用转换规则把英语的某些结构形式与汉语动结式联系起来。所以除非用个别处理的办法,采用直接法和转换法翻译策略的系统很难生成汉语的动结式译文。要让系统有生成动结式的能力,就要按中介语言法的思路,增加分析的深度,理解源语句子要表达
7、的意思,然后根据意义表达的需要,选择动结式的一种结构形式,再生成表层的句子。目前我们对汉语的研究还不足以支持这样的生成过程。所以在现有的机器翻译系统输出的汉语译文当中,很难找到地道的含有动结式述补结构的句子。于是就有了下面的译文:Hehasmadethequestioncomplicated.他已使问题复杂化。Thechildrenhavehadenoughtoeat.孩子们已吃了足够。这样的译文对机器翻译来说就算不错了,只是念起来有些别扭,有点“机器味儿”。3.动结式的生成过程机器翻译译文生成的任务是从要表达的意义出发,经过选择词语、确定词语间的语义关系、确定目标语句子的句法结构等步骤,最终
8、输出与源语言句子在意义上等价的表层字符串。对于动结式的生成,有以下几步:确定要表达的意思整合语义结构选择词语、分派语义角色选择句法表现形式判断合法性处理表层词语制定要表达的意思汉语动结式述语结构表达的是一种“动作结果”事件。比如要生成的意思是:小王读了这篇文章,结果小王懂了这篇文章。在汉语生成开始之前,机器翻译系统用中介语言逻辑表达式表示要生成的译文是什么意思。一般来说,如果这个表达式里面有两个谓词结构,并且二者之间有“动作结果”关系,就可以进入汉语动结式的生成过程。中介语言逻辑表达式是从源语分析得到的,源语中的述谓结构和“动作结果”关系会在表达式中有所体现。但这并不是判断能否生成汉语动结式的
9、惟一依据。我们在上一节提到,英语往往没有相当于汉语动结式的结构形式,也很难用转换规则把英语的某些结构形式与汉语动结式联系起来,这是就句法结构来说的。实际上,由于英、汉语之间在“动作结果”关系表达上的差异,在从源语分析得来的语义表达式里,可以用汉语动结式生成的“动作结果”关系有时是隐含的,与此相关的述谓关系也有不同的表现形式。比如:英语对动作对象的描写在汉语中有时可以表达成动作的结果:Shemarriedthewrongperson.她嫁错了人。Heenteredthewrongdoor.他进错了门。汉语中动词的结果补语在英语中有时是说明动作的状态和程度的成分:电视看久了。towatchTVfo
10、raverylongtime.我英语学晚了。ItwasverylatewhenIstartedtolearnEnglish.还有,致使“动作结果”事件发生的某些因素在汉语里常常可以充当动结式的一个论元角色,而在英语里它们往往充当其他成分:那场可怕的暴风雪冻死了不少人。Manypeoplefrozetodeathintheterriblesnowstorm.沙发把你坐懒了。Youarebecominglazyonthesofa.所以我们需要一组规则,在要生成的语义表达式里判断有没有应该用汉语动结式表达的述谓关系。在这组规则里,除了两个谓词结构及其显性的“动作结果”关系符合判断条件以外,还应该有能
11、够识别和提取隐含的“动作结果”关系及其述谓结构的条件。这就需要研究英语和汉语在表达“动作结果”关系时的差异。这种差异有时在某种类别下表现出来,有时又很个性化,只跟具体词语有关。目前机器翻译系统还没有找到这样的规则。所以我们就暂时只能看到“她嫁给了错误的人”和“他进了错误的门”这样的译文。选择词语选择词语需要有一部用于信息处理的汉语词典,告诉我们词语和它们的意义,以及它们的用法。对于前面的例子,需要先在词典里选出“小王”、“读”、“懂”、“文章”这些词,然后根据词语的意义和逻辑关系为它们分派语义角色。这些词在中介语言逻辑表达式里是实体和谓词。“了”、“结果”、“这”等是算子或关系,把它们转成词汇
12、形式还需要另外的分析和处理。词语选择和语义角色分派的结果可以表示成树形图或特征集合等形式。附图图2词语选择和角色分派的结果Agen表示施事,Pred表示谓词,Pati表示受事,Cont表示内容,Expe表示经验者。即使有一部详尽的词典,要让机器根据意义选择词语也不是一件容易的事情。我们经常需要在几个同义词或近义词当中进行取舍。比如,汉语的“看”有read的意思,用它来表达我们要生成的意思比“读”更地道。根据什么样的规则选择“看”,不选择“读”?目前汉语词汇和语义的研究还不能形式化地回答这个问题。机器翻译系统只好先根据词语搭配的优先关系来判断。一种作法是,借助描写词语概念的语义词典,用统计语言模
13、型计算语义相似度,让计算机学会表示和比较词语搭配的优先关系。但是,用这种工程化的方法并不能绕过汉语研究的作用,因为一个统计语言模型能否达到比较好的处理效果,很大程度上取决于采用什么样的语言学知识作为参数。判断合法性经过词语选择和角色分派,得到了图2表示的两个谓词结构。这一步的任务是,判断能不能用动结式述语结构表示这两个谓词结构及其关系。具体说就是,“看”和“懂”能不能合成“看懂”,并且表示中介语言逻辑表达式要求的“动作结果”关系。因此合法性的问题关系到哪些动词和哪些形容词能够组合成符合汉语习惯的动结式。如果给机器翻译系统提供一个词表,列出一批动结式的词语,而“看懂”又刚好在这个词表里,那么判断
14、这件事情就比较容易。譬如,在动词“学”的两个义项下面,汉语动词用法词典列举了8个动结式实例,中国语补语例解列举了12个。这两部词典是面向人的,如果给机器翻译用就还需要收录更多的实例。比如“学懂”、“学腻”,等等。实际上,词表只适用于小范围的实验型翻译系统。动结式述语是一种自由结构,是根据说话的需要临时造出来的,因此应该是不胜枚举的。我们可以这样想,“学”是一种认知行为,“懂”、“明白”等词语表示认知活动的效果,因此可以当“学”的结果补语。但人们也常说“这孩子学歪了”、“把身体学垮了”。“歪”和“垮”又根据什么是“学”的结果补语呢?这些补语该用什么条件来生成?我们将在第四部分进一步讨论这个问题。
15、如果这一步判断的结果是不能生成合法的动结式,那么就需要回到上一步,重新选择词语,直到找不到符合预定的语义要求的词语为止。整合语义结构作为一个述谓性的结构整体,动结式有自己语义上的支配成分,包括论元成分和附加成分,我们把这些语义关系的和统称为语义结构。在这一步,我们需要根据动词和补语各自的语义结构,确定动结式整体的语义结构,主要是配价结构。动结式的配价结构不等于其构件的配价结构,也不简单地等于二者之和。动结式的配价与其构件的配价之间有没有对应关系?如何从动词和补语各自的配价结构得到动结式的配价结构?袁毓林、郭锐和王红旗都曾经作过研究,在解释成因的同时,寻找动结式对其构件原有的论元进行选择的控制规
16、则。在一定范围内应用这些规则,我们可以从动词和补语的配价结构推算出动结式的配价结构。包括价语的数量:动结式是一价的、二价的,还是三价的;以及价语的性质:动结式述语结构中各个论元的语义角色是什么、客体格)。对于前面的例句,我们就可以得到,动结式“看懂”是二价的,它的两个论元是“他”和“文章”。价语的数量和性质是下一步选择句法结构的主要依据。在动结式生成的整个过程中,汉语语法学者提出的论元整合规则是可以直接影响生成算法的规则,这样的结论在目前的汉语语法研究中还为数甚少。机器翻译十分重视这一组规则的作用,也期待着对它更加深入的研究和完善。选择句法表现形式这一步要做的是,选择什么样的句法手段去表现动结
17、式的语义结构。动结式有很多表层结构类型,李临定曾归纳了五类句型:N,1+V+C妈妈急哭了N,1+V+N,2+V+C他走路走累了N,1+V+C+N,2我点亮了油灯N,1+V+N,2+V+C+N,3他拍桌子拍疼了手N,1+把+N,2+V+C+N,3火把他的衣服烧穿了几个洞前四类还各有四种可能的表层变换形式。到底应该选取哪一种生成我们的句子呢?这是如何在语义结构和句法结构之间寻找对应关系的问题,我们打算在第五部分就这个问题作进一步的讨论。处理表层词语选定了句子的表层结构和语序以后,剩下的事是用词汇手段表达某些句法或语义范畴。比如:时、体、否定、指代、有定、数量,等等。然后输出最后生成的结果。对于我们
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器翻译 汉语 生成 障碍
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。