基于中间转换格式的中英文语言生成方法研究样本.doc
《基于中间转换格式的中英文语言生成方法研究样本.doc》由会员分享,可在线阅读,更多相关《基于中间转换格式的中英文语言生成方法研究样本.doc(26页珍藏版)》请在咨信网上搜索。
1、资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。基于中间转换格式的中英文语言生成方法研究曹文洁宗成庆徐波中国科学院自动化所模式识别国家重点实验室, 北京 100080, 中国caowj, cqzong, xubo 12月5日收稿 5月10日修改并录用_摘要基于中间语言的翻译方法是实现多语言口语翻译的重要途径, 而自然语言生成技术则是基于中间语言的机器翻译系统中的重要组成部分。本文介绍我们基于中间语言的中英文语言生成方面的研究工作。我们采用的是基于特征的深层生成技术与模板生成技术相结合的生成方法。其中, 深层生成技术主要是为了保证口语翻译系统具有更好的灵活性与领域可移植性, 而模板
2、生成技术则是为了使口语翻译系统具有更高的效率。在深层生成中, 我们采用微观规划和表层生成相结合的结构, 使用系统功能语法为生成语法。实验表明该混合生成策略能够较好地满足基于中间转换格式的口语翻译系统的基本要求。关键词自然语言生成, 微观规划, 词汇化, 表层生成, 中间转换格式, 系统功能语法_1引言自然语言生成技术研究的是如何利用计算机把非自然语言表示的语义形式转换成某种自然语言的表示形式, 从而产生人们可理解的, 表示确切、 自然流畅的自然语言语句。自然语言生成技术的目的实际上就是让人们能够用自己感到最为舒适方便的自然语言方式去表示各种语义信息。随着自然语言处理相关技术的快速发展, 自然语
3、言生成技术被广泛地应用于许多方面, 机器翻译中的目标语言生成是其中最典型的应用之一。本文介绍的工作是基于国际语音翻译先进研究联盟( C-STAR: Consortium for Speech Translation Advanced Research) 框架下多语言口语翻译系统中的中英文生成问题, 所采用的中间语言称为中间转换格式( IF: Interchange Format) 。关于背景的详细介绍, 请参见(), 本文不再赘述。基于中间转换格式的C-STAR口语翻译系统框图如下所示: 语音识别源语解析语音合成知识库目标语生成源语文本IF目标语文本源语语音目标语音图1. 基于中间转换格式的语
4、音翻译系统与其它基于中间语言的机器翻译系统相同, 基于IF的口语翻译系统对目标语言生成器有着同样的要求: 即要求具有灵活、 高效、 便于领域移植、 以及较好的容错性等特点。除此之外, IF也给我们的目标语言生成研究带来新的问题( 详见第二小节) 。自然语言生成从上个世纪六十年代开始发展至今, 经历了从简单到复杂的过程。句法实现系统主要有四种类型(John A. Bateman 1996)。首先是固定文本生成系统(canned-text system), 这种方法主要应用于大多数的软件的提示信息生成系统。然后是模板生成系统(template system), 如Kukich在1983年提出的AN
5、A系统, 这种方法效率高, 而且在特定领域的应用效果比较好, 可是领域可移植性差。再之后是基于短语的生成系统(phrase-based system), 如McDonald等在1980年建立的MUMBLE系统, Moore于1989年建立的EES文本规划器等。此方法主要用于单句生成, 其优点是鲁棒性强, 可是容易造成不恰当的短语扩展。后来又出现了基于特征的生成系统(feature-based system), 如Matthiessen于1983年建立的PENMAN系统, 及其衍生出的KPML系统( Bateman, Maier et. al. 1991) 等等。这种方法的优点在于简化了概念,
6、能够把任何语言上的差异作为特征加入到系统中; 缺点是效率较低。本文中我们采用的是基于模板和基于特征的深层生成相结合的混合生成方法。之因此采用这样的混合方法, 主要基于以下几点考虑: 首先, 特定领域的口语对话常常有一些固定的表示模式。根据我们初步统计, 发现口语中含有”请”字的祈使句约占17左右; 用”有吗”、 ”有没有”、 ”能不能/能够不能够”等表示的疑问句约占44%左右; 含有时间或数字的语句约占22左右。 其中, 很多固定简短的表示非常适合使用模板的方法进行翻译( 对两种语言直接互译的翻译系统而言) 或目标语言的生成( 对基于中间语言的翻译系统而言) 以简化翻译模块。另外, 模板的引入
7、有助于提高系统的运行效率。其次, 由于口语的表示形式灵活多样, 对于非固定的表示方式, 采用基于特征的深层生成方法无疑更能满足系统对灵活性的要求(Ehud Reiter 1995)。再次, 我们的生成器是中英文的双语生成, 较其它方法而言, 基于特征的方法能够把不同语言的差异作为特征加入系统中, 使其更易于用统一的程序框架对不同语言进行处理。本文第二部分介绍中间转换格式IF的定义及其特点, 第三部分具体介绍我们的生成方法, 之后是实验结果及分析, 第四部分为结束语。2中间转换格式 IF当前C-STAR采用的IF由NESPOLE!计划提出, 当前针对领域是旅游信息咨询, 包括旅馆服务和病人请求帮
8、助等。一个IF表示式一般由说话者( speaker) 、 话语行为( speech act) 、 概念序列( concepts, 与话语行为合称为领域行为) 和参数属性值正确列表四部分组成。关于各部分的具体含义, 请参见文献(解国栋等 )。IF的理论基础是话语行为理论 ( 吴华 ) 。话语行为理论的基本思想是认为语言不只用来陈述事实, 而是附载着说话者的意图。IF的理论基础决定IF主要具有以下几个特点: 第一, 对多语对话翻译系统而言, 如果能准确捕捉对话者交际意图, 语句的许多信息就可由此推断出, 从而较基于Fillmore的语义格语法的中间语言而言, IF的定义大大简化。第二, 由于IF的
9、定义不涉及句子主要参与成分之间的句法和语义关系, 因此与基于格语法的中间语言相比, IF更适合于多语翻译系统, 特别是避免了在不同语言的语义格不一致的情况下出现的问题, 主要是中心词失配( head-mismatching) 问题(Lori Levin, et al. )。第三, IF是一种不完备的语义描述( Underspecified Semantic Representation, 简称USR) , 这需要生成器在生成句子的表面形式之前, 先根据IF和领域知识推断缺少的信息。第四, 虽然IF会提供诸如情态、 时态和一些修辞关系等信息, IF表示式的主体部分描述的是话语的领域行为, 并没有
10、指出句子所对应的谓词论元框架。这使得生成器不能直接由IF生成表层句子, 而是需要首先由IF主体部分获得句子的谓词框架, 并把IF映射到适合于句子生成的语义表示形式。相反, IF的arguments列表中每一个”参数属性值对”都对句子浅层信息进行了很好的描述和封装, 从而这部分无需中间映射, 能够直接进行短语的生成。IF示例: (1) c:request-information+departure+transportation (transportation-spec=(flight, identifiability=yes, destination=tokyo), time=(clock=(h
11、ours=2)句子: Does the flight to Tokyo leave at 2 oclock? | 飞往东京的航班 2点钟离开吗? (2) a:greeting(greeting=hello)句子: Hello. | 你好。3基于模板与特征的混合生成方法根据前面的介绍, 针对中英文生成技术, 我们的研究目标是: ( 1) 研究与领域相关、 针对话语行为描述的中间语言的句子规划技术; ( 2) 研究针对多语口语翻译的目标语言生成策略, 当前是针对汉语和英语的生成问题。同时考虑针对多语言生成目标的模块可扩展性。作为多语口语翻译系统的一个有机组成部分, 目标语言生成器要求具有灵活、 高
12、效的特点, 鲁棒的性能, 易于维护而且易于进行领域移植。如图2所示, 我们的目标语言生成器主要由两个模块组成: 微观规划和表层生成。当中间转换格式IF进入生成器, 首先经过微观规划得到一个句法功能结构, 再由这个句法功能结构经过表层生成得到目标语言句子。我们所用的句法功能结构是基于系统功能语法而定义的, 其格式是多个特征属性值正确集合, 包含生成一个句子所必须的各部分信息( 语气、 时态、 语态、 谓词框架等) 。表层生成部分则相应的采用功能合一文法, 利用目标语言的句法知识, 把作为过渡的句法功能结构中的各个特征逐步聚合, 最终线性化得到目标语句。图2. 目标语言生成器系统框图为满足口语翻译
13、系统的效率与灵活性的要求, 并使其易于进行领域移植, 我们的生成器采用模板与深层生成相结合的生成策略。模板方法的效率很高, 可是领域移植性比较差, 而深层生成的方法则更为灵活, 并具有更好的通用性, 可是时效性差(Stephan Busemann and Helmut Horacek 1998)。二者结合起来, 能够很好地起到相互取长补短的作用。由于IF是一种不完备的语义表示, 而且源语言语音识别和理解模块往往存在错误而造成IF错误或信息丢失, 为了迎合生成器对于鲁棒性的要求, 在输入IF错误或不完整的情况下能够生成尽量正确和可理解的目标语句, 我们采取的措施是设立缺省值, 并放松微观规划规则
14、和语法规则的约束, 在某些情况下也允许生成不完整的句子。3.1 微观规划一般微观规划器包括以下几个性质完全不同的子任务: ( 1) 将内容规划对象映射到语言资源上; ( 2) 确定句子辖域; ( 3) 进行句子聚合, 把几个信息经过不同的关系组合成长句; ( 4) 进行句子的缩合, 消除冗余, 使语句精炼; ( 5) 进行词汇选择, 把领域概念和关系转化为词汇和语法关系; ( 6) 生成指代。但在我们的口语翻译系统中, IF中的信息全部来自源语句子, 而且一个IF表示式与一个句子或词组相对应, 生成句子所必须的各项浅层信息都在IF的参数中给出, 因此生成器所要做的事情就是根据IF以及领域知识生
15、成目标语言语句, 而无需进行句子的内容确定。IF没有提供句子生成所需的谓词论元信息, 需要生成器由IF、 领域知识和中心词的搭配信息进行推断。由此决定我们的微观规划器需要实现如下几个功能: ( 1) 根据IF和领域知识确定句子类型, 获得句子生成所必须的谓词论元框架; ( 2) 把领域概念转化为词汇, 进行词汇选择, 并从词典中获得所有与词汇相关的词形变化( 英文生成中的人称与数的变化等) 、 词语搭配等信息; ( 3) 把领域关系转化为语法关系; ( 4) 获得句子的语气、 时态、 情态、 语态等信息。如图3所示, 微观规划分为两个层次: 句子规划和短语规划。句子规划的功能主要是根据IF表示
16、式和领域知识推断句子的顶层信息, 如主要动词、 时态、 语态, 语气等等, 并根据主要动词获得生成句子所必须的谓词论元框架; 短语规划是把IF格式中的属性和概念转换为句子的参与角色, 换言之, 就是获得句子的浅层短语信息。经过句子规划和短语规划能够把IF格式转换为句子的语义句法特征集, 直接作为目标语言表层生成器的输入。微观规划所涉及的资源主要是句子及短语规划规则库、 领域知识和词典。其中, 领域知识没有作为独立的实体出现, 而是体现在规划规则的制订上, 我们在制订由IF到句子功能结构的映射规则时, 根据说话者的角色和IF表示式的应用场景等领域信息的不同添加不同的句法和语义信息, 或进行不同的
17、映射。图3. 微观规划流程图句子规划规则的描述由一个三元体( P, C, A) 实现。P( Pattern) 指的是IF的主体部分( 包括说话者和领域行为) 的模式, C( Constraints) 是约束, 能够是空集, 也能够是对IF所含Concepts和Arguments的约束。A( Action) 是动作, 所含的内容是在输入的IF满足P和C的限制下, 该IF所对应的句子的功能结构。句子规划时, 微观规划器输入的IF首先与P中的模式匹配, 如果匹配, 再看输入是否满足C中的约束, 如果两者都满足, 则执行动作A, 获得句子的主要动词及框架信息。规则中给出的是主要动词的语义, 在词汇化(
18、 即查词典以确定主要动词) 时, 如果存在多个词汇的候选, 一般由动词所规定框架中参与成分的语义加以限定。这些信息都放在词典当中。句子规划规则示例: (speaker = a ) ( speech act = give-information ) ( topic = availability + room ); /Pattern(exist(argument, room-spec ); /Constraints( (cat = clause) ( mood = declarative) ( tense = present) (voice = active) (process(type = po
19、ssessive) (lex =#dic(have) (args = (case = pos) (pos=lex=(#get(argument, who)|#dic(we)/”we”为缺省值(bel=lex =( #get (attribute, room-spec ),), (!optional: pre_mod = ( time = #get ( attribute, time); 关于句子规划规则中各符号的定义和具体句子规划的过程请参照文献(吴华 )。句子模板的定义也是在句子规划层实现的。在口语限定领域中, 许多表示方式一般是固定的而又领域无关的, 所不同的只是句子中的某个或某几个成分,
20、 如句子的宾语, 这些成分往往又是领域相关的, 例如: ”请给我”、 ”请给我”。而这些成分能够经过语义类限定。另外, 一些日常见语: 如感谢、 问候、 道歉等等, 表示方式也是很固定的。这些句子都能够使用句子模板。比较英语和汉语, 汉语词汇没有形态的变化, 因此某些固定表示更加适合于模板方法。我们在模板的定义中加入了变量, 变量的取值由一个或数个语义类限定。语义类的定义与IF的Values类相一致。经过模板中加入变量, 某些原本表示方式相对固定, 可是又需要深层生成的句子就能够用模板的方法得到, 既保持了一定的灵活性, 又进一步提高了系统的效率。为便于生成器在统一的程序框架下处理, 模板与句
21、子规划采用同样格式的规则。在生成过程中, 如果某个模板规则的模式和约束都匹配, 则直接进入表层实现, 把模板中的变量用相应的目标语言的短语或词汇替换即可。下面给出一个示例。其中, *payment-methods*代表”支付手段”语义类。模板示例: (speechact=give-information),(topic=payment);/Pattern(exist(method), value(method)*payment-methods*);/Constraints(cat=clause), (process.type=template), (lex=用#dic(%pament)付账。|
22、By #dic(%pament). );句子规划的深一层是短语规划。我们最初的汉语生成器(Hua Wu et al. )在微观规划的短语规划部分只是获得了生成各个短语所需要的成分功能结构信息, 而微观规划的结果是大结构( 句子结构) 嵌套着小结构( 短语结构) 的、 能够转化为树状结构的复杂特征及其属性值的集合。到表层生成, 需要再一次对短语层进行功能合一运算以获得短语的线性结构。这样做, 增大了表层生成时程序的递归深度和次数, 大大降低了生成器的运行效率。在我们当前的短语规划中, IF中的”参数属性值”对应于句子的浅层短语结构。短语规划主要处理的是IF中的”参数属性值”部分, 或者是IF中某
23、些概念与该概念的”参数属性值”部分的组合。IF在”参数属性值”结构中, 明确指出了中心词, 和按照语义定义的各个修饰成分, 还包括相关的语法信息: 如名词的冠词信息( identifiability) 。这种形式已经非常有利于短语的生成。本着保证系统运行效率, 而又尽量使系统简化的原则, 我们没有把IF的”参数属性值”转换为另外一套深层语义表示, 而是直接使用IF的”参数属性值”表示短语的语义信息。可是我们不能把这些表示保留到表层生成器再进行短语的生成, 因为这样会破坏表层生成器的通用性。因此我们的短语实现实际上是在微观规划器的短语规划部分实现的, 从这个意义上说, 这里的短语规划称为”短语实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 中间 转换 格式 中英文 语言 生成 方法 研究 样本
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。