计算机辅助翻译关键技术Review.doc
《计算机辅助翻译关键技术Review.doc》由会员分享,可在线阅读,更多相关《计算机辅助翻译关键技术Review.doc(30页珍藏版)》请在咨信网上搜索。
1、计算机辅助翻译技术概论押题:1、 隐马尔科夫模型 2、机器翻译办法 3、文本电子化OCR 4、双语对齐解决 5、汉语切分办法和核心问题5-20考试计算机辅助翻译技术考试题型:填空、判断、问答7-8个考查内容:基本概念梳理,理解分析能力,考题思路,课件!1、概论1.1概况为什么要研究翻译技术? 何谓翻译技术(translation technology)?可以用来进行语言翻译或辅助进行语言翻译信息技术。 解决或缓和语言障碍(language barrier)问题,提高翻译从业人员生产率。 翻译技术研究始于机器翻译关于机器翻译 机器翻译(Machine Translation)定义:运用计算机及其
2、软件把一种语言(自动)翻译成为此外一种语言技术。 机器翻译研究目的是研制具备翻译能力计算机软件系统。 机器翻译研究始于20世纪40年代末期。 机器翻译结论很困难。翻译技术分流 机器翻译(MT):机器翻译主体是机器。当前比较困难。(目的是寻找彻底解决方案) 计算机辅助翻译(CAT):计算机辅助翻译主体是人。相对比较容易,但却很实用。 计算机辅助翻译立足为翻译人员提供(软件)工具。协助翻译人员提高效率(生产率)。名词辨析CAT - Computer-aided TranslationMAT - Machine-aided(-assisted) TranslationMAHT - Machine-a
3、ssisted Human TranslationHAMT - Human-assisted Machine TranslationMT - Machine TranslationFAHQMT - Fully Automatic High Quality MT关于翻译技术理解 狭义理解,翻译技术指计算机辅助翻译技术和机器翻译技术。 广义理解,翻译技术指是对翻译人员工作有益任何信息技术。n 文字解决工具(MS Word) (不可或缺)n 国际互联网及其应用(WWW、Email.)n 各种电子资源(百科全书光盘.) 本课程定位:n 重要是狭义翻译技术。n 配合翻译技术某些通用技术(数据获取技术、文
4、本解决技术)关于本地化何谓本地化(localization)?The term “localization” refers to the process of customizing or adapting a product for a targetlanguage and culture.全球化没有带来其她语言消灭,带来了本地化。本地化特点:量大、时间急迫、技术(应用)性强simshipAn abbreviation of “simultaneous shipment”,which refers to the practice of releasing multiple language
5、versions of a product at the same time (or at least as close to the same time as is possible).翻译技术概观翻译技术体现为一组翻译工具,是若干软件工具集合。翻译工具可以涵盖翻译不同阶段、面向不同需要。n 资料收集n 原文理解n 术语解决1.2工具语言材料电子化工具 Data-capture tools 使用翻译技术前提:待翻译文本需要是电子化,是计算机可以解决。 翻译过程中所需要各种资源需要是电子化。 何为机器可读(Machine readable)?文字变成编码形式 常用电子化手段:手工键盘输入(ke
6、yboarding)、Scanning + Optical Character Recognition、Voice Recognition 文献格式转换工具 编码转换工具 多语种解决能力语料库分析工具 Corpus:a large collection of electronic texts that have been gathered according to specific criteria. Type of corpus:n monolingual corpus:orpus which consists of texts in one language.n parallel corp
7、us:corpus containing source texts aligned with their translations.语料电子化工具、语料解决工具 Corpus-analysis toolsSoftware that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically contain a number of useful features that a
8、llow users to generate and manipulate word frequency lists,concordances,and collocations.(频率表、核心词、搭配) Frequency list Concordance (bilingual or monolingual) Collocation Corpus-analysis tools allow users to have access to frequency data and to see terms in a variety of contexts simultaneously features
9、 that dictionaries can not easily provide. Keyword in context (KWIC):a method of displaying concordance lines in which all occurrences of the search word are centered on the screen surrounded by the immediate context 直观结识语料解决工具汉语切词(segmentation)词性标注(POS tagging)屈折语形态还原(lemmatization)句法分析(parsing)双语对
10、齐 (alignment)既是 语料解决工具 普通也是机器翻译或机器辅助翻译系统构成某些术语管理工具翻译中术语一致性问题:term bank,term baseTerminology-management System (TMS):A software application that allows users to create,store,and retrieve term records.Active terminology recognitionTerminology pre-translationTerm extraction (identification)Monolingual
11、or BilingualQuality of term extraction翻译记忆工具Translation Memory:a type of linguistic database that is used to store and retrieve source texts and their translations.Translation reusePre-translationMatches:Exact match n Fuzzy matchn No matchTM tools and localizationTM CreationTM tool是CAT核心工具机器翻译用作辅助翻译
12、工具Pre-editing + Machine TranslationMachine Translation + Post-editing其她方略n Sublanguagen controlled language集成翻译工具 Translators workbench (workstation):an integrated system for the use of professional translators,which combines multilingual word-processing,terminology management,translation memory,and
13、 automatic translation. Workflow management1.3 翻译技术与计算语言学 计算语言学是通过建立形式化计算模型来分析、理解和解决自然语言学科。是一门文理交叉学科。(源于翻译技术需求) 翻译技术建立在计算语言学基本之上,翻译技术突破有待于计算语言学发展。 自然语言n2、P2-翻译技术数学基本2.1概率记录基本概念2.1.1随机事件随机事件:在一定条件下,也许发生也也许不发生事件称为随机事件,简称事件。普通用大写拉丁字母A,B,C,表达事件。随机事件两个特殊状况必然事件:每次实验都必然发生事件(W )。不也许事件:每次实验都一定不发生事件(F)。2.1.2频
14、率和概率频率:如果在相似条件下进行了n次重复实验,事件A浮现了v次,那么事件A在n次实验中浮现频率为是 v/n。当n无限增大时,频率呈现稳定性。这一记录规律性表白事件发生也许性大小是事件自身所固有、不以人们主观意志而变化一种客观属性。概率:概率:事件A发生也许性大小称为事件概率,记作P(A)。当实验次数n足够大,可以用事件频率近似地表达该事件概率,即概率基本性质条件概率条件概率 在事件B发生条件下,事件A发生概率称为事件A在事件B已发生条件下条件概率,记作P(A|B)。当P(B)0时,规定:当P(B)=0时,规定P(A|B)=0。乘法公式2.1.3独立性和贝叶斯公式 若事件A和B,满足条件P(
15、AB)=P(A)P(B)则称事件A和B互相独立。贝叶斯公式:依照乘法公式,可以得到下面重要公式2.1.4随机变量随机变量: 每次实验成果可以用一种实值变量X取值来表达,这个变量称为随机变量。它是随机现象数量化。离散型随机变量 如果随机变量X只能取有限个(或可列个 )数值x1,x2,xn,就称X为离散型随机变量。在语言记录解决中,普通仅用到离散型随机变量。2.1.5概率质量函数(pmf)设X是一种离散型随机变量,它所有也许取值为x1,x2,xn,,PX =xk=pk (k = 1,2,n,),则可以用下面表格来表达X记录规律:其中,1pk0且pk=1 ,称表格所示函数为离散型随机变量分布质量函数
16、,记作p(x)。2.1.6 随机变量数字特性盼望 方差 原则差数学盼望:随机变量X数学盼望E(X)是该变量取值概率加权平均。数学盼望简称盼望,描述了随机变量平均值。若X为离散型随机变量,则:E(X) = X1*p(X1) + X2*p(X2) + + Xn*p(Xn)随机变量(X E(X)2数学盼望称为随机变量X 方差,记作D(X)或Var(X)。方差描述了随机变量取值距离其平均值(即盼望值)分散限度。即原则差 随机变量X原则差定义为随机变量X方差算术平方根,记作s (X ) 。即:2.1.7总体、样本总体 研究对象所有也许观测成果称为总体 。样本 从总体中抽取一某些样品,称为总体一种样本。数
17、理记录办法是通过研究样本来理解和判断总体记录特性科学办法。2.2信息论基本概念2.2.1最优编码变长编码:给小概率信息赋以较长编码,而给大概率消息赋以较短编码。随机变量 X 服从概率分布 P,如果消息 x 分布密度为 p(x),则给其分派一种长度为个二进制位编码。消息编码长度大,可理解为消息所含信息量大。消息编码长度小,则消息所含信息量小。平均信息量即为发送一种消息平均编码长度 。信息论中用熵描述随机变量平均信息量。2.2.2熵(entropy)熵描述了随机变量不拟定性。2.2.3 互信息(mutual information)2.2.4噪音信道模型在运用噪声信道解决语言问题时,人们并不关怀编
18、码问题,而更多关怀是,在有噪声存在状况下,如何解码将输出还原为信道输入。2.3记录语言模型简介语言建模(Language Modeling)对于一种服从某个未知概率分布P语言L,依照给定语言样本预计P过程被称作语言建模。3、P3-语言材料电子化工具-文本电子化:手段编码及格式3.1 关于文本电子化 定义:文本电子化就是指将文本转换为机器可读形式进行存储。 使用翻译技术前提:A 待译文本需要是电子化。 B、翻译过程中使用语言资源需要电子化:语料库:翻译记忆库(TM):术语资源、词典资源 文本机器可读形式:计算机及其软件可以读写以及解决。如文字编辑。对于文本而言,字符以恰当编码形式存储。如:ASC
19、II码、GB2312码、UNICODE码等。非机器可读形式文本:手写文稿、打印文稿n 传真文稿n 文稿数字照片3.2 关于文字编码和编码转换 文字在计算机中是以编码形式表达 编码原则化:英文字符编码原则 ASCII码西文字符编码原则 ISO8859中文编码原则 GB18030、BIG-5统一码 UNICODE 文字输入和输出文字编码解决过程:n 输入码机内码字形码除输入和输出外,计算机内任何文字解决都是以机内码形式进行,如编辑、记录 关于编码转换从机器可读到软件可读编码与软件对编码支持软件也许不支持所有编码,若软件不支持某文本采用编码,会浮现解决错误或得不到预期解决成果。不兼容编码之间可以转换
20、: GB BIG-5n GB UNICODE3.3 文本电子化手段KeyboardingScanning+optical CharacterRecognitionVoice Recognition 扫描(scanning)n 将硬拷贝文稿经扫描仪扫描转换为图像格式存储,如:*.bmp、*.jpg、*.tif等。图像存储格式特点:点阵存储w 基本单位是像素(pixel) 光学字符辨认(OCR):将印刷体或手写体图像中文字辨认出来,转换为规定编码格式存储,如:ASCII、GB2312、UNICODE等 OCR基本过程n 图像解决: 缩放、旋转、去除污痕,目的是提高辨认率n 版面划分: 区别文字、表
21、格板块以及非文字板块,鉴别辨认顺序,便于按序分别解决n 文字辨认: 依照特定模型及文字辨认特性,逐行逐字进行辨认n 文字编辑: 对辨认成果进行编辑,纠正错误3.4 关于文献格式和格式转换 常用文献格式有:n 纯文本文献(txt文献)n Web页面文献(html文献)n Word文档(doc文献)n Portable Document Format (PDF文档)n Rich Text Format (RTF文献)n .纯文本文献中只能有文字信息,不能有格式信息、图表信息辅助翻译软件未必支持所有文献格式。许多语料解决工具仅仅支持纯文本文献。要注意文档格式转换经常会损失信息。例如图表、格式信息会丢
22、失或不能较好保持。4、语料解决工具工作原理P4-当代汉语词语切分技术 什么是汉语自动切分?通过计算机把构成汉语文本字串自动转换为词串过程被称为自动切分segmentation)。英语中切分问题英语中不是完全没有切分问题,不能仅仅凭借空格和标点符号解决切分问题。英语中切分普通被叫做Tokenization。同汉语相比,英语切分问题较为容易。 为什么要进行汉语切分研究应用规定:语音合成和信息检索 汉语自动切分办法基于词表办法最大匹配法(MM)(特点:长词优先,算法非常简朴)1. 正向最大匹配法(MM):从左向右匹配词典2. 逆向最大匹配法(RMM):从右向左匹配词典全切分+途径选取序列标注办法:把
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机辅助 翻译 关键技术 Review
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【丰****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【丰****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。