汉字编码原理.pptx
《汉字编码原理.pptx》由会员分享,可在线阅读,更多相关《汉字编码原理.pptx(95页珍藏版)》请在咨信网上搜索。
1、第三章汉字编码原理第三节 汉字编码原理一、什么是汉字编码汉字外码:汉字的字母数字代码计算机人机界面:键盘字母数字控制符号功能键位二、汉字编码的历史发展广义的汉字编码是从汉字字书的编撰算起的。因为字典的编撰,离不开字的排序和检索。字典是供人来*查阅,编码输入法是让机器到字库中去查找。都是按照某种规则排列和检索汉字*的。可以说,早期的汉字排字检字法就是汉字编码的早期形式。比如,笔画部首法、四角号码法、拼音查字法、笔形查字法等。最早的汉字代码年清政府创办电报局,由丹麦人设计的汉字电报码。它的方法是将电报用的汉字按照笔画顺序由少到多排列成一个字表。使用的字数不到一万,就以字的顺序号作该字的代码。第一个
2、字的代码就是,第五个字的代码就是,第个字的代码就是。电报码一直使用到今天,经过不断的修订完善成为标准电码本。十个数字如果转换为二进制表示,则只需四位二进制单位。这样,用“嘀嗒”两种状态就可以传输汉字了。电报码的特点是“字”“码”一一对应,没有重码。缺点是难以记忆,非经过专门训练无法使用。三、编码原理、确定编码对象汉字的总字数有万多,现代汉语常用的也有万左右。信息交换用汉字编码字符集基本集根据各种统计数据确定收入汉字个。这些汉字就是一个编码对象的数量级。“大字符集”包括大陆、台湾、日本、韩国所使用的全部汉字的集合。有0902字。数量不同,有关参数也不同。、确定码元类型和数量码元是用来作为汉字代码
3、的元素。例如,电报码的码元就是这十个阿拉伯数字。码元的种类和数量与编码容量、以及码长、重码数等指标直接相关。比如电报码,采用十个数目字作码元,四位码长的编码容量至多个汉字,从到。超过万字就是出现重码,否则就必须增加码长。一般的编码方案多采用个英文字母作码元,也有的在这个基础上再增加个数目字,使码元数增加到个的方案,还有的把字母键盘区的其它功能键也利用上的。这种需要增加码元数的方案多数是形码方案。、确定编码规则理想的规则是“字码意义对应”、规则简单,好学易记,没有复杂的条件限制或特例情况。实际上最难做到。比如按形排序,同笔画数的字很多,同笔画的字当中,起笔相同的也不少,甚至笔顺相同的也有。究竟谁
4、先谁后,难以给出一个标准。按音排序也有个同音字的先后问题。同音、同调、同笔画数的汉字再按什么条件排先后,都是难题。人为地增加许多规定,势必增加用户的学习量。、编制码表所谓码表就是“字”“码”对照表。按照确定的编码规则将基本集中的全部汉字逐个给出正确的代码,形成一个字码对照表。、编制软件、上机实现这部分是软件人员的工作。软件人员根据编码规则和码表,设计一个查字管理程序,经过调试,准确无误,就可以投入使用。至此,一个汉字编码系统就完成了从设计到实现的整个过程。四、汉字编码的技术参数指标汉字编码是一个理论与实践性都很强的课题,而最重要的是它的实践性,也即在实际应用中的效果。因为这是要解决汉字信息处理
5、的第一个“人机界面”,所以,几乎全部技术指标都与“人”密切相关。在“人服从机器”还是“机器服从人”这个问题上,曾经有过一个认识过程。开始为了使机器能够处理汉字,主要是从机器出发的,重点考虑机器的特点和条件,较少考虑人的特点和需要。后来才将立脚点转移到“人”这方面来,将许多困难都留给机器,使机器对人服务得友好、周到,人的操作变得轻松、愉快。什么是理想的编码、规则简单。一般具有中等文化水平的人不需要经过专门培训就可以通过“自学”完全掌握。如果能够利用人的常识和知识,如果这种常识和知识中涉及或包括了关于汉字的基本知识,编码规则应当简化到不需要特殊的规则的地步。、码元数量少 一般不超过个,即个字母外加
6、个数字键。最好只使用个字母键。这样,对于人来说记忆量减少,对于机器来说,在键盘管理方面较好处理。、码长短 每个汉字的代码不超过四码。如果采用简码和不等长码处理的话,平均码长应当在码以下。、编码容量具有可扩展性汉字信息处理除了基本集的个汉字外,随着实际应用的发展,不可避免地出现繁体汉字的问题以及大字符集的问题。理想的汉字编码应当在不增加或少增加规则的基础上,就能够使编码容量扩展到繁体汉字或更大的范围。、采用词语编码应具有足够的词汇编码容量。词语码最长不超过码。应该给用户提供足够的词库扩展空间和扩展手段,使用户能够方便自如地根据自己的需要增加用户词汇。、重码率低一般用户可以实现“盲打”,即不用看键
7、盘(有一定的键盘基础的情况下)和提示行就能够输入汉字。只有能实现盲打,才能提高输入速度。、服务功能系统能提供方便周到的自学检索服务功能。例如,对规则的训练指导、查询疑难字,容错处理、允许模糊输入等等。、具有广泛的适应性适合不同年龄层次、不同地域、不同文化背景的人学习使用,同时,又能适应各种类型的输入,比如“照打”、“想打”、“听打”、“盲打”等。第四节汉字编码类型、流水码流水码的特点是:码元只有个阿拉伯数字;一般多为等长四码,有效数字不足四位的在前面加零补足四位;字、码一一对应,没有重码;字、码之间没有理据性,就是没经过专门训练不能做到“见字识码”;、拼音码是以汉字的读音属性为编码依据,采用键
8、盘上的拉丁字母做为码元的编码方法。又分为“全拼音码”、“简化拼音码”、“双拼音码”三种。一般不加声调。全拼音码的特点码元为个拉丁字母;与教学、社会应用的拼音规则完全一致,只要会拼音的人就会编码,能够作到“见字识码”;因为是“按音编码”,怎么读就怎么输入,便于思路的连续性,适于“想打”即写作者边想边打的方式;为不等长码,最长的如“装”“创”“双”音节都是码;重码较多,有的音节多达上百个重码,多次翻页,很不方便;简化拼音码主要为了解决码长过长的问题,减少击键次数,提高输入速度,在拼写规则上加以简化处理,将双字母声母“”“”“”以及许多两字母以上的复韵母都各用一个字母代替。比较常用的如前面介绍的所配
9、置的拼音码。简化拼音码的特点,除了比全拼音码减少码长外,其余与全拼音码都一样。但是,因为,增加了字母替换规则,所以,就比全拼音码增加了学习量。双拼音码根据汉字传统的“反切”拼音的原理,采用一声一韵的字母拼写形式,进一步将每字的码长减少到两码。双拼音码的特点是:码元为个拉丁字母;较复杂的声母、韵母替换规则,须经过一段时间的学习才能掌握;重码仍然与普通音码一样多;由于码长短可以提高输入速度;标调拼音码汉语是有声调的语言,汉语的声调是一个重要的“音位”,具有重要的辨义功能。有一种乐器叫做“雷琴”,可以只用“音高”就能模拟汉语的句子。这个例子足以说明汉语声调的重要性。拼音码为了降低重码率,采用标调的办
10、法,这样的拼音码,我们称之为“标调拼音码”。汉语的音节是有数的:不加声调只有个,加声调则有个左右。汉字共有万个。收在基本集中的有个。不加声调平均每个音节约有个重码,加上重码分布的不平衡,个别的音节就有几十甚至上百个;如果加上声调,平均每个音节只有不到个重码了。在汉语拼音方案中规定了“阴平、阳平、上声、去声”四种声调的调号,调号的位置要标在一个 音 节 的 主 要 元 音 的 上 面。比 如,“”等。虽然字库中做好了带调号的主要元音的字模点阵,但是键盘上却没有相应的键位,所以,采用通用键盘输入汉字就无法输入调号,所以只好采用变通的办法。汉语拼音历史上标调的方法有三种:符号标调法、数字标调法和字母
11、标调法。符号标调法年注音字母公布时采用小圆圈标调,以一个拼音音节的四个角表示四个不同的声调,叫做“四声点法”或叫“点角法”。后来,改用现在的调号来表示。数字标调法比如用、分别表示一声、二声、三声、四声,将表示调号的数字放在一个音节的末尾。在实际使用当中,又有一些变通的处理办法。比如,挑选出一个含字数最多的声调,作为“默认值”,用“零位”表示,即用不加调号来表示该调号。其余的分别加上数字调号,实际上等于只增加了三个调号符号。这样作可以缩短码长,减少击键次数。采用这种方法的编码方案如山东烟台唐懋宽的“声数码”就是其中较有代表性的一个。字母标调法在具体做法上各有不同。这种方法在汉语拼音方案的设计过程
12、中就有人试验过,其中比较有代表性的例子是“国语罗马字拼音方案”等。“国罗”的声调表示法阴平(包括轻声)用基本形式;阳平浊音半浊音声母()用基本形式;“”、“”作韵头时改为、,如:黄、元、今,但是,单独作韵母时则用双字母表示,如:皮、湖;开口韵在元音后加“”,如拔、达、啥;上声单元音连写,如闪,版、比;复韵母“”改“”、“”改“”,如检、广、百、好;、四韵采用连写法,如北、手、姐、妥;去声韵尾改写:改为、改为、改为、改为、改为或,如在、占、胜;采用字母标调的汉字编码方案如山东青岛丁天铎的“汉语辅助字编码方案”。拼音编码的瓶颈同音字繁多,影响输入新华字典中,读SHI音的字有72个,汉语词典中,读Y
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汉字编码 原理
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。