脱机手写体汉字识别综述.docx
《脱机手写体汉字识别综述.docx》由会员分享,可在线阅读,更多相关《脱机手写体汉字识别综述.docx(11页珍藏版)》请在咨信网上搜索。
1、_脱机手写体汉字识别综述 摘 要: 脱机手写体汉字识别是模式识别领域最具挑战性的课题之一.本文分析了近年来脱机手写体汉字识别的最新进展,讨论了脱机手写体汉字分割、特征提取和分类器设计等关键技术的各种主流方法,介绍了3种典型的汉字识别数据库,并提出了脱机手写体汉字识别的难点问题和今后发展的趋势,为该领域的研究者指明研究方向,共同促进脱机手写体汉字识别技术的发展.关键词: 脱机手写体汉字识别;字符分割;特征提取;分类器设计;1 引言 汉字识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题之一,它涉及模式识别、图像处理、统计理论等学科,呈现出综合性的特点,在办公和教学自动化、银行票据自动识
2、别、邮政自动分拣、少数民族语言文字信息处理等技术领域,都有着重要的理论意义和实用价值1.汉字识别技术可分为印刷体和手写体汉字识别两大类.手写体汉字识别又可分为联机(on2line)和脱机(off2line)手写体汉字识别.脱机手写体汉字识别可分为受限和非受限两种情况,如图1所示.清华大学、中科院自动化所等著名高校和科研院所都致力于汉字识别的研究,以汉王科技股份有限公司为首的科技企业也推出了一系列成熟的商业产品2.目前,很多论文提出的脱机手写体汉字识别的方法在不同的字符数据库试验中,取得了95%99%的识别率,但是对真正的手写文档的识别效果却难以达到实际应用的要求.目前脱机手写体汉字识别仍处于实
3、验室研究阶段,成功的商业产品仍未发布24.本文着重讨论脱机手写体汉字识别的现状和存在的问题,明确今后的发展趋势,为脱机手写体汉字识别领域的广大研究人员提供参考和借鉴.2 手写汉字字体特点 从识别的角度分析,汉字具有如下4个特点.2.1 汉字类别多汉字的个数很多,国家标准GB1803022000信息交换用汉字编码字符集基本集的扩充收录27484个汉字5.汉字个数在模式识别问题中体现为汉字的类别,因此汉字识别问题属于超大规模数据集的模式识别问题.2.2 字体结构复杂汉字基本笔画(stroke)分为:横、竖、撇、点、折6.笔画的组合方式分为相离、相接和相交三种.特征结构笔画和相应笔画的组合方式在以笔
4、画为特征的汉字识别中起到关键作用.汉字的组合方式包括独体字和合体字.合体字又包括上下结构、左右结构、品字结构等多种结构.以部件(radical)为基础的手写体汉字识别中,需根据汉字的组合方式对已提取的部件进行重新组合.2.3 字形变化多手写体汉字字形总的来说可以分为:手写印刷体(hand2printfashionscripts)、行书(fluentscripts)和草书(cursivescripts).对于相同的字形又因不同人书写风格的差异造成手写汉字的变形.脱机手写汉字在日常生活中以行书为主.对于行书和草书等笔迹相连的情况,字符分割是识别的关键环节,如果出现分割错误,将影响后续识别结果的精度
5、.2.4 相似字多汉字集合中相似字较多,由于手写体汉字变形的存在,使得手写体中相似字的区分比印刷体要困难得多1.比如,在手写体中的一点,可能会因为不当的预处理而消失,从而造成字符的误识.因此要求预处理方法能够针对手写汉字的特点,做到尽量不丢失笔画信息.在识别过程中,对于相似的字体,可以采用更精确的细分类过程进行鉴别.在识别后处理阶段,通常采用相似字符集作为候选字符集的主体.3 识别过程 对于脱机手写体汉字识别而言,其识别过程通常如图2所示.原始的手写文稿通过扫描仪等OCR(OpticalCharac2terRecognition)设备,转换成灰度图像或者二值图像,并进行预处理.字符特征分为统计
6、和结构特征两种模式.识别阶段,根据提取的特征,选择相应的分类器及其组合形式进行模式分类.识别后处理根据前后文字的上下文关系选择最合乎逻辑的字词,能进一步提高识别准确率,最后输出分类结果.4 图像预处理 很多图像处理技术可以应用于脱机手写体汉字图像,包括:(对灰度图像)二值化、(对二值图像)伪灰度化、去噪、骨架化、边缘提取、倾斜矫正等.本节主要介绍字符图像分割的关键技术和方法.基于切分的汉字识别方法是目前汉字识别的主流方法.汉字的分割通常首先对整篇文档做行切分,再在行分割的基础上进行单个字符的分割.图3显示了手写体汉字分割处理的一般流程只有当每一单个字符的图像都能正确地从整个文本页面图像中分割出
7、来,才有可能进行正确的文字识别5.然而,手写体汉字的书写随意性很大,相邻汉字之间的位置关系也复杂多样.手写体汉字的书写可能产生如下4种基本位置排列情况7,8,如图4所示.(1) 正常:汉字各自分开独立为整体;单个汉字中各个部件间的距离远小于字间距离.(2) 粘连:汉字的某一笔在一点或几点与相邻汉字接触;(3) 重叠:汉字间无接触,但无法用垂直分割线分割;(4)过分:汉字左右部分间距过大或汉字内部出现笔画断裂.真实手写文档上述情况往往同时出现,这是造成无法正确分割汉字的主要因素,对这种手写体汉字的切分是今后研究的重点和难点问题8.目前手写体汉字分割广泛采用的方法如下:4.1 投影法投影法(Pro
8、jectProfileHistogram,PPH)通过统计图像中每一列(行)黑像素的个数得到投影直方图.在直方图中字符区域对应于波峰,字符间隔对应于波谷.投影法简单,速度快,对印刷体汉字和手写印刷体汉字的分割有相当好的效果,但是会将粘连或重叠的字符识别为一个字符,出现弱分割现象;或将过分字符识别为若干字符,产生过分割现象.4.2 连通域分析法连通域分析法8(ConnectedComponentAnalysis,CCA)是在整个字符图像中寻找相连的像素作为连通元,分析这些连通元本身的图像属性,判断它们是否属于同一个字符图像,然后利用先验知识对它们进行拆分和合并.连通域分析法对于重叠字符和倾斜字符
9、能够取得理想的分割效果.但使用该方法时连通元容易过碎,使严重断裂的字符图像无法重新合并,真正粘连的字符也不能通过连通元切分开,需在后续的识别模块中加入粘连字符模板或者通过其它方法进行再切分.4.3 Viterbi算法字符分割路径可视为一个自上而下的m层单向图,建立一个隐马尔可夫模型(HiddenMarkovModel,HMM)来表示该有向图8,9.图中的每个节点对应隐含状态,有向边表示状态的转移方向,用节点轨迹组成观测序列,其概率分布为分割路径穿过结点的几率大小,m是观测序列的长度.采用Viterbi算法1012寻求分割路径,相当于在图中沿着有向边方向找出所有路径中的最大概率者,组成顺向首尾相
10、接的一串有向边的集合,即得到非线性的分割路径.Viterbi算法对于交错、单处笔划粘连等字符能够得到较好的分割效果,但并未从根本上解决多种粘连方式的分割问题.4.4 基于识别的方法将字符分割与识别截然分开,分割将是手写体汉字识别误差的主要来源,基于识别的统计分割方法是汉字分割的新出路5.基于识别的方法首先将字符分成若干组成部分,并采用合并策略在多条候选的合并路径中通过识别结果选择一条最佳路径13,14.基于识别的字符分割方法通过识别模块来指导切分,识别结果对分割起着决定性的作用,分割是识别的副产品9,分割结果依赖于识别分类器的性能13.图像预处理会给字符图像带来干扰或形变,引入新的误差.改进的
11、二值化、细线化、字符归一化、字符分割等图像预处理算法1517,能够减少预处理带来的字体变形等不利影响,但不能从根本上解决预处理带来的干扰.由于目前尚不能完全实现字符的正确分割,所以,对于基于分割的脱机手写体汉字识别,字符分割的精度直接决定后续汉字识别的精度,是手写体识别系统精度的瓶颈.文献18提出了一种无分割的手写体汉字识别方法,并通过实验证明了该方法的可行性.这种方法实质上是对文本进行行分割,再在行分割的基础上提取字符特征,而非精确到单个字符的分割.行分割相对字符分割简单,计算量小,引入误差更小.无分割脱机手写体汉字识别更符合人类识别字符的习惯,将是未来汉字手写体识别的新趋势.5 特征提取
12、手写体汉字识别特征提取方法可分为基于结构特征、统计特征和将结构特征和统计特征相融合的方法.5.1 结构特征结构特征是汉字识别研究初期的主流方法,需要先抽取结构基本单元,再由这些基本单元构成来描述汉字特征.结构特征比较直观,符合人们书写汉字的过程,能较好地反映汉字的结构特性;缺点是对结构基本单元提取困难,各结构元素之间的拓扑关系复杂,抗干扰性较差.同时,由于汉字的结构特征通常都要利用细化算法提取,不仅计算量大而且会出现形变问题,给汉字识别带来新的噪声影响.5.1.1 基于特征点特征点是反映汉字形体特征整体分布状况的关键点.通常对大多数结构稳定的汉字,一旦获得了正确的特征点集,就可能顺利地按一定的
13、策略和步骤(连接笔划、结构匹配等)将汉字形体划归为正确的字类.根据不同的研究思路,研究人员对特征点的定义也不尽相同。5.1.2 基于笔画一个汉字区分于其它汉字的主要特征就是笔画及其所在的位置,“横”、“竖”、“撇”、“捺”四种笔画的数量及其相对位置唯一地确定了一个汉字22.基于笔画的特征提取方法将字符分解成笔画,并根据笔画的数量、顺序和位置进行识别2326.“横”、“竖”、“撇”、“捺”是构成汉字的四种基本笔画,所占比重大,并且提取容易,因而在识别系统中常采用它们作为识别特征.5.1.3 基于部件部件是一个居于笔画和单字之间的中间层次,相当于西文的字母.把若干个部件按照一定规则加以组合就可构成
14、方块汉字.我国语言文字工作委员会对GB130001字符集中的20902个汉字逐个进行拆分、归纳与统计后,制定汉字基础部件表,共有560个可供独立使用的部件.这560种部件并不都适用于汉字识别,通常从中选用若干部件作为识别特征27.文献28提出的基于部件的汉字分解示意图,如图5所示.图中的4个汉字具有相同的3个部件,可根据最后一级分解部件来进行识别5.2 统计特征统计特征一般针对单个汉字,即整字(Holistic),提取方便,抗干扰能力强.文献5指出,汉字结构的复杂,在统计识别方法中,不仅不是缺点,而且使得汉字具有比其他西方文字具有更强的鉴别能力,不仅可以识别成千上万个超多类汉字,而且具有高抗干
15、扰和高鲁棒识别性能,这是结构分析方法无法达到的.统计特征的缺点是没有充分利用汉字的结构信息.本节针对脱机手写体汉字主流的统计特征方法进行介绍.5.2.1 弹性网格特征弹性网格特征(ElasticMesh,EM)用一种弹性网格将汉字图像分块,对每一块内的像素进行变换或者分析后产生特征向量2932.对字符进行弹性网络的划分能有效地反映汉字的结构细节和字符的共同特征,避免手写体汉字中因个人书写风格差异引起的字体变形和因数据采集、非线性变换等因素导致的样本变形等问题.但该方法各个块之间互不关联,不能体现汉字的整体结构信息.5.2.2 方向线素特征方向线素特征(DirectionalElementFea
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 脱机 手写体 汉字 识别 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。