自由手写体数字识别系统的设计和实现.doc
《自由手写体数字识别系统的设计和实现.doc》由会员分享,可在线阅读,更多相关《自由手写体数字识别系统的设计和实现.doc(10页珍藏版)》请在咨信网上搜索。
1、自由手写体数字识别系统设计和实现摘要:本文叙述并设计实现了一个脱机自由手写体数字识别系统。文中首先对待识别数字预处理进行了介绍,包含二值化、平滑滤波、规范化、细化等图像处理方法;其次,探讨了怎样提取数字字符结构特征和笔划特征,并具体地描述了知识库结构方法;最终采取了以知识库为基础模板匹配识别方法,并以MATLAB作为编程工具实现了含有友好图形用户界面自由手写体数字识别系统。试验结果表明,本方法含有较高识别率,并含有很好抗噪性能。关键词:手写体数字;预处理;模式识别;特征提取Abstrct: This paper describes and designs a free handwritten
2、number recognition system. Firstly,the pretreatment of the character to be recognized is introduced, including binarization, smoothing, normalization and thinning. Next, how to extract the structural features of the numbers is discussed, and we describe the constructing method of repository. Finally
3、, we use the method of template matching, based on repository, to recognize the digital number. Matlab is used as a program tool to realize this free handwritten digital recognition system with friendly graphical user interface. The experimental results show that the rate of the recognition system i
4、s high, and the proposed method is robust to noise.Keywords: handwritten number; pretreatment;pattern recognition; feature extraction 1 引言OCR(Optical Character Recognition)即光学字符识别技术,是经过扫描仪把印刷体或手写体文稿扫描成图像,然后识别成对应计算机可直接处理字符。OCR是模式识别一个分支,按字体分类关键分为印刷体识别和手写体识别两大类。对于印刷体识别又能够分成单一字体单一字号和多个字体多个字号几类。而手写体识别又可分
5、为受限手写体和不受限手写体两类;按识别方法可分为在线识别和脱机识别两类。字符识别处理信息可分为两大类:一类是文字信息,处理关键是用各国家、各民族文字(如:汉字,英文等)书写或印刷文本信息,现在在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,关键是由阿拉伯数字及少许特殊符号组成多种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息关键技术是手写数字识别。所以,手写数字识别研究有着重大现实意义,一旦研究成功并投入应用,将产生巨大社会和经济效益。在整个OCR领域中,最为困难就是脱机自由手写字符识别。到现在为止,尽管大家在脱机手写英文、汉字识别研
6、究中已取得很多可喜成就,但距离实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向多种实际应用推广,为手写数据高速自动输入提供了一个处理方案。本文首先介绍了自由手写体数字识别基础原理,包含数字图像预处理、特征提取和模式识别基础原理和方法;其次介绍了;最终经过基于MATLAB试验结果,对本系统性能进行了分析。2 手写体数字识别基础原理本系统关键由手写体数字识别训练过程和识别过程组成,训练过程和识别过程均包含预处理、特征提取和模式识别三部分。系统组成图2.1所表示。识别过程训练过程 数据采集,预处理特征提取和选择分类识别 数据采集,预处理分类识别改善数据采集,预处理
7、改善分类识别待识对象训练样本人工干预特征提取和选择改善特征提取和选择正确率测试图2.1 系统步骤图下面分别介绍各部分工作基础原理。2.1 预处理预处理关键由二值化,平滑去噪,规范化,细化等组成。本文采取了基于阈值二值化算法,经过最大类间方差法即OTSU方法,统计图像灰度直方图选择全局阈值,然后进行二值化处理。其次,在二值化后利用均值滤波方法消除孤立点、线噪声,这么图中就只剩下手写体数字。在滤波中本文采取是3*3大小模板。平滑去噪后,对图像进行规范化处理。找出图像中数字边界,然后提取出数字把它居中放置在正方形方框中,再对此正方形图像进行线性插值缩放,使它变为统一规格大小图像,本文中归一化图像大小
8、是36*36。在提取特征之前,要对手写体数字进行细化。本文是采取基于数学形态学细化算法。细化可用两步腐蚀来实现:第一步是正常腐蚀,但它是有条件,也就是说,那些被标为可除去像素点并不立即消去;在第二步中,只将那些消除后并不破坏连通性点消除,不然保留。以上每一步全部是一个3*3邻域运算。细化是将一个曲线性数字细化为一条单像素宽线,从而图形化地显示出其拓扑性质。数字图像预处理前后效果比较以下图所表示。图2.2为数字“5”原始图像,图2.3为对图2.2预处理后结果图。类似地,图2.4为数字“6”原始图像,图2.5为对图2.4预处理后结果图。图2.2 原始图像图2.3 预处理后图像图2.4 原始图像 图
9、2.5 预处理后图像2.2 特征提取特征提取目标是从原始数据中抽取出用于区分不一样类型本质特征。不管是识别过程还是学习过程,全部要对研究对象固有、本质关键特征或属性进行量测并将结果数值化,形成特征矢量。通常能描述对象元素很多,为了节省资源,节省计算机存放空间、处理时间、特征提取费用,有时更是为了可行性,在确保满足分类识别正确率要求条件下,按某种准则尽可能选择对正确分类识别作用较大特征,使得用较少特征就能完成份类识别任务。这项工作表现为降低特征矢量维数或符号字符数。在本系统中采取对待识别数字图像进行行列扫描和数字起点结合方法提取特征。2.2.1 结构特征提取首先对经预处理后图像进行分割,图2.6
10、所表示。图2.6 图像分割对图像分割后,结构特征提取算法以下:(1) 对细化后数字图像取竖直三条直线,分别取在5/12,1/2,7/12处,记下这三条竖直直线和数字笔段交点数。(2) 再取水平三条直线,分别取在1/3,1/2,2/3处, 分别记下这三条水平直线和数字笔段交点数。(3) 再取对角两条直线, 分别记下这两条对角直线和数字笔段交点数。2.2.2 笔划特征提取经细化后数字图像其特征较为稳定,且笔划简单,所以对其抽取基础结构组件能反应数字本质特征,从而可快速有效地识别数字符,并达成很好分类效果。数字端点图2.7所表示。提取笔划特征算法以下:(1) 按从上到下,从左到右次序扫描预处理后图像
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自由 手写体 数字 识别 系统 设计 实现
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。