手写数字识别技术的应用.doc
《手写数字识别技术的应用.doc》由会员分享,可在线阅读,更多相关《手写数字识别技术的应用.doc(9页珍藏版)》请在咨信网上搜索。
1、(完整版)手写数字识别技术的应用手写数字识别技术的应用林晓帆 丁晓青 吴佑寿 手写数字识别(handwritten numeral recognition)是光学字符识别技术(optical character recognition,简称ocr)的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。在整个ocr领域中,最为困难的就是脱机手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距实用还有一定距离.而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提供了一种解决
2、方案。一、研究的实际背景字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别.这几年来我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入,如果能通过手写数字识别技术实现信息的自动录入,无疑会促进这一事业的进展。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社
3、会和经济效益。二、研究的理论意义手写数字识别作为模式识别领域的一个重要问题,也有着重要的理论价值:1阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基本上与文化背景无关,这样就为各国,各地区的研究工作者提供了一个施展才智的大舞台。在这一领域大家可以探讨,比较各种研究方法。2由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。这方面最明显的例子就是人工神经网络(ann)相当一部分的ann模型和算法都以手写数字识别作为具体的实验平台,验证理论的有效性,评价各种方法的优缺点.3尽管人们对手写数字的识别已从事了很长时间的研究,并已取得了很多成果,但到目前为止机器的识别本领还无法与
4、人的认知能力相比,这仍是一个有难度的开放问题(openproblem).4手写数字的识别方法很容易推广到其它一些相关问题一个直接的应用是对英文这样的拼音文字的识别。事实上,很多学者就是把数字和英文字母的识别放在一块儿研究的。三、研究的难度数字的类别只有十种,笔划又简单,其识别问题似乎不是很困难。但事实上,一些测试结果表明,数字的正确识别率并不如印刷体汉字识别正确率高,甚至也不如联机手写体汉字识别率高,而只仅仅优于脱机手写体汉字识别。这其中主要原因是:第-,数字的字形信息量很小,不同数字写法和字形相差不大,使得准确区分某些数字相当困难;第二,数字虽然只有十种,而且笔划简单,但同一数字写法千差万别
5、,全世界各个国家各个地区的人都用,其书写上带有明显的区域特性,很难完全做到兼顾世界各种写法的极高识别率的通用性数字识别系统。另外,在实际应用中,对数字识别单字识别正确率的要求要比文字要苛刻得多。这是因为,数字没有上下文关系,每个单字的识别都事关重要,而且数字识别经常涉及的财会、金融领域其严格性更是不言而喻的。因此,用户的要求不是单纯的高正确率,更重要的是极低的、千分之一甚至万分之一以下的误识率。此外,大批量数据处理对系统速度又有相当的要求,许多理论上很完美但速度过低的方法是行不通的.因此,研究高性能的手写数字识别算法是一个有相当的挑战性的任务.四、学习和测试样本库的选择正如前一部分提到的,手写
6、数字的写法带有明显的地区性和民族性,因而选择一个可供系统训练和测试使用的样本库是手写数字识别研究的重要基础之一,对识别系统的性能也有重要的影响。研究者对所需的样本库有两种选择:一是自己根据需要建立专门的样本库,二是选用其它机构做好的现成的样本库。前者的优点是帖近自己的应用,缺点也是明显的:要费相当的精力且代表性很难保证,与其它人的结果不好比较。因此,现在的趋势是使用有权威性的通用样本库。目前,比较有代表性的、样本数量较大的手写数字样本库有:(1)nist数据库,由美国国家标准与技术局收集;(2)cedar数据库,是由纽约州立大学buffalo分校计算机科学系文本分析与识别中完成的邮政编码的样本
7、库;(3)etl数据库,由日本电工技术研究所收集;(4)itpt数据库,由日本邮电通信政策研究所收集。五、识别系统性能的评价作为一个识别系统,我们最终要用某些参数来评价其性能的高低,手写数字识别也不例外。评价的指标除了借用一般文字识别里的通常做法外,还要根据数字识别的特点进行修改和补充。对一个手写数字识别系统,可以用三方面的指标表征系统的性能:正确识别率a正确识别样本数全部样本数100替代率(误识率)s误识样本数全部样本数100拒识率r拒识样本数全部样本数100%三者的关系是:asr100数字识别的应用中,人们往往很关心的一个指标是“识别精度”,即:在所有识别的字符中,除去拒识字符,正确识别的
8、比例有多大,我们定义:识别精度pa(as)100。一个理想的系统应是r,s尽量小,而p,a尽可能大。而在一个实际系统中,s,r是相互制约的,拒识率r的提高总伴随着误识率s的下降,与此同时识别率a和识别精度p的提高。因此,在评价手写数字识别系统系统时,我们必须综合考虑这几个指标。另外,由于手写数字的书写风格、工整程度可以有相当大的差别,因此必须弄清一个指标在怎样的样本集合下获得的。以上多种因素使得不同系统的性能很难做绝对比较,根据作者从文献中所看到的和在科研实践中的体会,可以认为目前手写数字识别研究的较高水平是:对自由书写的数字,在不拒识时达到96%以上的识别率;在拒识少于15的样本时,误识率能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 手写 数字 识别 技术 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。