手写体数字识别系统大学本科毕业论文.doc
《手写体数字识别系统大学本科毕业论文.doc》由会员分享,可在线阅读,更多相关《手写体数字识别系统大学本科毕业论文.doc(40页珍藏版)》请在咨信网上搜索。
1、摘要石河子大学信息科学与技术学院毕业论文课题名称:手写体数字识别系统设计学生姓名:学 号:学 院:信息科学与技术学院专业年级:电子信息工程2007级指导教师:职 称:完成日期:二一一年六月十一日 - I-摘要手写体数字识别系统设计学生: 指导教师: 摘要 随着科学技术的迅速发展,在邮政编码、统计报表、财务报表、银行票据等处理大量字符信息录入的场合,手写数字识别系统的应用需求越来越强烈,如何将数字方便、快速地输入到计算机中已成为关系到计算机技术普及的关键问题。本文设计实现了一个基于Matlab软件的手写体数字识别系统,采用模块化设计方法,编写了摄像头输入、直接读取图片、写字板输入三个模块,利用摄
2、像头等工具,将以文本形式存在的手写体数字输入进计算机,完成对手写体数字图片的采集,并设计了一种手写数字识别方法,对手写体数字图像进行预处理、结构特征提取、分类识别,最终以文本形式输出数字,从而实现手写体数字的识别。关键词 预处理,结构特征提取,分类识别,手写体数字识别33Handwritten Digit Recognition SystemStudents:Teacher:Abstract: With the rapid development of science and technology, in zip code, statistics, reports, financial sta
3、tements, Bank bills dealing with a large number of characters, such as information recorded occasions, handwritten digit recognition system of requirement has become stronger and stronger, how easily and quickly the number entered in the computer has become a key issue relates to the popularization
4、of computer technology. This article design implementation has a based on Matlab software of handwriting body digital recognition system, used module of design method, write has camera entered, and directly read pictures, and write Board entered three a module, using camera, tools, will to text form
5、 exists of handwriting body digital entered into computer, completed on handwriting body digital pictures of collection, and design has a handwriting digital recognition method, on handwriting body digital image for pretreatment, and structure features extraction, and classification recognition, eve
6、ntually to text form output digital, to implementation handwriting body digital of recognition.Key words: Pretreatment, structure feature extraction, classification and recognition, handwritten digit recognition.目录目 录第一章 引言11.1 课题背景11.2 课题研究目的及意义11.2.1 手写体数字识别的研究目的11.2.2 手写体数字识别的研究意义21.3 课题研究现状及发展趋势
7、21.4 课题整体结构31.5 课题难点分析4第二章 开发运行环境52.1系统开发环境和运行环境52.2开发工具介绍52.2.1 硬件部分介绍52.2.2 软件部分介绍6第三章 手写体数字识别系统构成及原理83.1 图像处理基础知识83.2手写体数字识别系统构成103.3手写体数字识别系统原理103.3.1预处理103.3.2图像分割143.3.3特征提取143.3.4分类识别15第四章 手写体数字识别系统设计分析164.1 程序主界面164.2 基准库的选择与建立184.3 手写体数字识别系统设计194.3.1摄像头输入模块的设计194.3.2直接读图模块的设计204.3.3写字板输入模块的
8、设计22第五章 系统性能评价及实验结果分析255.1 识别系统性能的评价255.2 实验结果分析25第六章 结论276.1 毕业设计总结276.2 课题前景与展望27致 谢29参考文献30附 录31附1、识别部分主程序31附2、创建模板部分函数32附3、切割图片部分函数33附4、输出图片部分函数34第一章 引言第一章 引言1.1 课题背景数字已有数千年的历史,在世界上使用很广,然而,在当今社会里,如何快速高效地将数字输入计算机,已成为影响人机接口效率的一个重要瓶颈,也关系到计算机能否真正在我国得到普及应用1。手写数字识别是光学字符识别技术(Optical Character Recogniti
9、on,简称OCR)的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。在整个OCR领域中,最为困难的就是脱机手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提供了一种解决方案2。字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并且推出了很多应用系统;另一类是数据信息,主要是由阿拉伯
10、数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。这几年来我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入,如果能通过手写数字识别技术实现信息的自动录入,无疑会促进这一事业的进展。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益3。1.2 课题研究目的及意义1.2.1 手写体数字识别的研究目的手写数字识别在学科上属于模式识别和人工智能的范畴。在过去的四十年中,人们想出了很多办法获取手写字符的关键特征。这些手段分两大类:全局分析和结构分析。对前者,我们可以使
11、用模板匹配、象素密度、矩、特征点、数学变换等技术。对后者,多半需要从字符的轮廓或骨架上提取字符形状的基本特征,包括:圈、端点、节点、弧、突起、凹陷、笔画等4。多年的研究实践表明,对于完全没有限制的手写数字,几乎可以肯定:没有一种简单的方案能达到很高的识别率和识别精度。因此,最近这方面的努力向着更为成熟、复杂、综合的方向发展。本课题通过对手写体数字识别系统的研究,介绍了一种手写数字识别核心算法。即基于数字的结构,利用模板匹配、象素密度、矩、特征点、数学变换等技术获取手写体数字的关键特征,提出一种具体识别数字的方法,利用我们所掌握的电子信息工程的专业知识来实现,进而完成手写体数字识别系统的设计。1
12、.2.2 手写体数字识别的研究意义手写数字识别研究价值意义在于自然人机交互领域,提高人机交互的自然性和友好性。在于数字信息自动处理领域,节省人力,提高效率,加快信息流动,创造巨大的经济效益5。手写数字识别的理论价值如下6:(1)阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基本上与文化背景无关,这样就为各国,各地区的研究工作者提供了一个施展才智的大舞台。在这一领域大家可以探讨,比较各种研究方法。(2)由于数字识别的类别数较小,有助于做深入分析及验证一些新的理论。(3)尽管人们对手写数字的识别已从事了很长时间的研究,并已取得了很多成果,但到目前为止机器的识别本领还无法与人的认知能力
13、相比,这仍是一个有难度的开放问题。(4)手写数字的识别方法很容易推广到其它一些相关问题,一个直接的应用是对英文这样的拼音文字的识别。事实上,很多学者就是把数字和英文字母的识别放在一块儿研究的。1.3 课题研究现状及发展趋势手写数字识别有着重要的价值,IBM、HP、日立、东芝、夏普、NEC、理光和新加坡热卡公司等国外公司都曾巨额投入手写数字识别领域。而随着国家信息化进程的加速,手写数字识别的应用需求越来越广泛,应用系统的性能的关键与瓶颈在于手写数字识别核心算法性能上,最终目标是研究零误识率和低拒识率的高速识别算法。此外,尽早建立反映中国人书写习惯的、具有国家标准性质的手写数字样本库也是当务之急。
14、在大规模的数据统计(如:行业年检、人口普查等)中,需要输入大量的数据,以前完全要手工输入,需耗费大量的人力和物力。近年来在这类工作中采用手写识别技术已成为一种趋势。因为数据的录入是集中组织的,所以往往可以通过专门设计表格和对书写施加限制以便于机器的自动识别。目前国内的大多数实用系统都要求用户按指定规范在方格内填写。另外,这些系统往往采用合适的用户界面对识别结果做全面的检查,最终保证结果正确无误。可以看出,这种应用对识别核心算法的要求比较低,是目前国内很多单位应用开发的热点7。财务、税务、金融是手写数字识别大有可为的又一领域。随着我国经济的迅速发展,每天等待处理的财务、税务报表、支票、付款单等越
15、来越多。如果能把它们用计算机自动处理,无疑可以节约大量的时间、金钱和劳力。与上面提到的统计报表处理相比,在这个领域的应用难度更大,因为对识别的精度要求更高,处理的表格种类更多等,这样对识别及预处理的核心算法要求也提高了。手写数字识别在邮件分拣中的应用也十分广泛,随着人们生活水平的提高,经济活动的发展,通信联系的需求使信函的互换量大幅度增加,我国函件业务量也在不断增长,一些大城市的中心邮局每天处理量将高达上千万件,业务量的急剧上升使得邮件的分拣自动化成为大势所趋。在邮件的自动分拣中,手写数字识别往往与光学条码识别(OBR-Optical Bar Reading),人工辅助识别等手段相结合,完成邮
16、政编码的阅读。这就需要分拣机有一定的性能指标,差错率要越小越好。1.4 课题整体结构我们的思路是利用Matlab软件建立一个手写体数字识别系统,利用三种方法实现图像输入的功能,然后对输入的图像进行预处理,分割,结构特征提取,分类识别等操作,最终识别出图像上的数字,如图1-1。导入图片边缘提取Freeman编码关键点特征提取参数测量计算面积图1-1 识别的基本思路框架图1.5 课题难点分析数字的类别只有十种,笔划又简单,其识别问题似乎不是很困难。但事实上,一些测试结果表明,数字的正确识别率并不如印刷体汉字识别正确率高,甚至也不如联机手写体汉字识别率高,而只仅仅优于脱机手写体汉字识别。这其中主要原
17、因是:数字的字形信息量很小,不同数字写法相近,字形相差不大,使得准确区分某些数字相当困难;第二,数字虽然只有十种,而且笔划简单,但同一数字写法千差万别,全世界各个国家各个地区的人都用,其书写上带有明显的区域特性,很难完全做到兼顾世界各种写法的极高识别率的通用性数字识别系统。另外,在实际应用中,对数字识别单字识别正确率的要求要比文字要苛刻得多。这是因为,数字没有上下文关系,每个单字的识别都事关重要,而且数字识别经常涉及的财会、金融领域其严格性更是不言而喻的。因此,用户的要求不是单纯的高正确率,更重要的是极低的、千分之一甚至万分之一以下的误识率。此外,大批量数据处理对系统速度又有相当的要求,许多理
18、论上很完美但速度过低的方法是行不通的。因此,研究高性能的手写数字识别算法是一个有相当的挑战性的任务8。第二章 开发运行环境第二章 开发运行环境2.1系统开发环境和运行环境硬件环境:(1) 计算机一台。(2) 摄像头一个。软件环境:(1)Windows XP 操作系统。(2)Matlab软件。2.2开发工具介绍2.2.1 硬件部分介绍本课题中,我们所用到的硬件有摄像头,摄像头(CAMERA)又称为电脑相机,电脑眼等,是一种视频输入设备,被广泛的运用于视频会议,远程医疗及实时监控等方面。普通人也可以彼此通过摄像头在网络进行有影像、有声音的交谈和沟通。另外,人们还可以将其用于当前各种流行的数码影像,
19、影音处理9。在本实验中,我们主要用它来进行手写体数字图像的输入,即图像的采集部分。摄像头分为模拟摄像头和数字摄像头两大类。模拟摄像头捕捉到的视频信号必须经过特定的视频捕捉卡将模拟信号转换成数字模式,并加以压缩后才可以转换到计算机上运用。数字摄像头则可以直接捕捉影像,然后通过串、并口或者USB接口传到计算机里。由于个人电脑的迅速普及,模拟摄像头的整体成本较高等原因,现在电脑市场上的摄像头基本以数字摄像头为主,而数字摄像头中又以使用新型数据传输接口的USB数字摄像头为主。在本实验中,我们就选择使用了USB数字摄像头。这种摄像头的工作原理大致为:景物通过镜头(LENS)生成的光学图像投射到图像传感器
20、表面上,然后转为电信号,经过A/D(模数转换)转换后变为数字图像信号,再送到数字信号处理芯片(DSP)中加工处理,再通过USB接口传输到电脑中处理,通过显示器就可以看到图像10。图像解析度(Resolution)又名传感器像素,是衡量摄像头的一个重要指标之一,摄像头的像素越高,它的解析图像的能力也越强,拍摄出来的图像品质就越好,我们选择的这种USB数字摄像头的像素并不是特别高,只能勉强实现我们对实验的要求,如果想进一步提高识别率,一个更高像素的摄像头可能对此有所帮助。另外,视频捕获能力也是用户最为关心的功能之一,目前摄像头的视频捕获都是通过软件来实现的,在本实验中,我们设置了根据秒数来自动截取
21、图片,这对电脑的要求非常高,即CPU的处理能力要足够的快,其次对画面也有要求,不同大小最大分辨率下的画面,捕获能力也不尽相同,我们选择的这种USB数字摄像头的捕获能力一般,勉强能够实现我们对实验的要求,如果想要更高的识别率,可以选择更好些的摄像头甚至是工控摄像头。2.2.2 软件部分介绍本课题中,我们所用到的软件是Matlab,Matlab是MATrix LABoratory的缩写,它是一种科学计算软件,专门以矩阵的形式处理数据。Matlab将高性能的数值计算和可视化集成在一起,并提供了大量的内置函数,从而被广泛地应用于科学计算、控制系统、信息处理等领域的分析、仿真和设计工作,而且利用Matl
22、ab产品的开放式结构,可以非常容易地对Matlab的功能进行扩充,从而在不断深化对问题认识的同时,完善Matlab产品以提高产品自身的竞争力11。Matlab被称作为第四代计算机语言,最大的特点就是简洁,利用其丰富的函数资源,更符合人们思维习惯的代码,带来直观的程序开发环境。Matlab的主要特色如下12:(1)语言简洁紧凑,使用方便灵活,库函数极其丰富;(2)运算符丰富;(3)既具有结构化的控制语句(如for循环、while循环、break语句和if语句),又有面向对象编程的特性;(4)语法限制不严格,程序设计自由度大;(5)程序的可移植性很好,基本上不做修改就可以在各种型号的计算机和操作系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 手写体 数字 识别 系统 大学本科 毕业论文
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。