基于matlab的语音识别系统的设计本科毕设毕业论文.doc
《基于matlab的语音识别系统的设计本科毕设毕业论文.doc》由会员分享,可在线阅读,更多相关《基于matlab的语音识别系统的设计本科毕设毕业论文.doc(49页珍藏版)》请在咨信网上搜索。
1、河南理工大学毕业设计(论文)说明书摘 要语音识别主要是让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息执行人的各种意图。语音识别技术既是国际竞争的一项重要技术,也是每一个国家经济发展不可缺少的重要技术支撑。本文基于语音信号产生的数学模型,从时域、频域出发对语音信号进行分析,论述了语音识别的基本理论。在此基础上讨论了语音识别的五种算法:动态时间伸缩算法(Dynamic Time Warping,DTW)、基于规则的人工智能方法、人工神经网络(Artificial Neural Network,ANN)方法、隐马尔可夫(Hidden Markov Model,HMM)方法
2、、HMM和ANN的混合模型。重点是从理论上研究隐马尔可夫(HMM)模型算法,对经典的HMM模型算法进行改进。语音识别算法有多种实现方案,本文采取的方法是利用Matlab强大的数学运算能力,实现孤立语音信号的识别。Matlab 是一款功能强大的数学软件,它附带大量的信号处理工具箱为信号分析研究,特别是文中主要探讨的声波分析研究带来极大便利。本文应用隐马尔科夫模型(HMM) 为识别算法,采用MFCC(MEL频率倒谱系数)为主要语音特征参数,建立了一个汉语数字语音识别系统,其中包括语音信号的预处理、特征参数的提取、识别模板的训练、识别匹配算法;同时,提出利用Matlab图形用户界面开发环境设计语音识
3、别系统界面,设计简单,使用方便,系统界面友好。经过统计,识别效果明显达到了预期目标。关键词:语音识别算法;HMM模型;Matlab;GUIABSTRACTSpeech Recognition is designed to allow machines to understand what people say,and accurately identify the contents of voice to execute the intent of people.Speech recognition technology is not only an important internation
4、ally competed technology,but also an indispensable foundational technology for the national economic development.Based on the mathematical model from the speech signal,this paper analyze audio signal from the time domain,frequency domain proceeding,and discussed the basic theory of speech recognitio
5、n technology.Five algorithm are discussed:Dynamic Time Warping(DTW)、Rule-based Artificial Intelligence,Artificial Neural Network(ANN),Hidden Markov Model(HMM),HMM combined with ANN.The focus is put in the theoretical studies of Hidden Markov(HMM) model algorithm,and the classical HMM algorithm is im
6、proved.Speech recognition algorithm is realized in various programs,this article taking the method is to use Matlab powerful mathematical operation ability to realize the recognition of speech signal isolation. Matlab is a powerful mathematic software with a mass of toolboxes dealing with signal pro
7、cessing. It gives a terrific shortcut to the research of signal processing,especially the wave analysis. We can characterize the sound with key parameters such as intensity, frequency etc. In this paper, hidden Markov model (HMM) recognition algorithm using MFCC (MEL frequency cepstral coefficients)
8、 as the main voice characteristic parameters, the establishment of a Chinese digital speech recognition system, including the preprocessing of the speech signal,the extraction of characteristic parameters the training of the recognition template,identifying matching algorithm;the same time,the use o
9、f Matlab graphical user interface development environment designed speech recognition system interface,is designed to be simple,easy to use,friendly interface. Besides,to have a simple exploration of the voice recognition is another target.After statistics,recognition result obviously is made out as
10、 the expected goal.Key words:Speech recognition algorithm;HMM model;Matlab;GUI45目录一、前言11.1语音识别的发展历史11.2语音识别研究现状11.3语音识别系统的分类21.4语音识别系统的基本构成31.5语音识别技术难点31.6语音识别发展前景4二、语音信号分析42.1语音学知识42.1.1音素和音节52.1.2汉语的声调52.1.3语音信号产生模型62.2语音信号数字化和预处理72.2.1数字化72.2.2预加重处理72.2.3防混叠滤波82.2.4加窗处理82.3语音信号的时域分析92.3.1短时能量分析92
11、.3.2短时平均过零率112.3.3短时自相关函数和短时平均幅度差函数122.3.4语音端点检测132.4语音信号的频域分析142.4.1滤波器组法142.4.2傅立叶频谱分析142.5特征参数提取152.5.1 LPCC倒谱系数152.5.2 Mel频率倒谱系数16三、语音识别主要算法173.1动态时间伸缩算法173.2基于规则的人工智能方法183.3人工神经网络方法193.4隐马尔可夫方法203.5 HMM和ANN的混合模型21四、隐含马尔可夫模型算法234.1 HMM的基本理论和数学描述234.2 HMM的三个基本问题及解决算法244.3 HMM算法的改进314.4 HMM的结构和类型3
12、34.5 HMM算法实现的问题34五、基于Matlab环境下的语音识别算法实现355.1识别系统平台介绍355.2在Matlab中HMM算法的实现365.2.1端点检测365.2.2特征参数提取365.2.3训练和识别375.3实验结论分析38六、结束语396.1回顾396.2展望39七、致谢40参考文献40河南理工大学毕业设计(论文)说明书一、前言1.1语音识别的发展历史作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛,有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统
13、、声控智能玩具、医疗服务、银行服务、股票查询服务、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服务、翻译系统等,几乎深入到社会的每个行业、每个方面,其应用和经济社会效益前景非常广泛。因此语音识别技术既是国际竞争的一项重要技术,也是每一个国家经济发展不可缺少的重要技术支撑。研究语音识别,开发相应的产品有着广泛的社会意义和经济意义。语音识别中的说话人辨认的研究始于20世纪30年代。早期的工作主要集中在人耳听辨试验和探讨听音识别的可能性方面。Bell实验室的LGKesta目视观察语谱图进行识别,提出了“声纹(Voiceprint)”的概念。Bell实验室的SPruzansky提出了模
14、版匹配和概率统计方差分析的声纹识别方法,形成了声纹识别研究的一个高潮。60年代末和70年代初语音识别最重要的发展是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音的特征提取和时间不等长匹配问题,对特定人的语音识别十分有效。研究特点是以孤立字语音识别为主,通常把孤立字作为一个整体来建立模板。80年代,语音识别研究的重点之一是连接词语音识别,开发了各种连接词语音识别和关键词识别算法,如多级动态规划语音识别算法。另一个重要发展是语音识别算法从模板匹配技术转向基于统计模型技术。1.2语音识别研究现状20世纪90年代后,在细化模型的设计、参数提取和优化,以及系统的自适应技
15、术上取得了一些关键进展。语音识别技术进一步成熟,并开始向市场提供产品。由于中国的国际地位不断提高,以及在经济和市场方面所处的重要地位,汉语语音识别也越来越受到重视。IBM、Microsoft、L&H等公司相继投入到汉语语音识别系统的开发中,其投资也逐年增加。IBM开发的Viavoice和Microsoft开发的中文识别引擎代表了当前汉语语音识别的最高水平。台湾的一些大学和研究所也开发出大词汇量非特定人连续语音识别演示系统。日本也先后在语音识别领域大展头角,还有如Philips公司开发的SpeechMedia和Speech Pearl两套软件,涵盖了自然语音识别与理解的对话系统。我国语音识别研究
16、工作近年来发展很快,同时也从实验室逐步走向实用。从1987年开始执行863计划后,国家863智能计算机主题专家组为语音识别研究立项。每两年滚动一次,从1991年开始,专家组每一至二年举行一次全国性的语音识别系统测试。汉语语音识别研究已经走上组织化的道路。目前我国大词汇量连续语音识别系统的研究已经接近国外最高水平。语音识别发展到一定阶段,世界各国都加快了语音识别引用系统的研究开发,通常连续语音是含有较完整语法信息的连续语句,最接近于人的自然讲话方式,从非连续语音到连续语音的研究面临着很多完全不同的技术难点,非连续语音的识别是一些孤立的声波片段,连续语音则面临着如何切分声波的问题。诸如此类的新问题
17、使连续语音识别率的提高比非连续语音更加困难。经过几十年的发展和摸索,人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性一起集中于一个系统中,并以此确定了统计方法和模型在语音识别和语音处理中的主流地位。在声学识别层次,以多个说话人发音的大规模语音数据为基础,以马尔可夫链为基础的语音序列建模方法HMM(隐含马尔可夫模型)比较有效的解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。目前在语音识别研究领域非常活跃的课题为稳健语音识别、说话人自适应技术、大词汇量关键词识别算法、语音识别的可信度评测
18、算法、基于类的语言模型和自适应语言模型,以及深层次的自然语音的理解。研究的方向也越来越侧重于口语对话系统。1.3语音识别系统的分类语音识别是近年来十分活跃的一个研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。本文介绍了语音识别的基本流程、所用到的语音参数算法、语音识别的训练算法和识别算法做初步的探究,主要运用了特定人孤立词识别的DTW算法和非特定人识别的连续HMM算法的Matlab识别系统。语音识别按说话人的讲话方式可分为孤立词(Isolated Word)识别、连接词(Connected Wo
19、rd)识别和连续语音(Continuous Speech)识别。孤立词识别是指说话人每次只说一个词或短语,每个词或短语在词汇表中都算作一个词条,一般用在语音电话拨号系统中。连接词语音识别支持一个小的语法网络,其内部形成一个状态机,可以实现简单的家用电器的控制,而复杂的连接词语音识别系统可以用于电话语音查询、航空定票等系统。连续语音识别是指对说话人以日常自然的方式发音,通常特指用于语音录入的听写机。显然,连续非特定人语音识别的难度要大得多,因为不仅有说话人口音的问题,还有协同发音、断字断句、搜索等问题,除了考虑语音的声学模型外还要涉及到语言模型,如构词法、文法等。从识别对象的类型来看,语音识别可
20、以分为特定人(Speaker Dependent)语音识别和非特定人(Speaker Independent)语音识别。特定人是指只针对一个用户的语音识别,非特定人则可用于不同的用户。实际上,非特定人语音识别的初始识别率往往都比较低,一般都要求用户花一定的时间对系统进行训练,将系统的参数进行一定的自适应调整,才能使识别率达到满意的程度。非特定人大词表连续语音识别是近几年研究的重点,也是研究的难点。目前的连续语音识别大多是基于HMM(隐马尔可夫模型)框架,并将声学、语言学的知识统一引入来改善这个框架,其硬件平台通常是功能强大的工作站或PC机。1.4语音识别系统的基本构成语音识别系统的典型实现方案
21、为:输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。语音信号经预处理后,接下来很重要的一环就是特征参数提取。对特征参数的要求是:1,提取的特征参数能有效地代表语音特征,具有很好的区分性。2,各阶参数之间有良好的独立性。3,特征参数要计算方便,最好有高效的计算方法,以保证语音识别的实时实现。在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模版库。在识别阶段,语音喜好经过相同的通道得到语音参数,生成测试模版,与参考模版进行匹配,将匹配分数最高的参考模版作为识别结果。同时还可以在很多先验知识的帮助下,提高识别的准确率。1.5语音识别技术难
22、点虽然语音识别已突破了最初对技术的检验阶段,而进入通过对话及系统形象的设计,建立用户喜爱的应用系统时期。然而语音技术本身仍在不断进步,为市场提供更新更好的应用模式和技术。目前,技术及应用的焦点主要集中在三个方面。首先,带口音(Dialect)语音的识别。首先要明确的是,口音是指同一种语言在不同地区的发音有所不同,与同一地区(例如中国)的不同方言是有区别的。例如,中国的八大方言多属于与普通话(北方语系)不同的语系。也就是说是有别于普通话的不同的语言,应该用不同的声学模型来描述。而对于口音的适应性首先是由声学模型本身的品质决定的。对某一种口音,语言的声学模型的适应性决定了基础识别率,而在此基础上的
23、优化和模型适应方案则提供了很好的解决方案。例如Nuance公司,作为拥有最大市场和最多用户的公司,也拥有最多的用户语音数据,保证了它极高的基础识别率。此外,该公司的系统优化工具为所有系统提供一个实用、有效的优化方法。优化过程对所有系统的表现都会有提高,也可以解决小范围的口音问题。而针对严重的口音问题,它的声学模型适应机制提供了很好的解决方案,可以使系统的识别率有很大改善。焦点之二是背景噪音。人多的公共场所巨大的噪音对语音识别的影响自不用说,早期即使在实验室环境下,敲击键盘、挪动麦克风都会成为背景噪音。它将破坏原始语音的频谱,或者把原始语音部分或全部掩盖掉,造成识别率下降。实际应用中,噪音是无法
24、避免的。研究将要解决的问题就是如何把原始语音从背景噪音中分离出来,即所谓提高音质(speech enhancement)或减噪(noise reduction)的预处理。这将会使识别系统具有很强的适应性。在这方面,Nuance优化的语音参数、灵活的模型结构、新的建模方法以及独有的噪音抑制功能,使得系统在背景环境噪声、手机、车载免提等高噪音环境下能保持良好的工作状况。第三个就是“口语”的问题。这就是用户说话的自由度问题。它既涉及到自然语言理解,又与声学有关。语音识别技术的最终目的是要让用户在“人机对话”的时候,能够像进行“人人对话”一样自然。而一旦用户以跟人交谈的方式来进行语音输入时,口语的语法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 matlab 语音 识别 系统 设计 本科 毕业论文
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。