基于虚拟仪器的语音识别-算法研究-毕业论文.doc
《基于虚拟仪器的语音识别-算法研究-毕业论文.doc》由会员分享,可在线阅读,更多相关《基于虚拟仪器的语音识别-算法研究-毕业论文.doc(52页珍藏版)》请在咨信网上搜索。
****大学 本科生毕业设计说明书(毕业论文) 题 目:基于虚拟仪器的语音识别 算法研究 学生姓名:** 学 号:******* 专 业:******* 班 级:******* 指导教师:***** 45 基于虚拟仪器的语音识别算法研究 摘 要 随着信息技术的快速发展,智能人机交互通信逐渐渗透到人们的日常生活之中,在许多电器的控制面板中,都加入了利用声音信息进行的人机交互功能,其中多数都具备语音提示的功能,这就使人机交互的效率得到了更大的提高。 本次设计将虚拟仪器技术用于语音识别系统,实现了仪器的软件化,真正体现了“软件就是仪器”的思想。利用笔记本自带的声卡进行语音信号的采集,接着对语音信号进行数字化的转换后再做进一步的处理。利用MATLAB中的小波工具包对采集到的语音信号进行小波消噪处理,并借助 LABVIEW 中提供的Script Node 子VI连接主流算法即仿真分析软件MATLAB ,充分发挥 MATLAB 强大的数据处理能力,虽然 LABVIEW中提供了一些信息处理功能函数,但其毕竟功能有限,仍然无法满足部分用户对数值进行各种各样的计算和分析的需求。而 MATLAB 尤其擅长数值分析和图像处理。在这里我们利用MATLAB 中的小波工具包,实现了利用小波的方法对含有杂声的语音信号进行噪声消除的工作。由于小波具有多尺度,多分辨的特点,应用小波进行信号消噪处理是小波分析的一项重要应用。 文中首先介绍了语音识别技术的基本原理,分析了经常使用的线性预测倒谱系数和美尔频率倒谱系数,并选定美尔频率倒谱系数作为本系统中采用的语音特征参数;其次系统能够实现语音信号的自动采集;然后针对语音特征参数提取,结合 LABVIEW的编程特点,利用多线程对特征参数进行提取并运算,将计算时间缩短了 1/4;最后在分析语音识别系统主要需求的基础上,对识别系统的软硬件进行了设计,并对语音信号做噪声消除以及预处理后进行特征提取,利用不同语音独特的特征和模式匹配算法,实现说话人语音信号的最终识别。 关键词 :语音识别;LABVIEW;声卡;小波消噪;特征提取 The speech recognition algorithm based on virtual instrument Abstract With the rapid development of technology, intelligent human and machine interfaces are used in appliances in people's normal life. Currently, a lot of appliances have the function that can give warning messages to the user in sound which improves the efficiency of human and machine interaction. This design is a use of virtual instrument and do speech recognition system design. Will the virtual instrument technology used in speech recognition system, realized the instrument of the software, and reflect the "software is instrument" thought. Use notes itself with sound card for voice signal collection, the speech signal digital conversion and further processing. MATLAB wavelet in the toolkit of collected a voice signal wavelet denoising treatment, and with the help of LABVIEW provided in the Script Node sub. vi connect the mainstream algorithm simulation analysis software MATLAB, make full use of MATLAB powerful data processing capabilities, even though the LABVIEW provides some information processing functions, but limited after all, still can't meet some user demand for various kinds of numerical calculation and analysis. And MATLAB is especially good at numerical analysis and image processing. Here we use of MATLAB wavelet toolkit, realized by using wavelet method to contain the short speech signal noise elimination of work. Due to the small wave has multi-scale , multi-resolution characteristics, application of wavelet de-noising signals when processing of wavelet analysis is a kind of important applications. This paper introduces the basic principle of speech recognition technology, and then analyses some feature parameters such as Linear Prediction Coefficients,Linear Prediction Cepstral Coefficients and Mel Frequency Cepstral Coefficients and chooses the MFCC used in this system; Followed, this paper realizes automatically speech signal acquisition , and uses multi-thread of LABVIEW to calculate the feature parameters in aparallel way and short 1/4 of the calculating time which improve the efficiency of the feature functional testing; At last, this paper analyses the main requirements of this system, designs the hardware and software in detail and chooses the graphic programming language LABVIEW as the software development platform and then the use of different speech unique feature and pattern matching algorithm, realize voice signal to the final recognition. Keywords: Speech Recognition;Virtual instrument;Sound card;Wavelet Denoising and feature extractio 目录 摘 要 I Abstract II 目录 IV 第一章 绪论 1 1.1 本文的应用背景和研究意义 1 1.2 语音识别发展历史及现状 3 1.3虚拟仪器简介 5 1.4 MATLAB语言 7 1.5论文的主要内容及其结构 10 第二章 语音识别基本技术 11 2.1 语音信号的采集 11 2.1.1 语音识别系统基本框架 11 2.1.2 语音信号的采集 12 2.1.3 语音信号的数字化 13 2.2 语音信号预处理 14 2.2.1 预加重处理 14 2.2.2 分帧、加窗 16 2.2.3 端点检测 17 2.3 语音信号的特征参数提取 20 2.3.1 美尔频率倒谱参数及提取方法 21 2.3.2 差分倒谱系数提取方法 22 第三章 语音识别算法 24 3.1 模板匹配的方法 24 3.1.1 动态时间规整算法 DTW 24 3.1.2 隐马尔可夫模型法 HMM 25 3.1.3 高斯混合模型法 GMM 26 3.1.4 矢量量化 VQ 26 3.1.5 混合型算法 28 3.2 基于声学和语音学的方法 28 3.3 神经网络的方法 29 第四章 非特定人连续语音识别系统的实现 30 4.1 概述 30 4.2 非特定人连续语音识别系统设计与实现 30 4.2.1 语音信号的实时采集与小波消噪处理 30 4.2.2 语音信号的预处理 33 4.2.3 语音信号的特征提取 36 4.3 模板的建立与读取 38 4.3.1 建立模板 38 4.3.2 读取模板 40 第五章 结 论 41 第六章 总结与展望 42 6.1 总结 42 6.2 展望 42 参考文献 43 致 谢 46 第一章 绪论 语言是人类进行信息交流的最常用、最重要的手段,人类的语言和人的心理活动密切相关,是人们进行思想交流的重要方式,既高效又便捷。随着现代社会的不断发展,科学技术的日益成熟,全自动机器逐渐被运用于各个领域,取代了很多原本依靠人来完成的工作,人们对机器的智能要求也越来越高,人机进行信息交互的手段也越来越便捷和迅速,因此语言交流自然而然的成为了首选。人与机器的语言交流总体可分为三部分,(1)让机器听懂人的语言(2)进行语言组织(3)文字转化为声音输出。语音识别研究的就是如何让机器听懂人的语音内容,同时辨别是否是主人所发出的指令,执行相应的操作。 1.1 本文的应用背景和研究意义 语音识别技术是现代高科技信息领域的研究热点,对于信号处理的研究,从理论的产生到专业产品的系统开发应用已经经历了数十年,终于获得了极大的突破。经过二十年的研究探索,语音识别技术取得了很大的发展。就目前来说,该技术从实验室的实验性设计开发,逐渐进入到工厂的应用,估计在不远的将来,语音识别技术将遍布通讯行业,家电行业,医疗保健行业,家庭服务行业,汽车电子行业,消费性电子产品等各大领域。它与自动拨号,健康和福利,生命支持系统和其他实际应用相互衔接,直接控制商业,制造业,金融业,运输业,旅游业,公安消防等工业生产部门和应用领域,该技术的日益成熟有望成为下一代的操作系统和应用程序的用户界面。以下介绍语音识别技术的几大应用领域: (1)查询语言的语音识别应用 语音识别可用于查询航班时间表,电话号码,巴士时间查询,火车车次查询,自动导游,天气预报,股票行情系统等。目前在国际上的各大旅游景区已经开始逐步采用语音识别查询系统,其中最具代表性的是日本丰桥大学设计研发的“富士山旅游咨询系统”,该系统是一个比较实用的语音查询系统,此外它还可以采用问卷调查等方式,集成了自动语言的语音导览系统。只要游客对该系统说话,标示清楚他们当前的所在位置和感兴趣的风景名称,系统会自动显示出最佳路线,实物图片和旅游计划等人性化的信息。该系统不仅能提供英语和汉语查询,而且可以用其它语言来查询。另一个例子是,利用语音识别的自动订票系统,只要站在预订系统前,说出搭乘的时间和地点,系统便会自动显示出符合要求的车费、班次和车票销售的记录,根据实际情况,用户可以做出最佳的选择。1996 年,美国卡内基梅隆大学计算机科学系开发的语言语音机票预订系统,在实践方面,就做出了有益的尝试[6]。 (2)语音识别技术在工业生产上的应用 在一些对人身有极大伤害(如地下,水深,辐射,高温环境下)、环境比较恶劣的地方,还有无人时难以实现工作的地方都可以运用相应的语音命令加以控制,通过远程,使用专门的语言,也就是语音控制系统,控制设备去完成工作,这就能用各种指令和命令,对作业现场进行实时控制和处理。 (3)语音识别技术在扶残扶弱方面的应用 为了帮助残疾人士由于肢体功能方面的缺陷而引起的动作不便,运用语音识别系统,则能对其给予一定的方便。例如:对于身体残疾的人或盲人,能够既准确又灵活地使用现代化设备是比较困难的,但是,如果有了语音控制系统,便能为其提供一些很好的生活辅助设施,给他们带来方便。一些带有语音功能的办公设备,甚至可以帮助残疾人士在家里或在工作岗位上,开辟出一个新的生存空间。 (4)语音识别技术对各生产领域的应用 汽车工业带来的经济收入对一个国家来说是至关重要的,最新的语音识别技术已经应用到汽车领域,并且仍在不断开发和添加新的功能。一些国内外知名的汽车制造公司,很早就预见了语音技术在汽车行业的发展前景,他们已经提出了无需操控的、在后座说话就可以驾驶的智能汽车,完全告别了手动驾驶车辆的模式。当车在开启时,只要告诉它继续行驶和目前的位置,就能够顺利地行使到目的地。目前,这种智能汽车已经进入了研究阶段,相信过不了多久,这个构想将很快成为现实。 (5)语音识别技术在辅助教学方面的应用 在教育领域,已经运用了多媒体语音识别应用类双向教学软件,客户包含清华大学复旦大学等在内的多个高等院校,此语音识别教学系统用来帮助学生在语言学习的过程中,引导学生正确发音,及时的纠正外语口语的发音。该系统也可称为家庭幼儿辅导老师及中小学教育不可或缺的辅助工具。 (6)语言语音玩具 在对孩子进行启蒙教育的时候,你可以用带有语音说话功能的娃娃与孩子交谈,让孩子操作服从语音命令的玩具,在孩子们幼小的心灵就播下科学的种子,让这些玩具引导孩子们探索科技,发现科学的伟大力量。据外国有关媒体报道,语音玩具的销售远远超出了预期水平 [7]。 (7)语音识别技术在军事方面,刑事调查方面的应用 由于每个人的发音都有其独特的特点,就像人的指纹一样,具有独特性和唯一性,是非常有特点的识别标志,科学上可以运用它来判断一个特定的人。比如,在外国科幻电影中,我们经常会看到高精密发射的核设施发射系统,它除了一般的发射检测程序外,总统声音命令也成为了核发射系统的重要密匙,在最终确认发射时,需要通过总统的特定语音命令,才可进行程序释放,核发射才进入相应倒计时阶段。再有,在司法刑侦检测时,犯罪嫌疑人的声音也可以作为破案的重要线索,因为每个人说话的声音是不一样的,语音数据将会和 DNA测试结果一起作为证据,这种方法已经得到了法律上的认可。在国外这方面的例子数不胜数,特别在近些年来,此技术已经作为语音识别技术在应用领域的一大主题,该应用对军事和司法调查、刑事侦查具有巨大的实用价值。 1.2 语音识别发展历史及现状 语音识别技术的研究历史可以追溯到上个世纪三十年代初,1947 年,贝尔(Bell)实验室发明了语谱图分析仪,意味着语音识别技术研究的萌芽。起初,语音识别是通过人工分析语谱图而进行识别的。 50 年代初期,研究人员大部分致力于声学—语音学的基本概念进行探索。1952 年贝尔实验室的 Davis 等人首次采用识别方法是根据语音第一、二共振峰位置提取若干特征的方法研制出能识别十个英语数字的语音识别系统,实现了用模拟电路实现未知语音与参考语音之间的相关度运算[1]。 60 年代初期,语音识别系统的构成基本上是用硬件实现的,通过滤波器组提取频谱特征,用计算机进行匹配、计算和判决。计算机的使用在很大程度上加快了语音识别方法的研究。这期间出现了语音识别的几个重要的思想,前苏联研究人员 Vintsyuk 提出使用动态规划来对齐两个长度不同的语音音段。尽管动态时间弯折(Dynamic Time Wrapping, DTW)概念的实质和用于连接词识别的算法雏形已经包含在 Vintsyuk 的研究工作中 [1,2],但这十年之中并没有取得令人鼓舞的突破性进展。 70 年代初, 日本学者板仓(Itakura)提出了动态时间规整(DTW)技术 [4],使语音识别技术研究在匹配算法方面开辟了新思路;中期的线性预测技术 [5] (Linear Prediction, LP)被应用于语音信号处理,然后隐马尔可夫模型法 [6] (Hidden Markov Model, HMM)也获得初步的成果,该技术在语音信号处理的多个方面获得了巨大成果;70 年代末,Linda、Buzo、Gray 和 Markel 等人首次解决了矢量量化 [7,11] (Vector Quantization, VQ)码书生成的方法,并首先将矢量量化技术用于语音编码并且获得了成功。这使得孤立词发音和孤立词发音的识别技术成为可行的生活实用技术。另外,70 年代的里程碑是在 IBM 进行了一个长期持续的、颇有成效的大词汇量连续语音识别研究的集体努力的成果。在这期间,贝尔实验室开展了用于建立真正的非特定人语音识别系统的实验研究,提出了范围较广泛的一类复杂的聚类算法,用来确定能够表示大量人群的不同词语的所有声学变化的不同模式。这些研究为后来非特定人模式聚类技术的研究奠定了基础,现在已经得到了广泛的应用。 继70年代的孤立词语音识别研究后,80 年代主要研究的是连接词语音识别的问题,由单个词的模式串接在一起的短连接词语音进行匹配识别。识别的方法也逐渐从最初的模板匹配方法转变到了统计模型方法,其中典型的统计方法代表是隐马尔可夫模型,由于这种方法在结构、参数和训练方法的选择上有很大的灵活性,逐渐成为了语音识别技术的主流。HMM 的理论基础在 1970 年前后由 Baum 等人建立起来,随后由 CMU 的 Baker和 IBM 的 Jelinek 等人应用于语音识别之中,HMM 模型的广泛应用归功于贝尔实验室 Rabiner 等研究者的努力,他们把原来艰涩的纯数学化的 HMM 模型工程化,让从事语音处理的研究者更了解和熟悉,进而成为公认的一个研究热点 [1,4,6,7]。随着 HMM模型和人工神经网络等技术在语音识别中的广泛应用,科学家们已经在实验室突破了单个词汇量的识别,并且对大词汇量、连续语音和非特定人的语音识别技术也取得了显著 进展。 90 年代以前,语音识别系统主要是在实验室中进行的。90 年代后,随着 IT 技术的迅速发展,多媒体时代的来临,迫切需要语音识别系统走出实验室,走向人们的日常生活乃至工厂。发达国家如日本、美国等著名大公司(IBM、Apple、AT&T、NTT) 都为语音识别系统的实用化研究开发投入巨大资金和人力,研制出大词汇量语音识别系统 [1,4,8]。如 IBM 的 ViaVoice 系统、剑桥大学的 HTK 系统、DARGON 系统、Microsoft 的 Whisper 系统等,这些语音识别系统代表着当时语音识别的最高水平,同时结合自然语音处理技术,发展到基于自然口语识别、理解的人机对话系统和不同语种的直接语音翻译设备。 国内的语音识别研究开始于 50 年代后期,中科院声学所利用频谱分析的方法成功研究出汉语的10个元音的语音识别, 70 年代后期,研究出了基于模板匹配的孤立词语音识别系统。80 年代后期,从 1987 年起国家“863”智能计算机的主题专家组委对语音识别技术立项,经过二十多年的发展,汉语语音识别取得了国内前所未有的成果,研究水平已经与国际同步,在汉语语音识别的技术上还有自己的特点和优势。越来越多的大学和科研院所纷纷作出响应,加大投资,加入到语音识别的研究行列,大大推动了汉语语音识别技术的发展。清华大学电子工程系研究的语音识别系统以 1183 个单音节词作为识别单元,它采用的是分段概率的模型,对词的组成音节进行仔细的分解,最后用搜索匹配算法来计算整体的识别率,使二字词和三字词的识别率达到 97.5%。北京中科院自动化系研究所的模式识别实验室将汉语的音节切分成韵母和声母,并结合声调信息,然后进行识别。其中声母识别采用 CHMM 模型,声调识别采用感知神经网络模型,整个系统识别率高达 89.5%,声调识别率为 99.5%,词的识别率为 95% [1,4,8]。鉴于中国庞大的市场,国外也非常重视汉语语音识别的研究。但汉语数字语音识别技术由于汉语数字语音存在高混淆的问题,使得其进展相当缓慢,再加上汉语独特的单音节特征和多方言语种等问题使得汉语数字识别系统在噪声环境下仍然具有很大难度,任务艰巨。 1.3虚拟仪器简介 虚拟仪器(Virtual Instrument,简称VI)是现代计算机技术和仪器技术相结合的产物,是目前计算机辅助测试(CAT)领域的一项重要技术。虚拟仪器是计算机硬件资源、虚拟仪器软件资源和仪器与测控系统硬件资源三者的有效结合。 所谓虚拟仪器,就是以通用计算机为核心,借助这个硬件平台,由用户自己设计定义,其具有虚拟面板并且测试功能由测试软件实现的一种计算机仪器系统。使用者只要用鼠标点击虚拟面板,就可以操作这台计算机系统硬件平台,就如同使用一台专用的测量仪器。 虚拟仪器的特点可归纳为: (1)在通用硬件平台确定后,由软件取代传统仪器中的硬件来完成仪器的功能。 (2)仪器的功能是由用户根据需要由软件来定义的,而不是事先由厂家定义好的。 (3)仪器性能的改进和功能扩展只需进行相关软件的设计更新,而不需购买新的仪器。 (4)研制周期较传统仪器大为缩短。 (5)虚拟仪器开放、灵活,可与计算机同步发展,可与网络及其它周边设备互联。 决定虚拟仪器具备传统仪器不可能具备的上述特点的根本原因在于:“虚拟仪器的关键是软件”。 LABVIEW(Laboratory Virtual Instrument Engineering Workbench,实验室虚拟仪器工程平台)是美国NI公司(National Instrument Company)推出的一种基于G语言(Graphics Language,图形化编程语言)的虚拟仪器软件开发工具。虚拟仪器的构成,如图1.1所示: 图1.1 虚拟仪器的构成 LABVIEW软件工具的特点可归纳为: (1)图形化的编程方式,无须写任何文本格式的代码,是真正的工程师语言。 (2)提供了丰富的数据采集、分析及存储的库函数。 (3)既提供了传统的程序调试手段,如设置断点、单步运行,同时又提供了独到的高亮执行工具,使程序动画式运行,利于设计者观察程序运行的细节,使程序的调试和开发更为便捷。 (4)32bit的编译器编译生成32bit的编译程序,保证数据采集、测试和测量方案的高速执行。 (5)囊括了DAQ、GPIB、PXI、VXI在内的各种仪器通信总线标准的所有功能函数,使得不懂总线标准的开发者也能够驱动不同总线标准接口设备与仪器。 (6)提供大量与外部代码或软件进行连接的机制,诸如DLLs(动态连接库)、DDE(共享库)、ActiveX 等。 用LABVIEW设计的虚拟仪器控制系统主要包括三个部分: (1)仪器前面板的设计 仪器前面板的设计是指在虚拟仪器的开发平台上,利用各类子模板图标创建用户界面,即虚拟仪器的前面板。 (2)仪器流程和算法的设计 仪器流程和算法的设计是根据仪器功能的要求,利用虚拟仪器开发平台所提供的子模板,确定程序的流程图、所实现的技术方法和主要的处理算法。 (3)I/O接口仪器驱动程序的设计 I/O接口仪器驱动程序是控制硬件设备的驱动程序,也是连接主控计算机与仪器设备的纽带。 用LABVIEW设计的虚拟仪器系统可脱离LABVIEW开发环境,最终用户看见的是和实际的硬件仪器相似的操作面板。 1.4 MATLAB语言 MATLAB语言[1]是在20世纪80年代初期,由美国的Math Works软件开发公司推出的一种信号图像处理的数学工具软件。它拥有功能全面的函数库,为了让用户脱离了复杂繁琐的程序计算过程,把大量的函数封装起来,大大提高了工作效率。利用MATLAB可以实现符号运算、科学计算、算法研究、数据分析和可视化、数学建模和仿真、图形用户界面设计以及科学工程绘图等强大功能。同时MATLAB为用户提供了丰富而实用的资源,它涵盖了许多门类的科学研究,如控制、通信、数学、经济、地理、数字信号处理和数字图像处理等。其主要特点有: (1)先进的技术界面支持 MATLAB给用户提供的是一种最直观、最简洁的程序开发环境。用MATLAB编程时,就如同在现实中的便签上列公式和求解一样。 (2)开放式的体系结构 除了内部函数外,所有的MATLAB主包文件和各工具包文件都是对用户开放的源程序文件,用户可以通过修改源程序文件来构成新的适合自己使用的专用工具包。 (3)简单易学 与FORTRAN和C语言等高级语言相比较,MATLAB语法规则简单,语言的思维特点更符合人们在实际应用中的习惯。 (4)丰富的函数工具箱 提供专门的对语音信号进行处理的工具箱。对于比较简单的和“一次性”的问题,通过在直棂窗中直接输入一组指令求解是比较简便、快捷的。但是当待解决问题所需的指令较多而且所用指令结构较复杂时,或者当一组指令通过改变少量参数就可以被反复使用去解决不同问题时,直接在直棂窗中输入指令的方法就显得累赘、繁琐和笨拙。设计M脚本文件就是用来解决这个矛盾的。M脚本文件是指: (1)对于解决同一个问题,在文件中的指令形式和前后位置与在指令窗中输入的那组指令毫无任何区别。 (2)MATLAB在运行这个脚本时,简单地从文件中读取那一条条指令,然后送到MATLAB中去运行。 (3)与在指令窗中直接运行质量一样,脚本文件运行时产生的变量都驻留在MATLAB基本工作空间中。 (4)文件的扩展名是“.m”。其具体步骤如下: 1) 编辑调试器的开启 在缺省的情况下,M文件编辑器(Editor/Debugger)不随MATLAB的启动而开启,通常只有在编写M文件时才启动M文件编辑器窗口。M编辑器有多种功能:不仅可以编写M文件,而且可以对M文件进行交互式调试;此外,M文件编辑器不仅可以处理带.m扩展名的文件,而且可以阅读和编辑其他ASCII码的文件。 下面介绍M文件编辑器的几种启动方法: 点击MATLAB桌面上的“”图标,或选中菜单项[File:New:M-File],可以打开空白的M文件编辑器。 点击MATLAB桌面上的“”图标,或选中菜单项[File:Open],可引出Windows平台上标准的“Open”文件选择对话框,通过常规的工具条操作,找到待打开文件所在文件夹,点选那个文件名后,再点击[打开]键,即可引出相应文件夹的M文件编辑器。 用鼠标左键双击当前目录窗口中的所需M文件,可直接引出展示相应文件夹的M文件编辑器。 2) 编辑器使用中的注意事项 (1)编辑器的打印效果设置。具体方法是:选中菜单项[File:Page setup],引出一个页面设置对话框,该对话框可以对版面布局(Layout)、版头(Header)、字体(Fonts)等参数进行设置。 “Layout”版面布局子项:选择“Print header”,则打印的硬拷贝将会出现页眉,显示文件所在的全部路径、文件建立日期和页数。 “Header”版头设置子项:设置版头的具体形式包含有版头的边界、布局及页数的显示方式等参数进行设置。 “Fonts”字体设置子项:如果不点选“Use editor font”,那么硬拷贝中的字体可能与编辑器显示的字体不同,一般情况下硬拷贝中的字体较大。 (2)编辑器的段落格式、字体(形式、大小、颜色)、自动保存等都可由用户自己根据需要进行设置。具体方法是:选中菜单项[File:Preferences],引出一个参数设置对话框;展开弹出对话框左栏中的“Editor/Debugger”项,出现以下4个子项: “Font & Colors”子项:在对应该项的右侧栏中,可以对字体大小、颜色、类型进行设置。 “Display”子项:如果勾选“Enable data tips in edit mode”,那么当光标移动到该编辑器文件中的某个变量名时,就会出现一个现场菜单,但显示出该变量内容的前提是,改变量已存在于MATLAB的工作空间。 “Keyboard & indenting”子项:对应栏用来设置快捷键习惯和文件段落缩进的习惯。 “Auto save”子项:编辑器窗口中的文件发生改动后,文件会自动进行备份。通过该子项中的“Save options”栏,可以设置自动备份的时间间隔。 说明:1.运行M文件的方法有很多种,而最常用的方法是: (1)在指令窗中直接运行M文件名(不带扩展名); (2)在当前目录窗中,用鼠标右键单击所要运行的文件,再从引出的现场菜单中选择[Run]菜单项。 2.脚本文件第一行中的注释文件名一般与实际存放在目录上的文件名相同。但这样做的目的仅仅是为了管理上的一致,也为了便于用户记忆和查询。事实上,*.m的存放和调用与注释行中的名称并无关联。 3.当使用M文件编辑器调试并保存文件时,或在MATLAB指令窗中运行M文件时,不必写出文件的扩展名.m。 4.在M文件编辑调试器中,可以用汉字注释,也可获得正确显示。 5.注意:在MATLAB中,若发生汉字输入困难,可用鼠标右键点击,引出现场菜单;选中“属性”菜单项,引出“对话框”,或采取在微软输入法中选择“逐键指示”,或在智能输入法中选中“固定”。 1.5论文的主要内容及其结构 本课题研究的主要内容和方法如下: 根据识别的需求,分析语音识别技术的重要性,针对语音识别系统的实用性提出本文研究的目标就是设计实现一个基于模板匹配识别算法的语音识别系统。对语音识别系统进行设计研究,针对语音识别的功能需求,对比研究VQ和 DTW 算法的识别算法,结合 LABVIEW 和 MATLAB 各自优点综合设计出基于虚拟仪器的语音识别系统,用于语音识别功能的进一步研究。 本文共分为六个章节,具体结构如下: 第一章介绍了语音识别的学科背景与研究的发展历程,历史意义,本设计的软件平台以及本文选题的依据和内容安排。 第二章介绍了语音信号的实时采集及预处理,对语音信号的产生与数字化进行了分析,并详细介绍了语音信号的小波消噪及端点检测以及语音信号的特征提取,其中对当前应用较广泛的MFCC特征参数提取过程做了详细的讨论。。 第三章介绍了语音识别的几种算法,并对这几种算法作进一步的研究和改进,选择一种自认为比较合适的算法用于本次设计。 第四章介绍了非特定人连续语音识别系统的实现问题,介绍了系统的具体设计步骤,及其模板的建立与读取,并对试验结果进行了分析。 第五章简单介绍了整个设计所得出的结论。 第六章 总结与展望,对本文的研究工作进行阶段性总结,讨论了当前存在的问题和将来可能的研究方向。 第二章 语音识别基本技术 语音识别基本技术包括语音信号的预处理、分帧、加窗和端点检测等时域和频域分析。在语音识别系统中主要是采用基于模板匹配识别算法的研究,进行待测语音和模板语音的对比分析,再根据特定的判定准则得出最终的识别结果。本章主要介绍语音识别基本技术。 2.1 语音信号的采集 2.1.1 语音识别系统基本框架 语音识别系统一般采用的是模式匹配的原理 [8],所以本质上是一种模式识别系统。它的基本结构如图2.1 所示,主要分为信号预处理、特征参数提取、模式匹配和参考模板库几个单元。语音信号是短时平稳随机信号,产生机理非常的复杂、内容较丰富并且有很大的不确定性,这使得语音识别比一般模式识别要困难很多。 图 2.1 语音识别系统基本结构图 语音识别系统的处理过程从一开始的对语音信号进行采集,即模拟语音信号转化为数字语音信号,随机语音经过录音设备转化为数字信号(语音信号)输入到语音识别系统进行识别。对原始语音信号进行抗混叠滤波、去噪声,预加重处理和端点检测;根据端点检测得到有效语音信号,对其进行特征参数提取,较好的特征参数应具备的特点是:(1) 特征参数矢量的各分量之间具有良好的独立性;(2)特征参数能有效地代表该语音段,具有良好的区分度; (3)特征参数的计算要高效,最好也比较容易实现,保证语音识别的实时实现。由于语音信号具有短时平稳的特性,所以语音信号的特征参数都是以一段短时语音信号为单位的,一般短时时间段取值为 20ms~30ms 之间。对于识别参数的训练,根据识别方法的不同运用不同的训练方案,参考模板的特征参数一般是离线计算并存储起来的,为此,在系统使用前事先要录入一些已知信号,通过提取它们的特征参数矢量序列,根据不同的识别方法进行训练,作为参考模式,这个过程就叫做训练过程。识别过程就是通过对输入的语音信号与参考模板库中的语音模板进行比较,以特定的测度标准得出的最优参考模板作为输入语音信号的识别结果输出,这个就是语音识别的识别全过程。 显然,最佳识别结果的准确度跟语音模型的好坏、特征参数的选择和参考模板是否准确都有直接关系,这也正是目前语音识别过程中需要解决的一个难点。下面根据语音识别的过程,分别介绍各个过程的关键技术和基本理论,预处理和语音自动分割算法以及三种语音特征参数提取技术。 2.1.2 语音信号的采集 通常语音信号是一种连续的模拟信号,计算机无法直接对其做数字化处理,因此需要经过一种转换将模拟信号转化成数字信号,我们把这个过程叫做模/数转换(A/D转换)。正常人的发音频率范围一般是40Hz到3400Hz左右,根据奈奎斯特采样定律(Nyquist Sampling Theorem),那么采样频率应为原始语音频率的两倍以上,本次设计采用8KHz采样率(G.711标准)。 将模拟语音信号转化为数字语音信号需要声音采集卡即声卡的支持,不同声卡的信噪比存在一定的差异,所以质量不同的声卡采集到的语音信号对系统的识别率也有一定的影响。 本文采用笔记本电脑自带的声卡进行语音信号的采集,此次设计采集的语音信号以8KHz,16位,单通道格式录入存储,得到需要的*.wav文件。语音信号的采集显示见图2.2,其程序框图如图2.3所示。 图2.2 语音信号采集显示的前面板图 图2.3 语音信号采集显示的程序框图 2.1.3 语音信号的数字化 语音信号的数字化一般包括采样、放大、增益控制、反混叠滤波、A/D变换及编- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 虚拟仪器 语音 识别 算法 研究 毕业论文
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文