语音识别-科普性介绍.doc
《语音识别-科普性介绍.doc》由会员分享,可在线阅读,更多相关《语音识别-科普性介绍.doc(18页珍藏版)》请在咨信网上搜索。
1、随机过程理论在语音识别中的应用第一章 语音识别总述1.1语音识别技术简介语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术。在当下流行的即时通讯软件(如:微信、QQ等)里,语音识别技术得到了非常广泛的应用。当对方发来一段语音信息而自己不方便收听时便可以使用语音转化功能将语音信息转化成文字信息。此外,在许多输入法(如:讯飞输入法)中也可以使用语音输入功能。用户只需要对着麦克风说话,输入法便可以将语音转换为文字填入输入框,在方便用户的同时也提高了文字输入效率。语音识别涉及的领域包括:数字信号处理、声学、语音学、计算机科学、心理学、人工智能等,是一门涵盖多个学科领域的交
2、叉科学技术。语音识别的技术原理是模式识别,其一般过程可以总结为:预处理、特征提取、基于语音模型库下的模式匹配、基于语言模型库下的语言处理、完成识别。图1.0.1 语音识别过程第二章 预处理声音的实质是波。在现如中得到广泛应用的音频文件格式(如:mp3等)都经过了压缩无法直接识别。语音识别所使用的音频文件格式必须是未经压缩处理的wav格式文件。下图是一个波形示例。图2.0.2 语音波形示例有了声波源文件输入便可以按照图2.1.1所示的各个步骤进行识别。2.1静音切除如图2.1.2所示,在得到的声波信号输入中需要实际处理的信号并不一定占满整个时域,会有静音和噪声的存在。因此,必须先对得到的输入信号
3、进行一定的预处理,消去静音的部分并且滤除噪声的干扰才能对实际需要处理的有效语音进行识别。噪声处理部分本文已在上文进行过讨论,这里不再赘述。去除静音需要用到VAD算法,本文对其做简单介绍。2.1.1 VAD算法VAD算法全称为Voice Activity Detection,又称语音边界检测。其可实现的功能有对语音信号进行打断、去除语音信号中的静音部分从而获取有效语音,还可以去除一部分噪声对后续语音识别过程造成的干扰。VAD主要是对输入语音信号的一些时域或频域特征判断其是否属于静音部分。本文只对这些参数做简要介绍,具体算法不属于本文重点因而不在此做细致讨论。2.1.2时域参数时域参数是通过对输入
4、信号在时域上的特征参量进行区分。在信噪比较高的环境下使用时域参数进行区分效果显著。1.相关性分析 通过对足够短的时间范围内的语音信号进行相关性检测可以初步判定该时间范围内的信号是否属于静音部分。在实际应用中,静音的部分实际上会混有各种各样的噪声,因此并非绝对意义上静音。噪声在各个时间范围内的相关性比较低,而人说话的语音相关性则比较强。因此,在高信噪比的条件下区分成功率很高。然而,由于噪声多种多样,因此相关性分析只适用于区分小部分噪声与语音,这是其局限性所在。2. 时域能量静音部分的噪声能量相较于有效语音能量而言要少得多,因此可以通过比较短时间范围内的输入信号能量来判定该段信号是否输入静音部分。
5、而在实际生活中,会出现高能量噪声的情况,此时再用时域能量参数就显得爱莫能助。.3.2.1.2频域参数频域参数的抗噪性能要优于时域参数,但是由于需要用到傅立叶变换等变换方法进行分析域转换,因此相应的计算复杂度较高,花费时间也较长。1. 谱熵熵本是源于热力学的参数,用于描述系统的混乱度。在信息论中用于描述信息源的不确定性。 图2.1.1 噪声谱 图2.1.2 语音谱在实际应用中,噪声谱较为平坦,谱熵较大。而语音能量集中在低频段,谱熵较小,因此可通过谱熵来判断信号属于噪声还是有效语音。谱熵的可靠性不会受信号大小的影响,其大小只与信噪比有关。2. 自适应子带即使在很低的信噪比下,语音帧仍然具有较高信噪
6、比的子带,而噪声帧却没有。因此可以根据每帧信号的最小频带所占的该帧总能量的概率来自适应选择子带的多少。2.2分帧2.2.1分帧简介如图2.0.2的有效语音信号波形在时域上是无法对其进行识别的的。因此必须算出有效语音信号在频域上的分布情况,因而需要对有效语音信号做傅立叶变换从而得到其在频域上的分布情况。图2.2.1 有效语音信号波形图傅立叶变换的前提是输入信号是平稳的,而如图2.2.1所示的有效语音信号的前三分之一和后三分之二明显不一样,这是由于发音者的发音姿态变换而导致的,所以整体来看语音信号不平稳。但如果取适量小的时间范围内(如图中矩形框圈出的时间范围),仅在该时间范围内做分析的话,发声者的
7、发声姿态基本不变,语音信号就可以看成平稳的,就可以截取出来做傅立叶变换了。将有效语音信号的截取成一帧一帧的平稳信号的过程就称为分帧。2.2.1分帧时长由上述的讨论可知,通过分帧操作所得到的每一帧信号需满足如下两个条件:1. 它必须足够短来保证帧内信号是平稳的。上文提到过,发音者发音姿态的变化是导致信号不平稳的原因,所以在一帧的期间内发音姿态不能有明显变化。即一帧的长度应当小于一个音素的长度。正常语速下,音素的持续时间大约是 50至200 ms,所以帧长一般取为小于 50 ms。2.每一帧信号又必须包括足够多的振动周期,因为傅立叶变换是对信号的频域进行分析,只有每一个频率成分在时域重复振动足够多
8、次才能分析频率。语音的基频,男声在 100 Hz左右,女声在 200 Hz左右,换算成周期就是 10 ms和 5 ms。既然一帧要包含多个周期,所以一般取至少 20 ms。通过以上的讨论,帧长一般取为 20 至50 ms,20、25、30、40、50 都是比较常用的数值。2.3加窗为了提高傅立叶变换所得频谱的分辨率,取出来的一帧信号,在做傅立叶变换之前,要先进行加窗的操作,即与一个窗函数相乘,如图2.3.1所示。 图2.3.1(a) 原信号 图2.3.1(b) 汉明窗函数图2.3.1(c) 加窗处理结果加窗的目的是让一帧信号的幅度在两端渐变到 0从而提高傅立叶变换结果频谱的分辨率。由加窗处理过
9、程可以看出,信号两端的部分被逐渐削弱至0,因此在该帧信号中无法计入频谱。在实际处理时,往往通过不同帧之间进行重叠来弥补加窗处理带来的损失。图2.3.2 重叠分帧如图2.2.1所示,每一帧信号时长为25ms,以10ms作为帧移取下一段信号。由此第一帧信号后15ms的波形便会在下一帧信号前15ms中出现。2.4傅立叶变换对一帧信号做傅立叶变换,得到信号频谱如下:图2.4.1 信号频谱图如图2.4.1,从信号频谱图中可知该帧语音信号呈现出的精细结构和包络两种模式。平滑连接每一个精细结构的小峰便得到包络。又由包络可以得到共振峰,图中能看出四个,分别在 500、1700、2450、3800 Hz附近。它
10、代表了发音者的口型,对此特征进行提取便可只发音者发出的是哪个音。第三章 声学特征提取人通过声道产生声音,声道的形状决定了发出怎样的声音。声道的形状包括舌头,牙齿等。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素进行准确的描述。声道的形状在语音短时可以由功率谱的包络中显示出来。因此,准确描述这一包络的特征就是声学特征识别步骤的主要功能。接收端接收到的语音信号经过上文的预处理以后便得到有效的语音信号,对每一帧波形进行声学特征提取便可以得到一个多维向量。这个向量便包含了一帧波形的内容信息,为后续的进一步识别做准备。本文主要介绍使用最多的MFCC声学特征。3.1 MFCC简介MFCC(Me
11、l Frequency Cepstrum Coefficient)特征是基于人耳对声音的敏感特性而提出的。人耳听声音时,耳蜗相当于一组滤波器。当声音频率在1KHz以下时,人耳的感知能力与频率成线性关系,但在1KHz以上时,人耳的感知能力与声音频率更接近对数关系。这也就解释了为什么人耳对于低频声音的感知比高频声音更敏感。MFCC是Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,其计算公式为:它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 识别 科普 介绍
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。