语音识别-科普性介绍.doc

上传人：w****g

文档编号：3311617

上传时间：2024-07-01

格式：DOC

页数：18

大小：748.50KB

《语音识别-科普性介绍.doc》由会员分享，可在线阅读，更多相关《语音识别-科普性介绍.doc（18页珍藏版）》请在咨信网上搜索。

1、随机过程理论在语音识别中的应用第一章语音识别总述1.1语音识别技术简介语音识别技术就是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的技术。在当下流行的即时通讯软件（如：微信、QQ等）里，语音识别技术得到了非常广泛的应用。当对方发来一段语音信息而自己不方便收听时便可以使用语音转化功能将语音信息转化成文字信息。此外，在许多输入法（如：讯飞输入法）中也可以使用语音输入功能。用户只需要对着麦克风说话，输入法便可以将语音转换为文字填入输入框，在方便用户的同时也提高了文字输入效率。语音识别涉及的领域包括:数字信号处理、声学、语音学、计算机科学、心理学、人工智能等，是一门涵盖多个学科领域的交

2、叉科学技术。语音识别的技术原理是模式识别，其一般过程可以总结为：预处理、特征提取、基于语音模型库下的模式匹配、基于语言模型库下的语言处理、完成识别。图1.0.1 语音识别过程第二章预处理声音的实质是波。在现如中得到广泛应用的音频文件格式（如：mp3等）都经过了压缩无法直接识别。语音识别所使用的音频文件格式必须是未经压缩处理的wav格式文件。下图是一个波形示例。图2.0.2 语音波形示例有了声波源文件输入便可以按照图2.1.1所示的各个步骤进行识别。2.1静音切除如图2.1.2所示，在得到的声波信号输入中需要实际处理的信号并不一定占满整个时域，会有静音和噪声的存在。因此，必须先对得到的输入信号

3、进行一定的预处理，消去静音的部分并且滤除噪声的干扰才能对实际需要处理的有效语音进行识别。噪声处理部分本文已在上文进行过讨论，这里不再赘述。去除静音需要用到VAD算法，本文对其做简单介绍。2.1.1 VAD算法VAD算法全称为Voice Activity Detection，又称语音边界检测。其可实现的功能有对语音信号进行打断、去除语音信号中的静音部分从而获取有效语音，还可以去除一部分噪声对后续语音识别过程造成的干扰。VAD主要是对输入语音信号的一些时域或频域特征判断其是否属于静音部分。本文只对这些参数做简要介绍，具体算法不属于本文重点因而不在此做细致讨论。2.1.2时域参数时域参数是通过对输入

4、信号在时域上的特征参量进行区分。在信噪比较高的环境下使用时域参数进行区分效果显著。1.相关性分析通过对足够短的时间范围内的语音信号进行相关性检测可以初步判定该时间范围内的信号是否属于静音部分。在实际应用中，静音的部分实际上会混有各种各样的噪声，因此并非绝对意义上静音。噪声在各个时间范围内的相关性比较低，而人说话的语音相关性则比较强。因此，在高信噪比的条件下区分成功率很高。然而，由于噪声多种多样，因此相关性分析只适用于区分小部分噪声与语音，这是其局限性所在。2. 时域能量静音部分的噪声能量相较于有效语音能量而言要少得多，因此可以通过比较短时间范围内的输入信号能量来判定该段信号是否输入静音部分。

5、而在实际生活中，会出现高能量噪声的情况，此时再用时域能量参数就显得爱莫能助。.3.2.1.2频域参数频域参数的抗噪性能要优于时域参数，但是由于需要用到傅立叶变换等变换方法进行分析域转换，因此相应的计算复杂度较高，花费时间也较长。1. 谱熵熵本是源于热力学的参数，用于描述系统的混乱度。在信息论中用于描述信息源的不确定性。图2.1.1 噪声谱图2.1.2 语音谱在实际应用中，噪声谱较为平坦，谱熵较大。而语音能量集中在低频段，谱熵较小，因此可通过谱熵来判断信号属于噪声还是有效语音。谱熵的可靠性不会受信号大小的影响，其大小只与信噪比有关。2. 自适应子带即使在很低的信噪比下，语音帧仍然具有较高信噪

6、比的子带，而噪声帧却没有。因此可以根据每帧信号的最小频带所占的该帧总能量的概率来自适应选择子带的多少。2.2分帧2.2.1分帧简介如图2.0.2的有效语音信号波形在时域上是无法对其进行识别的的。因此必须算出有效语音信号在频域上的分布情况，因而需要对有效语音信号做傅立叶变换从而得到其在频域上的分布情况。图2.2.1 有效语音信号波形图傅立叶变换的前提是输入信号是平稳的，而如图2.2.1所示的有效语音信号的前三分之一和后三分之二明显不一样，这是由于发音者的发音姿态变换而导致的，所以整体来看语音信号不平稳。但如果取适量小的时间范围内（如图中矩形框圈出的时间范围），仅在该时间范围内做分析的话，发声者的

7、发声姿态基本不变，语音信号就可以看成平稳的，就可以截取出来做傅立叶变换了。将有效语音信号的截取成一帧一帧的平稳信号的过程就称为分帧。2.2.1分帧时长由上述的讨论可知，通过分帧操作所得到的每一帧信号需满足如下两个条件：1. 它必须足够短来保证帧内信号是平稳的。上文提到过，发音者发音姿态的变化是导致信号不平稳的原因，所以在一帧的期间内发音姿态不能有明显变化。即一帧的长度应当小于一个音素的长度。正常语速下，音素的持续时间大约是 50至200 ms，所以帧长一般取为小于 50 ms。2.每一帧信号又必须包括足够多的振动周期，因为傅立叶变换是对信号的频域进行分析，只有每一个频率成分在时域重复振动足够多

8、次才能分析频率。语音的基频，男声在 100 Hz左右，女声在 200 Hz左右，换算成周期就是 10 ms和 5 ms。既然一帧要包含多个周期，所以一般取至少 20 ms。通过以上的讨论，帧长一般取为 20 至50 ms，20、25、30、40、50 都是比较常用的数值。2.3加窗为了提高傅立叶变换所得频谱的分辨率，取出来的一帧信号，在做傅立叶变换之前，要先进行加窗的操作，即与一个窗函数相乘，如图2.3.1所示。图2.3.1(a) 原信号图2.3.1(b) 汉明窗函数图2.3.1(c) 加窗处理结果加窗的目的是让一帧信号的幅度在两端渐变到 0从而提高傅立叶变换结果频谱的分辨率。由加窗处理过

9、程可以看出，信号两端的部分被逐渐削弱至0，因此在该帧信号中无法计入频谱。在实际处理时，往往通过不同帧之间进行重叠来弥补加窗处理带来的损失。图2.3.2 重叠分帧如图2.2.1所示，每一帧信号时长为25ms，以10ms作为帧移取下一段信号。由此第一帧信号后15ms的波形便会在下一帧信号前15ms中出现。2.4傅立叶变换对一帧信号做傅立叶变换，得到信号频谱如下：图2.4.1 信号频谱图如图2.4.1，从信号频谱图中可知该帧语音信号呈现出的精细结构和包络两种模式。平滑连接每一个精细结构的小峰便得到包络。又由包络可以得到共振峰，图中能看出四个，分别在 500、1700、2450、3800 Hz附近。它

10、代表了发音者的口型，对此特征进行提取便可只发音者发出的是哪个音。第三章声学特征提取人通过声道产生声音，声道的形状决定了发出怎样的声音。声道的形状包括舌头，牙齿等。如果我们可以准确的知道这个形状，那么我们就可以对产生的音素进行准确的描述。声道的形状在语音短时可以由功率谱的包络中显示出来。因此，准确描述这一包络的特征就是声学特征识别步骤的主要功能。接收端接收到的语音信号经过上文的预处理以后便得到有效的语音信号，对每一帧波形进行声学特征提取便可以得到一个多维向量。这个向量便包含了一帧波形的内容信息，为后续的进一步识别做准备。本文主要介绍使用最多的MFCC声学特征。3.1 MFCC简介MFCC（Me

11、l Frequency Cepstrum Coefficient）特征是基于人耳对声音的敏感特性而提出的。人耳听声音时，耳蜗相当于一组滤波器。当声音频率在1KHz以下时，人耳的感知能力与频率成线性关系，但在1KHz以上时，人耳的感知能力与声音频率更接近对数关系。这也就解释了为什么人耳对于低频声音的感知比高频声音更敏感。MFCC是Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的，其计算公式为：它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。由于Mel频率与Hz频率之间非线性的对应关系，使得MFCC随着频率的提高，其计算

12、精度随之下降。因此，在应用中常常只使用低频MFCC，而丢弃中高频MFCC。3.2 MFCC的一般过程MFCC特征提取的一般过程如下：图3.2.1 MFCC特征提取的一般过程图中的分帧加窗以及FFT已经在预处理部分中提到，这里不再赘述。3.2.1 Mel滤波器组假设原信号经过预加重、分帧加窗后的DFT为式中x(n)为输入的语音信号，N表示傅立叶变换的点数。式中x(n)为输入的语音信号，N表示傅立叶变换的点数。将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组（滤波器的个数和临界带的个数相近），采用的滤波器为三角滤波器，中心频率为。M通常取22-26。各之间的间隔随着m值

13、的减小而缩小，随着m值的增大而增宽，如图所示：图3.2.2 Mel频率滤波器组三角滤波器的频率响应定义为:式中：此处使用三角带通滤波器有两个目的：第一、使得到的频谱变得平滑，并且可以去除谐波的干扰从而凸显出原语音信号的共振峰。因此，一段语音的音调并不会由MFCC特征表示出来。换句话说，语音信号的音调不会对MFCC的参数产生影响。第二、可以有效减少运算量。计算每个滤波器组输出的对数能量为：经离散余弦变换（DCT）得到MFCC系数：将上述的对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数，通常取12-16。这里M是三角滤波器个数。3.2.2 对数

14、能量语音信号的能量表现为音量的大小，每一帧信号的能量也是语音信号的一个重要特征，而这个参数非常容易计算得到，因此，通常在已经得到的参数基础上再加上一帧的对数能量。对数能量的定义为：如此就使得每一帧语音信号特征向量又多了一个维度。在此阶段也可加入其它语音特征。例如：音高、过零率以及共振峰等。3.2.3 动态差分参数的提取（包括一阶差分和二阶差分）标准的倒谱参数MFCC只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述。实验证明：把动、静态特征结合起来才能有效提高系统的识别性能。差分参数的计算可以采用下面的公式：式中,表示第t个一阶差分；表示第t个倒谱系数；Q表示倒谱系数的

15、阶数；K表示一阶导数的时间差，可取1或2。将上式中结果再代入就可以得到二阶差分的参数。3.2.4 特征提取结果总而言之，MFCC的全部组成其实是：N维MFCC参数（N/3MFCC系数+ N/3一阶差分参数+ N/3二阶差分参数）+帧能量（此项可根据需求替换）声音信号经过MFCC特征提取后便可得到描述其内容信息特征的向量。为方便后续说明，我们假设经过特征提取后每一帧的信号都变换为一个12维的向量，并用色块颜色的深浅来表示向量值的大小。图3.2.3 原波形图3.2.4 信号声学特征图第四章模式匹配模式匹配也即是解码过程。它是对上文得到的经过处理的声音信号与已有的语音模型库进行匹配以达到识别的目的

16、。经过特征识别，我们已经得到了描述声音内容信息特征的向量。接下来的解码过程就是在给定语音模型的情况下，找到最可能对应的发音的过程。图4.0.1 语音识别全过程本文主要介绍隐马尔科夫模型在模式匹配环节中的作用。4.1马尔科夫模型与隐马尔科夫模型按照维基百科的说法，到目前为止语音识别的技术都没有脱离隐马尔可夫模型框架。可见隐马尔科夫模型在语音识别中的重要性。为了透彻阐述隐马尔科夫模型，有必要同时简单介绍一下马尔科夫模型与隐马尔科夫模型。4.1.1 马尔科夫模型马尔科夫模型通过研究事物发生以及相互转化的概率从而对未来事物的状态进行预测。在马尔科夫模型中，事物当前的状态只与上一个状态而与其它任何时候的

17、状态均无关。用马尔科夫的一句富含哲理的话说：“过去发生的所有信息都汇集在今天，而明天如何，只取决于今天，与历史再无关联。”为加深理解，以预测天气为例。假设每天天气只有三种状态：晴天、雨天、多云。若第一天为晴天，则第二天也为晴天的概率为0.5，为多云的概率为0.375，为雨天的概率为0.125。同样也定义若第一天为雨天或多云，第二天为其它状态的天气之间的转移概率。图4.1.1 不同天气之间的转移概率假设第一个观察天（即昨天）为晴天，并由此预测今天的天气情况。到此，我们建立了一个一阶马尔科夫模型。它包含三个状态（即：晴天、多云、雨天）、各个状态之间的转换概率（如图4.1.1所示）以及初始概率（即：

18、昨天的天气）晴天。既然已知昨天为晴天，则初始晴天概率、初始多云概率、。则据此预测今天的天气：由此可知，今天为晴天的概率最大。既然已知今天的天气概率情况，又可以据此预测明天的天气情况：以此类推，后天的天气情况只与明天有关而与昨天，今天都无关。4.1.2 隐马尔科夫（HMM）模型在隐马尔科夫模型中，必备的三个要素分别初始概率、转移概率、输出概率。其中，初始概率与转移概率的含义与马尔科夫模型中相同，输出概率是指状态值映射到对应观测值的概率。例如：若当前的天气情况不能直接获得，只能通过测量空气湿度间接获得。同样举预测天气的例子，定义以下输出概率。图4.1.2 不同天气之间对应空气湿度的输出概率若观测

19、到连续三天，空气的潮湿程度分别为干燥，干燥，潮湿，则这三天最有可能是哪种天气情况。这里的隐马尔科夫链：P(干燥、干燥、潮湿|HMM)=P(干燥、干燥、潮湿|晴天、晴天、晴天)+P(干燥、干燥、潮湿|晴天、晴天、多云)+P(干燥、干燥、潮湿|晴天、晴天、雨天)+P(干燥、干燥、潮湿|晴天、多云、晴天)+P(干燥、干燥、潮湿|雨天、雨天、雨天)。采用穷举的办法可以找到概率最大的天气排序情况。这种由观测值推知状态值的方法就是隐马尔科夫模型。它可以用来描述含有隐含位置参数的马尔科夫过程。4.2语音模型库以中文为例进行后续说明。中文的发音由声母、韵母和整体认读音节组合而成。因而将每一个声母，韵母，整体认

20、读音节称作“音素”。每一个音素都有一定的发音规律，可以将这个发音实现经过特征提取后编算成计算机可存储的声学特征作为已知的语音模型库以方便后续的模式匹配。除了音素的存储之外，语音模型库还存储了大量单字，单词，成语等语句元素所对应的语音输出概率。（例如：当接收到语音信号“sui ji”时，这个信号识别为“随即”二字的概率为0.3，识别为“随机”二字的概率为0.5）这类似于隐马尔科夫模型中状态值映射到观测值的输出概率。4.3隐马尔科夫模型在模式匹配中的应用在完成特征提取后，就可以对未知语音帧序列进行识别了。完成模式匹配识别有两个步骤：（1）使用隐马尔科夫模型，构建一个状态量足够多的状态网络。状态网络

21、的搭建是由单词级别的网络展开成音素网络，再展开成状态网络。例如下图。图4.3.1 状态路径图中，以中文单词“随机”为例，将其拆分为音素“s”、“ui”、“j”、“i”,并由此生成对应的状态路径“S1-S2-S3-S4-S5-S6-S7-S8-S9-S10- S11-S12”。（2）从状态网络中寻找与声音最匹配的路径，即在所有可能的路径中选择一条概率最大的路径作为识别结果。这个要求可由相应的搜索算法（如：Viterbi算法）满足。本文着重阐述涉及隐马尔科夫模型的第一个步骤。由于说话语速的不同，每一个音素的持续帧数也不相同，所以可能会出现一帧或者几帧属于一个音素的情况，因此将音素又继续细分为更小的

22、单位：状态。在隐马尔科夫模型，状态是隐变量，语音是观测值。通过预处理、特征提取，我们将语音信号进行了分帧，并且也得到了用于描述每一帧语音信号声学特征的多维向量，这个过程的最终结果对应在隐马尔科夫模型中获得了观测值。此后，将之前分割的每一帧语音片段的声学特征与语音模型库中已知音素的状态的声学特征进行对比。得到当前观测值对应隐变量的输出概率。图4.3.2 获得输出概率图中，每个小竖条代表一帧。经过条件概论公式计算，发现图中箭头所指向的帧在状态S3上的概论最大，则将该帧识别为状态S3。以此类推识别每一帧信号的状态。图4.3.3 状态组成音素通过计算概率最大的隐马尔科夫链便可以判定当前一帧或几帧最大

23、概率属于哪一个状态，再由得到的状态凑成一个音素。若干帧语音识别为一个状态（如图中的S1029状态、S124状态），每三个状态组合成一个音素（如：图中的ay音素），若干个音素组合成一个单词。由此看出只要知道每帧语音所对应的状态即可得到语音识别的结果。第五章语言处理语言处理部分没有过多涉及随机过程的相关内容，本文只进行简单介绍。在实际应用中通常是在给定了根据语法、字典对马尔科夫模型进行连接后的搜索的网络（网络的每个节点可以是一个词组等）后，在所有可能的搜索路径中选择一条或多条最优（通常是最大后验概率）路径（字典中出现词组的词组串）作为识别结果。在一定的语法规则下，可以极大的减少隐马尔科夫模型的计算，提高准确度的同时减少时间，可谓是一举两得。【参考文献】1吴启晖,王金龙.基于谱熵的语音检测J.电子与信息学报,2001,(10):989-993.2李金宝，屈百达，刘立星，周小祥2006 - 中国自动化学会第21届青年学术年会3MFCC简介 4知乎作者：王赟 5语音特征参数MFCC提取过程详解 6CSDN博客 GMM-HMM语音识别模型原理篇

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

7 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 语音识别科普介绍

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【w****g】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。