语音信号的时域分析.ppt
《语音信号的时域分析.ppt》由会员分享,可在线阅读,更多相关《语音信号的时域分析.ppt(46页珍藏版)》请在咨信网上搜索。
1、第4章语音信号的时域分析4.2语音信号的数字化与预处理 4.1概述 4.4短时平均过零率和上升过零间隔 4.3短时平均能量和短时平均幅度 4.5短时自相关函数和短时平均幅度差函数4.6短时时域处理技术的应用 4.7中值滤波在语音短时时域处理中的应用 1编辑ppt第4章语音信号的时域分析4.1概述语音信号语音信号携带各种信息:携带各种信息:男声男声、女声女声,喜喜、怒怒,中中、英英等。等。不同场合感兴趣的信息不同;不同场合感兴趣的信息不同;判断信号是否为判断信号是否为语音语音,只需人类语音信号的,只需人类语音信号的一般特征一般特征;区分语音为区分语音为清、浊音清、浊音,需语音,需语音能量谱能量谱
2、和和基频基频;数字传输或数字存储时,目的数字传输或数字存储时,目的不同不同,保留信息精度,保留信息精度不同不同;语音信号处理语音信号处理的的任务任务:去除去除与应用目的不相干或影响不大的语音信息与应用目的不相干或影响不大的语音信息 需要的信息不仅应当提取出来,有时还需要需要的信息不仅应当提取出来,有时还需要加强加强。以上涉及语音信号中,各种信息的以上涉及语音信号中,各种信息的表示问题表示问题。表示方法的原则:表示方法的原则:最方便最方便、最有效最有效。短时分析短时分析技术技术贯穿于贯穿于语音分析的全过程。语音分析的全过程。第 4章 语 音 信 号 的 时 域 分 析 4.1 概 述2编辑ppt
3、整体的语音信号来讲,分析出的是由每一帧特征参数组成的特整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。征参数时间序列。语音信号分析语音信号分析:时域分析时域分析、频域分析频域分析、倒频域分析倒频域分析等;等;语音信号分析语音信号分析:模型分析模型分析、非模型分析非模型分析;模型分析法是指依据语音信号产生的数学模型,来分析和提取模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的表征这些模型的特征参数特征参数,模型分析:模型分析:共振峰分析共振峰分析、无损级联声管分析法无损级联声管分析法非模型分析:非模型分析:不进行模型化的分析不进行模型化的分析语音的预处理
4、语音的预处理:语音信号的:语音信号的数字化数字化、语音信号的、语音信号的端点检测端点检测、预加重预加重、加窗加窗、分帧分帧等,等,本章重点:本章重点:语音信号的各种时域分析技术,是语音处理技术语音信号的各种时域分析技术,是语音处理技术 的基础知识。的基础知识。第 4章 语 音 信 号 的 时 域 分 析 4.1 概 述3编辑ppt第4章语音信号的时域分析4.2语音信号的数字化和预处理 信号数字化:信号数字化:放大放大、增益控制增益控制、反混叠滤波反混叠滤波、取样取样、A/D变换变换及及编码编码(PCM编码编码););预处理:预处理:预加重预加重、加窗加窗、分帧分帧、端点检测端点检测等;等;图图
5、4.1:语音信号数字语音信号数字分析分析或或处理处理的的系统框图系统框图。第4章 语 音 信 号 的 时 域 分 析 4.2语 音 信 号 的 数 字 化 和 预 处 理 图图4.1语音信号数字处理系统框图语音信号数字处理系统框图反混叠滤波反混叠滤波语音输入语音输入语音输出语音输出A/D转换转换分析处理分析处理平滑滤波平滑滤波D/A转换转换合成处理合成处理传输或存储传输或存储4编辑ppt 4.2.1预滤波、取样、预滤波、取样、A/D变换变换 预滤波:预滤波:带通滤波器带通滤波器(上、下(上、下截止频率截止频率为为fH、fL)防混叠滤波防混叠滤波,抑制,抑制fs/2的输入信号分量(的输入信号分量
6、(fs为取样频率)为取样频率)抑制工频干扰抑制工频干扰(50 Hz电源)。电源)。多数多数语音编语音编/译码器:译码器:fH=3.4kHz,fL=60100Hz,fs=8kHz。语音识别:语音识别:对对电话用户电话用户指标与语音编指标与语音编/译码器时相同;译码器时相同;要求较高或很高:要求较高或很高:fH=4.5 or 8kHz,fL=60Hz,fs=10 or 20kHz。A/D变换需对信号变换需对信号量化量化,编码为,编码为二进制二进制,产生,产生量化误差量化误差。量化误差量化误差(量化噪声量化噪声):):量化信号值量化信号值与与原信号值原信号值之差;之差;信号波形的变化信号波形的变化足
7、够大足够大或量化或量化间隔足够小间隔足够小时,时,量化噪声符合具有下列特征的统计模型:量化噪声符合具有下列特征的统计模型:量化噪声是量化噪声是平稳的白噪声平稳的白噪声过程;过程;量化噪声与输入信号量化噪声与输入信号不相关不相关;量化噪声在量化间隔内量化噪声在量化间隔内均匀分布均匀分布,即具有,即具有等概率密度分布等概率密度分布。第4章 语 音 信 号 的 时 域 分 析 4.2语 音 信 号 的 数 字 化 和 预 处 理 5编辑ppt量化信噪比量化信噪比SNR(信号与量化噪声的功率比)为:(信号与量化噪声的功率比)为:式中,式中,输入输入语音信号序列语音信号序列的的方差方差,噪声序列噪声序列
8、的的方差方差,信号的信号的峰峰-峰值峰值,B量化字长量化字长,设语音信号的幅度服从设语音信号的幅度服从Laplace分布分布,则,则 取取 ,上式改写为:上式改写为:B=7 bit,SNR=35 dB,能,能满足一般满足一般通信系统的要求。通信系统的要求。语音波形的语音波形的动态范围动态范围达达55 dB,故,故B应取应取10 bit以上。以上。为保持为保持35 dB的的信噪比信噪比,常用,常用12 bit量化量化,附加的,附加的5 bit用于用于补偿补偿30 dB左右的输入左右的输入动态动态的变化。的变化。表明量化器中每表明量化器中每bit字长对字长对SNR的贡献约为的贡献约为6 dB 第4
9、章 语 音 信 号 的 时 域 分 析 4.2语 音 信 号 的 数 字 化 和 预 处 理 6编辑pptA/D变换器:变换器:分为分为线性线性和和非线性非线性两类。两类。目前采用绝大部分的目前采用绝大部分的线性线性A/D变换器变换器是是12 bit。非线性非线性A/D变换器变换器一般是一般是8 bit,它与,它与12 bit线性变换器线性变换器等效等效。有时需要将非线性的有时需要将非线性的8 bit码转换为线性的码转换为线性的12 bit码。码。数字化的数字化的反过程反过程是从数字化语音中是从数字化语音中重构语音重构语音波形。波形。必须在必须在D/A后加后加平滑滤波器平滑滤波器,对重构的语音
10、波形的高次谐波起,对重构的语音波形的高次谐波起平滑作用,以平滑作用,以去除高次谐波去除高次谐波失真。失真。预滤波预滤波、取样取样、A/D和和D/A变换变换、平滑滤波平滑滤波等许多功能可以用等许多功能可以用一块芯片一块芯片完成,在市场上有多种这样的完成,在市场上有多种这样的集成芯片集成芯片供选用。供选用。第4章 语 音 信 号 的 时 域 分 析 4.2语 音 信 号 的 数 字 化 和 预 处 理 7编辑ppt 4.2.2预处理预处理 预处理:预处理:预加重预加重、加窗加窗、分帧分帧、端点检测端点检测等;等;语音的一个特征:语音的一个特征:约约8 kHz高频端按高频端按-6 dB/倍频程倍频程
11、跌落。跌落。预加重:预加重:提升提升语音的语音的高频高频部分,使信号的频谱变得部分,使信号的频谱变得平坦平坦,可在可在反混叠滤波前反混叠滤波前,可,可压缩动态范围压缩动态范围,提高信噪比提高信噪比。也可在也可在数字化后数字化后、参数分析之前参数分析之前。预加重预加重用用6 dB/倍频程倍频程的提升高频特性的的提升高频特性的预加重数字滤波器预加重数字滤波器:式中,式中,为为常系数常系数,值接近于,值接近于1,通常取,通常取=0.920.94。恢复恢复原信号,对测量值进行原信号,对测量值进行去加重去加重处理,处理,即加上即加上-6 dB/倍频程的下降的频率特性来还原成原来的特性。倍频程的下降的频率
12、特性来还原成原来的特性。第4章 语 音 信 号 的 时 域 分 析 4.2语 音 信 号 的 数 字 化 和 预 处 理 8编辑ppt 4.2.3窗函数的作用窗函数的作用 采用采用连续分段连续分段或或交叠分段交叠分段的方法的方法分帧分帧,33 100帧帧/秒秒。图图4.2:帧移与帧长示例。帧移与帧长示例。帧与帧之间的信号平滑过渡,保持其连续性。帧与帧之间的信号平滑过渡,保持其连续性。帧移:帧移:前后帧的前后帧的交叠部分交叠部分。帧移帧移与与帧长帧长的的比值比值一般为一般为01/2。移动窗函数加权实现:移动窗函数加权实现:x(n)为为语音信号,语音信号,w(n)为为窗函数,窗函数,sw(n)为为
13、窗选语音信号窗选语音信号。图图4.2帧移与帧长的示例帧移与帧长的示例(N为帧长,为帧长,M为帧移为帧移)理想窗函数的频率响应有理想窗函数的频率响应有一个一个很窄的主瓣很窄的主瓣,它增加了频,它增加了频率的分辨度,而率的分辨度,而没有旁瓣没有旁瓣。第4章 语 音 信 号 的 时 域 分 析 4.2语 音 信 号 的 数 字 化 和 预 处 理 9编辑ppt 讨论讨论窗函数窗函数的的形状形状和和长度长度的影响。的影响。1.窗函数的形状窗函数的形状好的窗函数的好的窗函数的标准标准:时域:减小时域:减小时间窗两端的时间窗两端的坡度坡度,使窗口两端边缘,使窗口两端边缘平滑过渡到平滑过渡到到零到零,减小减
14、小语音帧的语音帧的截断效应截断效应;频域:较宽频域:较宽的的3 dB带宽和带宽和较小较小的边带最大值。的边带最大值。常用的常用的窗函数窗函数(窗长为(窗长为N):):(1)矩形(矩形(rectangular)窗:)窗:(2)Hamming(汉明)窗:(汉明)窗:(3)Hanning(汉宁)窗:(汉宁)窗:第4章 语 音 信 号 的 时 域 分 析 4.2语 音 信 号 的 数 字 化 和 预 处 理 10编辑ppt(4)Bartlett(巴特雷特)窗:(巴特雷特)窗:(5)Blackman(布累克曼)窗:(布累克曼)窗:(6)Kaiser(凯散)窗:(凯散)窗:式中,式中,零阶贝塞尔函数零阶贝
15、塞尔函数,第4章 语 音 信 号 的 时 域 分 析 4.2语 音 信 号 的 数 字 化 和 预 处 理 11编辑ppt图图4.3、4.4:窗函数的波形窗函数的波形矩形窗矩形窗主瓣最窄主瓣最窄,频率分辨度,频率分辨度 最高最高,频率,频率泄漏最大泄漏最大;Blackman窗频率分辨度窗频率分辨度最低最低,频率频率泄漏最小泄漏最小。常用常用矩形窗矩形窗、Hamming窗窗。第4章 语 音 信 号 的 时 域 分 析 4.2语 音 信 号 的 数 字 化 和 预 处 理 图图4.3各种窗函数的时间波形各种窗函数的时间波形图图4.4各种窗的频率响应各种窗的频率响应Bartlett窗窗 矩形窗矩形窗
16、Hamming窗窗 Blackman窗窗 Hanning窗窗 Kaiser窗窗 12编辑ppt 2.窗口的长度窗口的长度 取样周期取样周期Ts=fs、窗口长度窗口长度N、频率分辨率频率分辨率f 的关系为:的关系为:Ts一定时,一定时,f 随窗口随窗口N增加增加而而减小减小,即即f 提高提高,时间分辨率,时间分辨率降低降低。如果窗口如果窗口取短取短,频率分辨率,频率分辨率下降下降,时间分辨率,时间分辨率提高提高。取样周期和频率分辨率取样周期和频率分辨率矛盾矛盾,应根据需要,应根据需要选择合适选择合适的窗长。的窗长。时域分析:时域分析:N 很大,语音高频受阻,短时能量变化很小,不能反映幅度变化;很
17、大,语音高频受阻,短时能量变化很小,不能反映幅度变化;N 太小,滤波器通带宽,短时能量急剧变化,不能平滑能量函数。太小,滤波器通带宽,短时能量急剧变化,不能平滑能量函数。通常一帧内应含有通常一帧内应含有1 7个基音周期。个基音周期。基音周期变化大,从女性和儿童的基音周期变化大,从女性和儿童的2 ms到老年男子的到老年男子的14 ms10 kHz取样时,取样时,N 折衷选择为折衷选择为100 200点(点(10 20 ms)。)。分析条件:分析条件:(通常需标明,以提供性能评价参考依据)取样频率、精度、预加重方式、窗函数、帧长、帧移取样频率、精度、预加重方式、窗函数、帧长、帧移等。等。第4章 语
18、 音 信 号 的 时 域 分 析 4.2语 音 信 号 的 数 字 化 和 预 处 理 13编辑ppt第4章语音信号的时域分析4.3短时能量和短时平均幅度 4.3.1短时能量短时能量语音的清音能量语音的清音能量较小较小,浊音能量,浊音能量较大较大。语音的能量分析主要语音的能量分析主要短时能量短时能量和和短时平均幅度短时平均幅度。n时刻时刻语音信号的语音信号的短时能量短时能量En为:为:或或 式中,式中,h(n)=w2(n),可以看做滤波器的,可以看做滤波器的冲激响应函数冲激响应函数。En反映语音反映语音振幅振幅或或能量能量随随时间时间缓慢变化的缓慢变化的规律规律。窗函数窗函数或或滤波器滤波器的
19、函数的函数形式形式和和宽度宽度对能量序列影响很大。对能量序列影响很大。选择合适的选择合适的窗函数窗函数或滤波器的或滤波器的冲激响应函数冲激响应函数和它们的和它们的宽度宽度。用得较多的是用得较多的是矩形窗矩形窗和和Hamming窗窗。第 4章 语 音 信 号 的 时 域 分 析 4.3 短 时 能 量 和 短 时 平 均 幅 度14编辑ppt 窗宽的影响:窗宽的影响:窗函数很宽窗函数很宽或或冲激响应很长冲激响应很长,平滑作用,平滑作用显著显著,使,使En变化不大,变化不大,反映不出语音能量的时变特性。反映不出语音能量的时变特性。窗函数过窄窗函数过窄,平滑作用,平滑作用有限有限,仍然保留,仍然保留
20、瞬时瞬时快变化,使快变化,使En反映反映语音振幅细节,表现不出振幅平方包络的变化规律。语音振幅细节,表现不出振幅平方包络的变化规律。当当N小于语音基音周期时,将按照基音周期内语音振幅平方波小于语音基音周期时,将按照基音周期内语音振幅平方波形的形的细节细节瞬时变化;瞬时变化;当当N比基音周期的若干倍还要大时,各段语音的短时能量差别比基音周期的若干倍还要大时,各段语音的短时能量差别不大,不能跟随语音能量的时变特性。不大,不能跟随语音能量的时变特性。这两种情况都不能准确描述语音能量自身的实际变化规律。这两种情况都不能准确描述语音能量自身的实际变化规律。必须选择合适的窗宽,必须选择合适的窗宽,兼顾男声
21、和女声,兼顾男声和女声,10 kHz取样时,选取样时,选窗宽窗宽10 20 ms。第 4章 语 音 信 号 的 时 域 分 析 4.3 短 时 能 量 和 短 时 平 均 幅 度15编辑ppt图图4.54.5:语音的语音的短时能量短时能量序列的序列的包络曲线包络曲线。第 4章 语 音 信 号 的 时 域 分 析 4.3 短 时 能 量 和 短 时 平 均 幅 度(a)加矩形窗时加矩形窗时 (b)加加Hamming窗时窗时图图4.5语音语音“同舟共济同舟共济”的短时能量函数(的短时能量函数(10 kHz取样)取样)矩形窗比矩形窗比Hamming窗的平滑效果显著窗的平滑效果显著;随着窗宽的增加,平
22、滑效果越显著;随着窗宽的增加,平滑效果越显著;从的包络曲线可以清楚看出清音和浊音之间的从的包络曲线可以清楚看出清音和浊音之间的区别区别和和分界点分界点,16编辑ppt 4.3.2短时平均幅度短时平均幅度En的计算是的计算是平方求和平方求和,计算量大;,计算量大;平方运算平方运算扩大扩大了样本间了样本间差别差别,选窗宽择带来附加的困难。,选窗宽择带来附加的困难。须选择较宽的窗,才能须选择较宽的窗,才能较好地平滑较好地平滑平方幅度的起伏。平方幅度的起伏。为此,提出语音能量时变性质的为此,提出语音能量时变性质的另一个重要参数。另一个重要参数。n时刻时刻语音信号的语音信号的短时平均幅度短时平均幅度Mn
23、为:为:或或 式中,式中,h(n)=w(n)通常窗函数通常窗函数w(n)0,所以,所以h(n)=w(n)。依据依据定义式定义式可导出多种的可导出多种的计算方法计算方法(略)(略)。共三种。共三种。第 4章 语 音 信 号 的 时 域 分 析 4.3 短 时 能 量 和 短 时 平 均 幅 度17编辑ppt图图4.64.6:语音的语音的平均幅度平均幅度序列的序列的包络曲线包络曲线。第 4章 语 音 信 号 的 时 域 分 析 4.3 短 时 能 量 和 短 时 平 均 幅 度(a)加矩形窗时加矩形窗时 (b)加加Hamming窗时窗时图图4.6语音语音“同舟共济同舟共济”的短时平均幅度函数(的短
24、时平均幅度函数(10 kHz取样)取样)语音的语音的平均幅度平均幅度与与短时能量短时能量具有相似的一些性质具有相似的一些性质矩形窗比矩形窗比Hamming窗的平滑效果显著窗的平滑效果显著;随着窗宽的增加,平滑效果越显著;随着窗宽的增加,平滑效果越显著;从的包络曲线可以清楚看出清音和浊音之间的从的包络曲线可以清楚看出清音和浊音之间的区别区别和和分界点分界点,18编辑ppt比较比较En和和Mn(比较比较图图4.6与与4.5):):短时平均幅度的差别没有它们的短时能量的差别那么显著;短时平均幅度的差别没有它们的短时能量的差别那么显著;清音的短时平均幅度比短时能量有所提高。清音的短时平均幅度比短时能量
25、有所提高。En和和Mn的主要用途:的主要用途:区分语音的区分语音的清音段清音段与与浊音段浊音段;区分区分声母声母与与韵母韵母;无声无声与与有声有声的的分界分界;作为一种作为一种超音段信息超音段信息用于语音识别。用于语音识别。第 4章 语 音 信 号 的 时 域 分 析 4.3 短 时 能 量 和 短 时 平 均 幅 度19编辑ppt例:现有单词例:现有单词“one”和和“four”的英文发音的语音信号,下图为检的英文发音的语音信号,下图为检 测信号的相应短时能量脉冲分布,分析哪个为测信号的相应短时能量脉冲分布,分析哪个为“one”的短时的短时 能量谱,哪个为能量谱,哪个为“four”的短时能量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 时域 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。