基于改进语音信号双门限法端点检测算法的研究.pdf

上传人：自信****多点

文档编号：637000

上传时间：2024-01-21

格式：PDF

页数：6

大小：1,008.30KB

《基于改进语音信号双门限法端点检测算法的研究.pdf》由会员分享，可在线阅读，更多相关《基于改进语音信号双门限法端点检测算法的研究.pdf（6页珍藏版）》请在咨信网上搜索。

1、第 35 卷第 3 期湖南文理学院学报(自然科学版)Vol.35 No.32023 年 9 月Journal of Hunan University of Arts and Science(Science and Technology)Sep.2023doi:10.3969/j.issn.16726146.2023.03.009基于改进语音信号双门限法端点检测算法的研究朱敏(安徽三联学院电子电气工程学院,安徽合肥,230601)摘要:语音信号端点检测是语音信号预处理过程中的重要环节,传统双门限法采用短时能量和短时平均过零率,通过设置阈值进行语音信号起始点和结束点检测,在高信噪比条件下识别

2、效果较好,但是在低信噪比下,噪声影响传统检测的速度和准确性。为了提高语音识别的效率,提出一种改进的双门限法语音端点检测算法,采用动态设定阈值,进行平滑滤波等改进方法。通过 MATLAB 仿真表明,改进算法在低信噪比下的识别准确性较高,有利于后续语音识别的研究。关键词:端点检测;双门限法;动态阈值;平滑滤波中图分类号:TN 912.3文献标志码:A文章编号:16726146(2023)03004806Research on speech signal endpoint detection algorithm based on improved doublethreshold methodZhu

3、Min(College of Electronic and Electrical Engineering,Anhui Sanlian University,Hefei 230601,China)Abstract:Speech signal endpoint detection is a key link in the process of speech signal preprocessing.Thetraditional double threshold method uses the shorttime energy and shorttime zero crossing rate on

4、average,anddetects the starting point and end point of speech signals by setting the threshold.The recognition effect under thecondition of high SNR is better than that of low SNR,under which noise can have an impact on the speed andaccuracy of traditional detection.In order to improve the efficienc

5、y of speech recognition,this paper proposes animproved double threshold speech endpoint detection algorithm,which adopts dynamic threshold setting and smoothfiltering.MATLAB simulation shows that the improved algorithm has high recognition accuracy under lowsignaltonoise ratio,which is conducive to

6、subsequent research on speech recognition.Key words:endpoint detection;double threshold method;dynamic threshold value;smooth filtering检测出语音的端点是语音信号处理中极其重要的一个环节。语音端点的检测是指从包含噪声的一段语音信号中确定出语音的起始点和结束点的位置。根据端点检测,可以将语音分成有话段和无话段。有效的端点检测技术能够抑制无声段的噪声干扰,很大程度上降低后续音频特征提取以及识别相关模型建立的数据量和运算量,提高语音处理的质量。性能优越的端点检测技术对

7、语音信号处理产生的影响使得它一直是语音信号处理的研究热点之一1。当前常用的语音信号端点检测技术包含双门限法、自相关法、谱距离法、谱熵法、小波变换和 EMD 分解法等。其中基于短时平均能量和短时平均过零率的两级判断的双门限法端点检测方法实现简单,检测结果在一定条件下能够满足需求,因此应用广泛2。传统双门限法对与语音环境要求较高,在低信噪比环境下,判断过程受到噪声干扰,准确性受到影响。在大量实验过程中发现,可以通过动态阈值的调整,平滑滤波,动态检测等几个方面进行算法的改进,通信作者:朱敏,。收稿日期:20230315基金项目:安徽省自然科学重点研究项目(KJ2021A1190;2022AH0520

8、02)。第3期朱敏:基于改进语音信号双门限法端点检测算法的研究49并且对改进后的双门限法端点检测通过 MATLAB 进行仿真测试,对比在低信噪比环境下,噪声对于检测结果的影响远远低于传统双门限法3。1语音端点检测1.1加窗分帧语音信号具有短时平稳性,在一小段时间里语音能量近似不变,因此可以将语音信号分成段来分析其特征参数,每一段称为一帧,这个时间段为帧长,一般为 1030 ms,在分帧中设置相邻两帧之间部分重叠,保证帧与帧之间特征参数平滑的变化,使其平稳过渡,保持连续性4。后一帧对前一帧的位移量称为帧移,相邻两帧的重叠部分为帧长减去帧移。对语音信号进行分帧前首先要对语音进行加窗处理:y(n)=

9、x(n)w(n)。其中,x(n)为语音采样信号,w(n)为窗函数,y(n)为输出信号。语音信号采用具有平滑低通特性的汉明窗(Hamming Window)来进行加窗处理:2 0.540.46cos(),01()10,nnNh nN。其他(1)式(1)中,N 为帧长。本系统取帧长为 200,帧移为 80。1.2短时能量语音信号分帧后,语音信号能量随时间有较大的变化,浊音时能量值比清音大得多,从能量图中En的变化,可以判定浊音变为清音或者清音变为浊音的时刻,同时可以用来区分声母和韵母的分界以及无声段和有声段的分界。带噪声的语音信号能量分布表现为噪声的能量值要远小于正常语音能量值,纯净语音信号叠加了

10、噪声信号后能量变得更高,静音信号被噪声信号占据,能量值远小于语音信号能量,通过设定相关的阈值就可以把语音段和非语言段区别开来5。短时能量对于高电平信号非常敏感,因此可以采用短时平均幅度来度量信号幅度,短时平均幅度和短时能量实质上是一样的,体现的都是语音的能量,可根据实际选取二者之一作为端点检测的参数。计算语音信号 y(n)的短时平均能量公式为22()()()()()mE nxm h nmxnh n。其中,短时平均能量 E(n)相当于语音信号的平方通过一个单位脉冲响应的滤波器。如果窗函数中窗口长度 m 过大,平滑作用大,信号变化不大;m 较小,没有平滑作用。因此选择合适的窗口长度对于能量的计算有

11、着重要作用。读入一段智能家居场景下的语音文件(内容为“打开空调”),计算短时平均能量值,如图 1 所示。1.3短时平均过零率短时平均过零率表示一帧语音中语音信号波形穿过零电平的次数。输入语音信号 x(n)经分帧后的短时平均过零率计算公式为101()|sgn()sgn(1)|2NnnnZ nx mx m。其中,N 为帧长,sgn为符号函数,即1,()0,sgn()1,()0 x nx nx n。通过多次实验分析语音信号过零率发现,发浊音时具有较低的过零率,发清音时具有较高的过零率,可以区分清音与浊音。通常清音和噪声的短时平均过零率比浊音大很多,因此可以区分清音、噪声图 1语音“打开空调”波形图和

12、它的短时能量(a)“打开空调”语音波形(b)短时能量时间/s幅值101时间/s幅值105000.5 1.0 1.52.0 2.53.0 3.5 4.04.5 5.000.5 1.0 1.5 2.02.5 3.0 3.54.0 4.5 5.050湖南文理学院学报(自然科学版)2023 年和浊音。采用短时平均过零率可以从背景噪声中找出语音信号,可以判断无话段与有话段的起始点,为了保证过零率计算稳定,排除微小漂移,对输入的语音信号做中心截幅处理,再计算过零率,提高精度。读入语音文件(内容为“打开空调”),计算短时平均过零率6,如图 2 所示。1.4传统双门限法端点检测双门限法端点检测是基于短时能量和

13、短时平均过零率提出的,原理是汉语的韵母中有元音,能量较大,可利用短时平均能量找到韵母;而声母是辅音,频率较高,可采用短时平均过零率来进行识别。在信噪比较大时使用短时能量进行端点检测效果明显,而在信噪比较小时,采用短时平均过零率识别有效。采用这 2 种识别方法找出汉语音节,然后采用两级判别来进行端点检测7,如图 3 所示,T1、T2是短时能量的高、低门限,T3是短时平均过零率的门限值。采用基于能量和过零率的双门限比较法进行端点检测,先对语音信号计算得到短时平均能量E、背景噪声平均能量pE、背景噪声短时平均过零率Z8。设定短时能量高低门限1TE、2pTE和短时平均过零率门限3TZ,整个语音分为 4

14、段:静音段、语音段及过渡段及结束段。当某一帧语音信号短时能量小于低门限 T2,即 EiT2时,第 i 帧语音信号为静音帧;当 T2EiT3时,第 i 帧语音为语音起始点;当 T2Ei+kT3时,第 i+k(k0)帧语音为语音结束点,以此来判断语音信号的起始点。传统双门限法端点检测算法阈值固定,不能随信号改变而改变,并且背景噪声较大时,会影响短时过零率的计算,导致检测结果不准确,因此需要在传统检测基础上对算法进行改进9。2改进双门限法端点检测2.1动态阈值端点检测中检测准确性会受到多种因素的影响,其中,噪声是主要的影响因子。不同的噪声和不同的信噪比都会影响检测准确性10。改进双门限法检测通过设

15、置语音前导无话段的最小长度,利用前导无话段来估算噪声的特性,对前导无话段计算噪声的短时平均能量和平均过零率,在这2个值的基础上设置短时能量高、低阈值 T1、T2和短时平均过零阈值 T3,这几个阈值不是固定值,将会随着前导无段话计算噪声的情况而发生变化。为了保证过零率计算的稳定,排除语音信号的微小的零漂移,对输入语音信号进行中心截幅处理:(),|()|,()0,|()|,iiiix mx mx mx m%其中,是一个很小的正数。中心截幅之后再计算每一帧的过零率:11()|sgn()sgn(1)|2NiimZ nx mx m%,保证过零率计算稳(b)短时能量时间/s幅值0.80.60.40.20T

16、1T2(a)“打开”语音波形00.10.2 0.3 0.40.5 0.60.70.80.9时间/s幅值0.200.20.400.10.2 0.3 0.40.5 0.60.70.80.9图 2语音信号波形和它对应的短时平均过零率(a)“打开空调”语音波形00.5 1.0 1.52.0 2.5 3.0 3.5 4.0 4.5 5.0时间/s幅值101(b)短时平均过零率时间/s幅值15010050000.5 1.0 1.52.0 2.5 3.0 3.5 4.0 4.5 5.0图 3传统短时能量短时过零率两级判决法示意图T3(c)短时平均过零率150100500幅值时间/s00.10.2 0.3 0

17、.40.5 0.60.70.80.9第3期朱敏:基于改进语音信号双门限法端点检测算法的研究51定。式中,1,()0,sgn()1,()0iiix mx mx m。%说话人的不同语速也会影响端点检测准确性,通过在算法中设置语音静音区的最小长度和有话段的最小长度,并根据测试的语音语速在算法中修改这 2 个值,来提高待识别的参数准确性11。在信噪比较低的情况下,识别的效果较好,但是在信噪比较高的情况下,在无话段的噪声处因为富含高频成分而有较大的过零率,比静音状态下声母和韵母段都要大,此时就有可能把整个噪音区都作为声母选中,韵母可能被判为无话段,导致检测错误,此时在改进算法中对于有话段的过零率设定寻找

18、小于阈值T3,这样做的目的就是为了避免因噪声对过零率产生错误判断12。2.2中值滤波平滑处理在低信噪比情况下,由于噪声种类不相同,会因某些语音的能量较小,设置的阈值较低引起误判。为了减少能量曲线和过零率在无话区内的起伏,可以通过中值滤波对曲线进行平滑处理来有效地去除曲线中少量的野点,同时也不会破坏数据在 2 个平滑段的阶跃变化,进而提高端点检测的准确率。中值滤波前后对比如图 4、图 5 所示。3实验仿真及结果根据改进的双门限法端点检测算法在 Matlab 2016a 软件下进行仿真,观察对比不同信噪比下改进前后 2 种算法仿真的结果,检测改进算法的准确性。在实验室安静环境下采用笔记本电脑的音频

19、采集器进行声音采集,采集频率为 1.6104Hz,16 位单声道,格式为 PCM 格式,保存录制语音为 wav 格式。3.1实验语音端点检测分析3.1.1高信噪比环境录制的语音“打开电视,调到中央一台”是在实验室安静环境下进行的,为了验证算法的抗噪性能,加入 30 dB 的高斯白噪声,此语音模拟高信噪比环境,用传统算法和改进算法分别去测试同一个语音,仿真结果如图 6 所示。图中实线代表有话段的开始,虚线代表有话段的结束。传统算法和改进算法识别准确性相差不大,在低噪声环境中传统算法也能够准确识别。图 4中值滤波前平滑处理(a)“打开空调”语音波形00.51.0 1.5 2.02.5 3.03.5

20、 4.0 4.5 5.0时间/s幅值101(c)中值滤波后短时平均过零率时间/s幅值(b)短时平均过零率时间/s幅值2001000200100000.51.0 1.52.0 2.5 3.03.5 4.04.5 5.000.5 1.0 1.52.0 2.53.0 3.54.0 4.5 5.0图 5中值滤波后平滑处理(a)“打开空调”语音波形00.5 1.01.5 2.02.5 3.0 3.54.0 4.5 5.0时间/s幅值101(c)中值滤波后短时能量时间/s幅值(b)短时能量时间/s幅值1050105000.5 1.0 1.52.02.5 3.0 3.54.0 4.5 5.000.5 1.0

21、1.52.0 2.5 3.03.5 4.0 4.5 5.052湖南文理学院学报(自然科学版)2023 年3.1.2低信噪比环境在实际应用中噪声的干扰对短时平均过零率的影响较大,在语音中噪声的干扰较大时,信噪比较小,系统端点检测准确性会受到较大影响。根据改进的算法,在实验测试过程中模拟低信噪比环境,给实验室环境中录制的语音信号加入不同分贝的高斯白噪声,检测改进算法的准确性。图 7 所示为 15 dB信噪比下传统算法和改进算法的结果分析,能够看出,传统算法会受到噪声干扰,而改进后的算法能够准确识别端点。随着信噪比的降低,改进算法的识别如图 8(信噪比为 10 dB)和图 9(信噪比为 5 dB)所

22、示,在噪声不断增强时,改进算法的识别效果仍然能够满足较高的识别准确性。3.2检测准确性对比分析端点检测准确率的计算公式为:准确率=(总帧数错误帧数)/总帧数。对实验音频信号施加不同信噪比,分别采用传统双门限法和改进后的双门限法进行端点检测,根据上述公式计算传统算法和改进算法在不同信噪比下的准确率,结果如图 10 所示。采用改进后的端点检测算法,由于动态阈值检测及中值滤波处理降低了噪声的影响,弥补了传统算法的缺陷,因此能够真正识别出有效的语音片段,使得识别的准确性得到了大幅度提高。图 630 dB 信噪比下传统与改进双门限法端点检测仿真结果(b)30 dB 信噪比下改进双门限法端点检测结果00.

23、5 1.01.52.02.5 3.0 3.5 4.04.55.0时间/s幅值101(a)30 dB 信噪比下传统双门限法端点检测结果00.51.0 1.52.0 2.5 3.03.5 4.04.55.0时间/s幅值101图 715 dB 信噪比下传统与改进双门限法端点检测仿真结果(a)15 dB 信噪比下传统双门限法端点检测结果00.51.01.5 2.0 2.53.0 3.5 4.04.55.0时间/s幅值101(b)15 dB 信噪比下改进双门限法端点检测结果00.5 1.01.5 2.02.5 3.03.5 4.0 4.55.0时间/s幅值101图 810 dB 信噪比下传统与改进双门限

24、法端点检测仿真结果(a)10 dB 信噪比下传统双门限法端点检测结果00.51.0 1.5 2.02.53.0 3.5 4.04.5 5.0时间/s幅值101(b)10 dB 信噪比下改进双门限法端点检测结果00.5 1.01.5 2.0 2.53.0 3.5 4.04.5 5.0时间/s幅值101图 95 dB 信噪比下传统与改进双门限法端点检测仿真结果(a)5 dB 信噪比下传统双门限法端点检测结果00.5 1.0 1.52.02.5 3.03.5 4.04.5 5.0时间/s幅值101(b)5 dB 信噪比下改进双门限法端点检测结果00.51.0 1.5 2.0 2.5 3.0 3.54

25、.04.5 5.0时间/s幅值101第3期朱敏:基于改进语音信号双门限法端点检测算法的研究534结语本文通过对传统双门限法端点检测算法的分析,提出一种新的改进型的算法,通过设置语音前导无话段的最小长度,利用前导无话段来估算噪声的特性、计算噪声的参数,对短时能量和短时平均过零率进行动态阈值和中值滤波改进,通过软件仿真验证,通过对比不同信噪比环境下的传统和改进算法测试准确度,证明改进算法在噪声增强的情况下仍然能够保持较好的准确性,说明改进算法能够克服噪声的干扰,使得端点检测的准确性得到显著提高。参考文献:1费宇泉,王英键,夏愉乐.语音端点检测算法研究J.自动化技术与应用,2017,36(8):98

26、102.2孙一鸣,吴杨杨,李平.基于改进双门限法的语音端点检测研究J.长春理工大学学报(自然科学版),2016,39(1):9295.3曹斌芳,彭光含,彭元杰,黎小琴.一种分层阈值优化的语音感知小波去噪方法J.湖南文理学院学报(自然科学版),2014,26(2):3539.4黄洋,赵风海,卢景.语音信号处理中双门限端点检测算法的改进J.南开大学学报(自然科学版),2021,54(2):5862.5邢立钊.语音信号端点检测算法的研究D.郑州:郑州大学,2016.6姚永强,易本顺,姚远.航空噪声背景下的语音端点检测和语音增强J.电声技术,2006,36(4):3639.7王琳,阴桂梅,陈国梅.基于

27、端点检测的语音分割方法J.电脑编程技巧与维护.2020,59(10):151153.8宋知用.MATLAB 语音信号分析与合成(第 2 版)M.北京:北京航空航天大学出版社,2018.9姜囡.案件语音端点检测方法的改进J.中国刑警学院学报,2020,155(3):123128.10 秦坚,袁越,付金磊,尚玺.基于光OFDM信号导频功率分配优化的信道估计研究J.湖南文理学院学报(自然科学版),2019,31(4):1319.11 HAN Z Y,WANG J.Research on speech endpoint detection under low signaltonoise rationC

28、/OL.Qingdao:The 27thChinese Control and Decision Conference,201520190328.http:/ieeexplore.ieee.org/stamp.jsp?arnumber=7162555.12 LUO Y Q,WU X P,LU Z,et al.A recursive calculating algorithm for higherorder cumulants over sliding window and itsapplication in speech endpoint detectionJ.Chinese Journal of Acoustics,2015,34(4):436449.(责任编校:张艳燕)图 10高斯白噪声不同信噪比下 2 种算法端点检测准确率1009590858075706505101520253035信噪比/dB检测准确性/%acc 传统算法bcc 改进算法

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于改进语音信号门限端点检测算法研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。