基于改进语音信号双门限法端点检测算法的研究.pdf
《基于改进语音信号双门限法端点检测算法的研究.pdf》由会员分享,可在线阅读,更多相关《基于改进语音信号双门限法端点检测算法的研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、第 35 卷第 3 期湖南文理学院学报(自然科学版)Vol.35 No.32023 年 9 月Journal of Hunan University of Arts and Science(Science and Technology)Sep.2023doi:10.3969/j.issn.16726146.2023.03.009基于改进语音信号双门限法端点检测算法的研究 朱敏(安徽三联学院 电子电气工程学院,安徽 合肥,230601)摘要:语音信号端点检测是语音信号预处理过程中的重要环节,传统双门限法采用短时能量和短时平均过零率,通过设置阈值进行语音信号起始点和结束点检测,在高信噪比条件下识别
2、效果较好,但是在低信噪比下,噪声影响传统检测的速度和准确性。为了提高语音识别的效率,提出一种改进的双门限法语音端点检测算法,采用动态设定阈值,进行平滑滤波等改进方法。通过 MATLAB 仿真表明,改进算法在低信噪比下的识别准确性较高,有利于后续语音识别的研究。关键词:端点检测;双门限法;动态阈值;平滑滤波中图分类号:TN 912.3文献标志码:A文章编号:16726146(2023)03004806Research on speech signal endpoint detection algorithm based on improved doublethreshold methodZhu
3、Min(College of Electronic and Electrical Engineering,Anhui Sanlian University,Hefei 230601,China)Abstract:Speech signal endpoint detection is a key link in the process of speech signal preprocessing.Thetraditional double threshold method uses the shorttime energy and shorttime zero crossing rate on
4、average,anddetects the starting point and end point of speech signals by setting the threshold.The recognition effect under thecondition of high SNR is better than that of low SNR,under which noise can have an impact on the speed andaccuracy of traditional detection.In order to improve the efficienc
5、y of speech recognition,this paper proposes animproved double threshold speech endpoint detection algorithm,which adopts dynamic threshold setting and smoothfiltering.MATLAB simulation shows that the improved algorithm has high recognition accuracy under lowsignaltonoise ratio,which is conducive to
6、subsequent research on speech recognition.Key words:endpoint detection;double threshold method;dynamic threshold value;smooth filtering检测出语音的端点是语音信号处理中极其重要的一个环节。语音端点的检测是指从包含噪声的一段语音信号中确定出语音的起始点和结束点的位置。根据端点检测,可以将语音分成有话段和无话段。有效的端点检测技术能够抑制无声段的噪声干扰,很大程度上降低后续音频特征提取以及识别相关模型建立的数据量和运算量,提高语音处理的质量。性能优越的端点检测技术对
7、语音信号处理产生的影响使得它一直是语音信号处理的研究热点之一1。当前常用的语音信号端点检测技术包含双门限法、自相关法、谱距离法、谱熵法、小波变换和 EMD 分解法等。其中基于短时平均能量和短时平均过零率的两级判断的双门限法端点检测方法实现简单,检测结果在一定条件下能够满足需求,因此应用广泛2。传统双门限法对与语音环境要求较高,在低信噪比环境下,判断过程受到噪声干扰,准确性受到影响。在大量实验过程中发现,可以通过动态阈值的调整,平滑滤波,动态检测等几个方面进行算法的改进,通信作者:朱敏,。收稿日期:20230315基金项目:安徽省自然科学重点研究项目(KJ2021A1190;2022AH0520
8、02)。第3期朱敏:基于改进语音信号双门限法端点检测算法的研究49并且对改进后的双门限法端点检测通过 MATLAB 进行仿真测试,对比在低信噪比环境下,噪声对于检测结果的影响远远低于传统双门限法3。1语音端点检测1.1加窗分帧语音信号具有短时平稳性,在一小段时间里语音能量近似不变,因此可以将语音信号分成段来分析其特征参数,每一段称为一帧,这个时间段为帧长,一般为 1030 ms,在分帧中设置相邻两帧之间部分重叠,保证帧与帧之间特征参数平滑的变化,使其平稳过渡,保持连续性4。后一帧对前一帧的位移量称为帧移,相邻两帧的重叠部分为帧长减去帧移。对语音信号进行分帧前首先要对语音进行加窗处理:y(n)=
9、x(n)w(n)。其中,x(n)为语音采样信号,w(n)为窗函数,y(n)为输出信号。语音信号采用具有平滑低通特性的汉明窗(Hamming Window)来进行加窗处理:2 0.540.46cos(),01()10,nnNh nN。其他(1)式(1)中,N 为帧长。本系统取帧长为 200,帧移为 80。1.2短时能量语音信号分帧后,语音信号能量随时间有较大的变化,浊音时能量值比清音大得多,从能量图中En的变化,可以判定浊音变为清音或者清音变为浊音的时刻,同时可以用来区分声母和韵母的分界以及无声段和有声段的分界。带噪声的语音信号能量分布表现为噪声的能量值要远小于正常语音能量值,纯净语音信号叠加了
10、噪声信号后能量变得更高,静音信号被噪声信号占据,能量值远小于语音信号能量,通过设定相关的阈值就可以把语音段和非语言段区别开来5。短时能量对于高电平信号非常敏感,因此可以采用短时平均幅度来度量信号幅度,短时平均幅度和短时能量实质上是一样的,体现的都是语音的能量,可根据实际选取二者之一作为端点检测的参数。计算语音信号 y(n)的短时平均能量公式为22()()()()()mE nxm h nmxnh n。其中,短时平均能量 E(n)相当于语音信号的平方通过一个单位脉冲响应的滤波器。如果窗函数中窗口长度 m 过大,平滑作用大,信号变化不大;m 较小,没有平滑作用。因此选择合适的窗口长度对于能量的计算有
11、着重要作用。读入一段智能家居场景下的语音文件(内容为“打开空调”),计算短时平均能量值,如图 1 所示。1.3短时平均过零率短时平均过零率表示一帧语音中语音信号波形穿过零电平的次数。输入语音信号 x(n)经分帧后的短时平均过零率计算公式为101()|sgn()sgn(1)|2NnnnZ nx mx m。其中,N 为帧长,sgn为符号函数,即1,()0,sgn()1,()0 x nx nx n。通过多次实验分析语音信号过零率发现,发浊音时具有较低的过零率,发清音时具有较高的过零率,可以区分清音与浊音。通常清音和噪声的短时平均过零率比浊音大很多,因此可以区分清音、噪声图 1语音“打开空调”波形图和
12、它的短时能量(a)“打开空调”语音波形(b)短时能量时间/s幅值101时间/s幅值105000.5 1.0 1.52.0 2.53.0 3.5 4.04.5 5.000.5 1.0 1.5 2.02.5 3.0 3.54.0 4.5 5.050湖南文理学院学报(自然科学版)2023 年和浊音。采用短时平均过零率可以从背景噪声中找出语音信号,可以判断无话段与有话段的起始点,为了保证过零率计算稳定,排除微小漂移,对输入的语音信号做中心截幅处理,再计算过零率,提高精度。读入语音文件(内容为“打开空调”),计算短时平均过零率6,如图 2 所示。1.4传统双门限法端点检测双门限法端点检测是基于短时能量和
13、短时平均过零率提出的,原理是汉语的韵母中有元音,能量较大,可利用短时平均能量找到韵母;而声母是辅音,频率较高,可采用短时平均过零率来进行识别。在信噪比较大时使用短时能量进行端点检测效果明显,而在信噪比较小时,采用短时平均过零率识别有效。采用这 2 种识别方法找出汉语音节,然后采用两级判别来进行端点检测7,如图 3 所示,T1、T2是短时能量的高、低门限,T3是短时平均过零率的门限值。采用基于能量和过零率的双门限比较法进行端点检测,先对语音信号计算得到短时平均能量E、背景噪声平均能量pE、背景噪声短时平均过零率Z8。设定短时能量高低门限1TE、2pTE和短时平均过零率门限3TZ,整个语音分为 4
14、 段:静音段、语音段及过渡段及结束段。当某一帧语音信号短时能量小于低门限 T2,即 EiT2时,第 i 帧语音信号为静音帧;当 T2EiT3时,第 i 帧语音为语音起始点;当 T2Ei+kT3时,第 i+k(k0)帧语音为语音结束点,以此来判断语音信号的起始点。传统双门限法端点检测算法阈值固定,不能随信号改变而改变,并且背景噪声较大时,会影响短时过零率的计算,导致检测结果不准确,因此需要在传统检测基础上对算法进行改进9。2改进双门限法端点检测2.1动态阈值端点检测中检测准确性会受到多种因素的影响,其中,噪声是主要的影响因子。不同的噪声和不同的信噪比都会影响检测准确性10。改进双门限法检测通过设
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 语音 信号 门限 端点 检测 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。