基于改进语谱图的深度学习说话人识别.pdf
《基于改进语谱图的深度学习说话人识别.pdf》由会员分享,可在线阅读,更多相关《基于改进语谱图的深度学习说话人识别.pdf(7页珍藏版)》请在咨信网上搜索。
1、现代电子技术Modern Electronics Technique2023年11月1日第46卷第21期Nov.2023Vol.46 No.210 引 言说话人识别也称为声纹识别1,与指纹识别、人脸识别等身份认证技术相同,都代表不同人之间的个体差异。说话人识别是根据每个人的发音特点,以及每个人的发音器官,包括声带、声道等,在大小和形状上的不同来进行区别不同人的声音。说话人识别技术按照其所要识别的任务及应用场景主要分为两类:说话人验证(Speaker Verification)及说话人辨认(Speaker Identification)。按照其识别内容可以分为三类:文本相关(textdepend
2、ent)、文本无关(textindependent),以及文本提示(textprompted)。随着社会不断的发展,文本无关的说话人识别也越来越受到重视,本文针对文本无关的说话人辨认进行研究。传统的说话人识别技术往往对音频提取声学特征,例如梅尔倒谱系数(Mel Frequency Cepstral Coefficient,基于改进语谱图的深度学习说话人识别马志举,杜庆治,龙 华,邵玉斌(昆明理工大学 信息工程与自动化学院,云南 昆明 650500)摘 要:为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法。语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在
3、以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图作为网络输入,而说话人识别系统中需要提取语谱图中表征身份的信息,因此需要在原始语谱图的基础上进行改进。在语谱图中,基音频率以及共振峰等信息最能表现说话人的身份特征,从而提出根据语音信号中每一帧的基音频率进行自适应梳状滤波,得到改进后的语谱图,再通过卷积神经网络提取说话人特征,从而达到提升识别准确率的效果。网络模型采用 MobileNetv2神经网络,该网络模型具有模型参数少、收敛速度快、识别速度快等优点,有利于实际应用。在对照实验结果中,该方法相对于原始语谱图的准确率分别提高了2.3%、5.2%、3%。关键词:语谱
4、图;基音频率;梳状滤波器;深度学习;说话人识别;深度可分离卷积中图分类号:TN912.3434;TP183 文献标识码:A 文章编号:1004373X(2023)21003207Deep learning speaker recognition based on improved spectrogramMA Zhiju,DU Qingzhi,LONG Hua,SHAO Yubin(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 65050
5、0,China)Abstract:A deep learning speaker recognition algorithm based on improved speech spectrum is proposed to improve the performance of speaker recognition system.The spectrogram contains a variety of information such as speech content,emotion,language and speaker identity.In the existing speaker
6、 recognition algorithms,the characteristics of speaker identity are often not taken into account,and the spectrogram is directly extracted from the speech and taken as the network input,while the speaker recognition system needs to extract the information representing the identity in the spectrogram
7、.Therefore,the system needs to be improved on the basis of the original spectrogram.In the spectrogram,the information such as pitch frequency and formant can best represent the identity characteristics of the speaker.Therefore,a selfadaptive comb filtering is carried out according to the pitch freq
8、uency of each frame in the speech signal to obtain the improved spectrogram,and then the features of the speaker are extracted by the convolutional neural network,so as to improve the recognition accuracy rate.The MobileNetv2 neural network is adopted in the network model.This network model has the
9、advantages of fewer model parameters,fast convergence speed and fast recognition speed,which is conducive to practical application.In the results of control experiments,the accuracy rate of this method is improved by 2.3%,5.2%and 3%,respectively,in comparison with that of the original spectrogram.Ke
10、ywords:spectrogram;pitch frequency;comb filter;deep learning;speaker recognition;depthseparable convolutionDOI:10.16652/j.issn.1004373x.2023.21.007引用格式:马志举,杜庆治,龙华,等.基于改进语谱图的深度学习说话人识别J.现代电子技术,2023,46(21):3238.收稿日期:20230227 修回日期:202303223232第21期MFCC)23、线 性 预 测 倒 谱 系 数(Linear Prediction Cepstral Coeffi
11、cient,LPCC)3、伽 玛 通 频 率 倒 谱 系 数(Gammatone Frequency Coefficient,GFCC)4以及融合特征等作为特征信息,将特征输入到模型中,再通过分类器进行判别分类,从而完成说话人识别任务。因此,提取语音中的说话人特征就成为了研究重点,随着深度学习技术的出现,提取特征的方法也可以通过深度学习来自动提取,得到的特征包含更多的身份信息,如 dvector5、xvector6、jvector7等特征通过不同的网络模型提取得到,识别效果都有一定程度上的提高。近几年来,随着深度学习技术不断的发展,图像识别技术的不断成熟,不少学者将语音信号转化为语谱图作为网络
12、的输入,用于语音识别8、情感识别9和说话人识别等多个领域,从而提高了识别率以及识别速度。文献10使用语谱图直接作为网络模型的输入,通过改进模型使得模型更小;文献11通过对说话人短时语谱图的线性叠加来获得稳定发音的语谱图,再输入网络中进行训练分类,提高识别率;文献12对语谱图进行平移扩充,从而达到增大数据量的目的,有助于深度学习训练,从而提高识别率;文献13将语谱图进行拉东变换,然后联合语谱图一同输入卷积神经网络进行分类处理,实验表明,在抗噪方面有一定的提升。以上论文中都未考虑语谱图中说话人信息的特性,未能有效地对语谱图进行改进,由于语谱图中包含的信息较多,不能有效地针对说话人身份信息进行处理,
13、从而提出改进语谱图的算法。语谱图能表征语音中的大部分特征,包括说话人的基频14、共振峰以及发音特点等特征,算法根据语音中每一帧基频进行自适应滤波,保留身份信息较强的基音频率以及各阶次谐波,从而提高了语谱图中说话人身份信息的信噪比。考虑到实际应用中网络模型大小受限制,因此采用MobileNetv215网 络 模 型 作 为 说 话 人 识 别 模 型。MobileNetv2 网络模型往往应用于图像分类处理中,由于该模型参数量较少,使得该模型可以在终端使用,该模型还具有识别准确率高、训练时间短、识别速度快等优点。将改进后的语谱图输入到MobileNetv2网络模型中进行分类,从而实现说话人识别任务
14、。本文针对语谱图进行改进,提高语谱图中说话人身份特征的信噪比,并将 MobileNetv2 作为深度学习网络模型,实现说话人识别算法,在减小模型参数量的同时,提高了识别准确率。1 语音信号预处理语音信号是通过麦克风录制得到的,在这个过程中语音的高频部分会发生快速的衰减,并且录制的语音当中包含静音片段,因此需要对语音信号进行预处理,得到适合提取语谱图的语音信号。语音数据预处理主要可以分为预加重、分帧、加窗以及静音段去除。语音信号预处理流程如图1所示。图1 语音信号预处理模块1.1 预加重语音信号是声带振动产生的不同频率正弦波以及各阶次谐波,通过口腔、鼻腔声道激励作用后的信号,最后通过采集并转化为
15、数字信号,在这个过程中语音的高频部分会发生快速的衰减。预加重的作用就是提高信号当中的高频部分,来消除这种衰减带来的影响,在一定程度上放大了语音信号中的高频信息。预加重的方法是将信号通过数字滤波器来提高高频信息,一般利用一阶FIR高通滤波器来实现。数字滤波器的传递函数如式(1)所示:H(z)=1-z-1(1)式中:为预加重系数,取值一般在0.91之间。通过预加重处理后,语音信号中的高频部分被提高并且使得频谱变得更加平坦,有利于提高之后语谱图研究分析的效果。1.2 分帧与加窗对于语音信号来说,信号本身是不稳定的,它的特征是随着时间的变化而变化的,在人们说话的时候,每发出一个音节,其对应的语音特征都
16、会与这段语音的其他部分截然不同。但由于语音信号在很短的时间内表现出一定的稳定性,也就是短时平稳特性,因此将语音信号在时间轴上分割为很多短小的片段,这些片段称为帧,一帧的长度通常在 1030 ms范围内。为了使帧与帧之间过渡平滑,要让相邻两帧之间有一部分重叠,一般取帧长的一半作为重叠的长度。加窗处理主要解决信号当中的吉布斯现象(Gibbs Phenomenon)以 及 傅 里 叶 变 换 后 出 现 的 频 谱 泄 露(Spectral Leakage),就是将一帧信号的每一个值乘以不同的权重,实现方法是选择合适的窗函数w(n)与语音信号x(n)进行卷积运算,得到加窗后的语音信号s(n),如式(
17、2)所示:s(n)=x(n)*w(n)(2)常用的窗函数有矩形窗、汉明窗和汉宁窗。矩形窗的窗函数如式(3)所示:马志举,等:基于改进语谱图的深度学习说话人识别33现代电子技术2023年第46卷w(n)=1,0 n N-10,else(3)汉明窗的窗函数如式(4)所示:w(n)=0.54-0.46 cos()2nN-1,0 n N-10,else(4)汉宁窗的窗函数如式(5)所示:w(n)=0.5()1-cos 2nN-1,0 n N-10,else(5)式中N为窗函数的长度,大小等于帧长。选择合适的窗函数可以使语音信号的短时特性表现的更好。通过分析以上三种窗函数,其中矩形窗会使高频成分损失,丢
18、失波形细节,导致能量泄露;汉明窗的主瓣较宽,旁瓣值较小,具有更平滑的低通特性,汉宁窗与汉明窗都是余弦函数,但汉明窗的旁瓣更小。综上所述,选择汉明窗作为窗函数更为合适。1.3 去除静音段采用语音活性检测(Voice Activity Detection,VAD)的方法将语音中的静音段去除,从而得到纯净的语音信号。语音中通常含有静音段,对于说话人识别而言,静音段属于噪声,将其滤除可以提高语音信号的信噪比,从而达到增强特征的目的。常用的抑制方法有能量阈值法、零交叉率法、最小二乘周期估计法以及基于统计模 型 的 方 法。本 文 采 用 较 为 流 行 的 方 法 WebRTC VAD,该方法能够较好地
19、区分出语音段与静音段。WebRTC VAD 采用高斯统计模型对语音进行判决,该方法的基本原理是根据人声的频谱范围将输入的频谱分成6个子带,分别计算这6个子带的能量;然后使用高斯模型的概率密度函数做运算,得出一个对数似然比函数。对数似然比分为全局和局部,全局是6个子带加权之和,而局部是指每一个子带,语音在判决时会先判断局部值,当局部判断为静音段时会判断全局,如果有一方通过,就认为是有语音段,最后保留有语音段的内容。图2为语音信号在静音段去除前后的波形对比。2 提取改进语谱图语谱图可以表示该语音在频域以及时域上的特征,语谱图的长和宽分别代表时间和频率,颜色深浅代表能量大小。从语谱图中可以得到不同的
20、信息,包括语音的内容、说话人的基频、共振峰等代表人的个性特征等。对于说话人识别系统来说,增强基频以及各阶次谐波在语谱图中的信息量可以提高信噪比。因此提出对语音信号进行自适应梳状滤波16,从而改进语谱图特征,算法流程如图3所示。图2 语音信号VAD处理前后波形对比图3 改进语谱图流程图2.1 计算基音频率语音信号是由声带振动产生的波形,短时间内振动的频率称为基音频率,基音频率与说话人声带的大小、形状、劲度以及发音习惯等有关,是说话人识别的重要特征之一。计算基音频率的方法有短时自相关函数法17、平均幅度差函数法、倒谱法等。本文采用短时自相关函数法,短时自相关函数法进行基音检测的原理是利用短时自相关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 语谱图 深度 学习 说话 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。