开放场景下短时语音说话人识别系统的优化设计.pdf
《开放场景下短时语音说话人识别系统的优化设计.pdf》由会员分享,可在线阅读,更多相关《开放场景下短时语音说话人识别系统的优化设计.pdf(7页珍藏版)》请在咨信网上搜索。
1、D0I:10.13878/ki.jnuist.20221108003郭新邓爱文罗程方又邓飞其?开放场景下短时语音说话人识别系统的优化设计摘要为适应开放场景下说话人识别短时语音的应用需要,本文对说话人识别模型进行优化,提升了模型的准确率和鲁棒性.为了实现对重要频率特征的筛选,提出基于重加权的特征增强层及网络,起到增强特征表达的作用.将人脸识别领域的误分类样本损失函数首次引入到说话人识别领域,提高对困难样本的挖掘能力.提出基于误分类样本挖掘的分类损失与基于小样本学习框架的余弦角度原型损失的组合损失函数,解决了分类损失函数与说话人识别实际评测需求不匹配和度量函数对采样策略依赖性强的问题.实验结果显示
2、,与基准模型相比,性能指标等误率(EER)降低12.45%,最小检测代价函数(minDCF)降低14.0 9%,取得现有说话人识别领域的优异效果,关键词说话人识别;重加权;特征增强层;分类损失函数;度量损失函数中图分类号TN912.3;TP18文献标志码A收稿日期 2 0 2 2-11-0 8资助项目广东省普通高校特色创新类项目(2022KTSCX258,2021KTSCX224);广州市基础研究计划(2 0 2 0 0 2 0 30 47 6);广东交通职业技术学院项目(GDCP-ZX-2021-004-N1)作者简介郭新,女,博士,讲师,研究方向为说话人识别邓飞其(通信作者),男,博士,教
3、授,研究方向为动力系统的稳定性分析、随机与非线性系统的分析等.aufqdeng 1广东交通职业技术学院机电工程学院,广州,510 6 502华南理工大学自动化科学与工程学院,广州,510 6 410引言说话人识别通过分析语音中的声纹特征来确认说话人身份,实现这一任务的关键在于如何从语谱图中提取具有足够区分性的说话人特征.说话人识别具有广泛的应用场景,如智能家居唤醒、用户账号登录和电话诈骗破案等.随着电子设备性能的提升,基于深度学习的说话人识别系统性能取得显著进步,但是在开放场景下短时输入语音的识别性能还有待提高,其核心在于如何改进顿级特征提取网络、特征聚合层和损失函数3个关键技术.顿级特征提取
4、网络方面,主流的网络有TDNN及其变体1-2 和ResNet结构3.TDNN系列网络能够提取时序依赖性强的特征,ResNet结构则利用二维卷积神经网络进行特征提取,且一般特征提取网络对输入语谱的不同频率没有区别对待,但并非每个频率范围的特征信息对说话人识别系统模型的确立同等重要,实际上低频率声纹特征具有更高的贡献度4-5.Zhou等6 在原始ResNet结构中加入SE(Sq u e e z e-a n d-Ex c i t a t i o n)模块,有效地增强了特征通道维度上的信息交互;Yadav等7 则是利用基于卷积的频域和时域注意力机制来进一步增强中间特征频域和时域的信息交互性.受此启发,
5、本文提出一种基于重加权的特征增强层及网络.特征聚合层方面,如基于注意力机制的特征聚合层Self-AttentivePooling(SAP)8和 Attentive Statistics Pooling(ASP)9.而 Luo等10 则将视频理解任务中提出的NeXtVLAD应用到说话人识别中,显著提高了模型的特征聚合效果。损失函数设计方面,现阶段主要使用基于分类的损失函数,如AMSoftmax1和 AAMSoftmax12,通过在余弦角度约束的分类边界上加入间隔(margin)裕度来约束同类别特征的角度变换范围,从而提高类内特征的紧凑性,但是它们都忽视了困难样本信息对于辨别性特征学习的重要性,且
6、本质上是根据分类任务设计的损失函数,训练时目标函数与说话人识别任务本质需求存在一定的不匹配性.本文改进说话人识别中的两大关键技术,设计出更有效的顿级特征提取网络和使得模型训练更充分的损失函数,进一步提升基于深度学习的说话人识别模型在开放场景下短时语音的识别性能.1说话人识别模型基本框架目前主流的说话人识别算法是在基于embedding向量的深度学郭新,等.开放场景下短时语音说话人识别系统的优化设计:586GUO Xin,et al.Optimal design of short-time speech speaker recognition system in open scenarios.习
7、框架下进行训练和测试的,整体框架如图1所示.训练阶段,原始语音信号经过声学特征提取模块得到声学特征.首先,将提取的声学特征输入到顿级特征提取网络中提取顿级特征序列;然后,利用特征聚合层从顿级特征序列中提取说话人的embedding向量形成语句级特征向量;最后,利用说话人标签计算损失函数来优化说话人embedding向量,使得类内距离尽可能小,类间距离尽可能大.测试阶段,将训练好模型输出的说话人embedding向量输入到后端打分模型,与注册数据库中的特征向量进行相似度打分,根据得分来判断两段语音是否属于同一个说话人:2基于重加权的特征增强层的顿级特征提取网络2.1基于重加权的特征增强层从近几年
8、国际大型公开的说话人识别挑战赛13-14 中可以看到,基于梅尔频谱分析的特征如Fbank,仍然是最热门和最有竞争力的输入声学特征15.在大多数的工作中,Fbank频域维度特征通常会被当成一个整体同等对待而没有考虑不同频率范围特征信息的重要性.然而,不同频率范围的特征信息对于说话人识别模型的性能影响是不同的4-.基于此,本文提出基于重加权的特征增强层(Reweighted-based Feature Enhancement Layer,RFEL),对输入声学特征中不同频率特征赋予不同的重要性权重,RFEL的结构如图2 所示.从图2 可知,RFEL结构是对输入特征的重要频率进行增强,它为输人特征频
9、域维度上的每一维频率特征计算一个权重参数,并利用该权重参数与输Sigmoido1xF11xFx1scalefreqXTxFxC图2 基于频率重加权的特征增强层(RFEL)结构Fig.2 Structure of Reweighted-based FeatureEnhancement Layer(RFEL)人特征对应频率上的值相乘,得到频率重加权后的增强特征.图2 中,输人特征X大小为 TFC,这里的T表示输入特征的时域维度,F表示频域维度,C表示通道维度.Vreg=u 1,2,,r 表示频率权重向量,参数初值可任意设置,其后可以通过网络学习进行更新.向量Srea=S1,S2,,Sr 是Vrea
10、经过Sig-moid()函数得到的向量,为的是将其权值限制在0,1范围内,维度均为1F1.Sre和Vrea中每个参数是可由网络学习并更新的.输入特征X与频率权重向量Sfreg对应频率特征权重相乘,得到频率重加权后的输出特征为U,维度为 TFC,计算表达式如下:U=Fseale(Sreg,X),其中,Fseale操作表示 Sreg中的每个权重值与输人特征X对应频率维度上的特征进行相乘.RFEL设计目的是为了增强输入频谱特征的重要频域维度信息,让模型能够学会分析不同频率范围内特征的重要性.基于此,本文还将RFEL用到网训练阶段U说话人标签(1)级特征提取网络声学特征提取原始语音特征聚合层顿级特征注
11、册数据库特征向量图1基于深度学习的说话人识别模型框架Fig.1 Framework of deep learning-based speaker recognition model损失函数特征向量后端打分模型测试阶段识别结果南京信息工统大学学报(自然科学版),2 0 2 3,155):58 5-591Journal of Nanjing University of Information Science&Technology(Natural Science Edition),2023,15(5):585-591络中进行网络中间频域特征增强,2.2基于重加权的特征增强网络本文使用的是FastRe
12、sNet-34模型结构16 .为了提高轻量化模型的特征提取能力,在Fast ResNet-34框架中加人SE17模块,构成Fast-SE-ResNet-34框架,可以通过注意力机制对网络中间输出特征的通道维度进行增强.本文提出的基于重加权的特征增强网络(Re-weighted-based Feature Enhancement Network,RFEN)结构如图3所示.输入的频谱特征首先经过RFEL进行频域维度特征增强,随后经过第一层卷积神经网络降采样为原来大小的一半,再输入到Fast-SE-Res-Net-34框架下的4个特征提取阶段(stage)中.从图3中可以看到,RFEL可以放在每个
13、stage中最后一个残差模块的输出之后,用来增强每个stage 输出的中间特征,将最后一个 stage 输出的特征输人到特征聚合层中,则可提取到区分性强的说话人特征向量(embedding).基于重加权的特征增强层conv7x7587且部分频率特征在降采样过程中被转换到通道维度,此时再使用RFEL对频率特征进行细粒度分析会比较困难.因此,在设计基于多层RFEL的顿级特征提取网络时考虑每个stage后RFEL是可选的,本文在实验部分验证了模型在不同stage后加入RFEL后的效果,从而找到最优的网络模型结构.3组合损失函数损失函数是为了训练能够让模型提取出区分性强的说话人特征的一组参数.文献18
14、-19 提出先用Softmax损失函数预训练再使用度量学习损失函数微调模型的策略;文献2 0-2 2 提出基于Triplet loss的困难样本对挖掘策略;文献2 3 将基于小样本学习的原型网络损失引入说话人识别任务中;文献16使用查询集与类中心之间的距离度量计算方式,将原始的欧氏距离替换成基于余弦相似度的距离度量,取得了优异的效果.3.1基于误分类样本挖掘的分类损失函数误分类样本就是原本属于类A的样本,被误分类到类B中.误分类样本大多是难样本,是比较考验模型识别能力的样本.误分类样本对于提高模型特征区分能力有着至关重要的作用.基于误分类样本挖掘的分类损失函数MVSoftmax表达式如下:LM
15、v=-log(e(mouysf(m,wconv3x3特征提取阶段残差单元说话人特征向量(embedding)图3基于重加权的特征增强网络结构Fig.3 Structure of Reweighted-based FeatureEnhancement Network(RFEN)随着网络加深,输出每个点的特征都与周围点特征存在大量信息交互,致使频率特征高度相关,并Kconv3x3:xN:4SE模块基于重加权的特征增强层特征聚合层(2)式中:e为自然常数,s为超参数(scale);x 表示当前样本经过最后一层分类层的特征表示,即为当前说话人embedding;y表示当前训练样本真实类别标签;w表示网
16、络最后一层分类层的参数向量,kE1,2,3,4,K,K表示每批训练集中说话人总数;0wk表示参数向量w,和当前输人特征x之间的角度值;cos(0 w k)表示参数向量w与当前输人特征x之间的余弦相似度;f(,w x x)表示增加了间隔(m a r g i n)参数后的余弦相似度函数.需要注意的是式(2)中的I,它是二值指示函数,表达式如下:-人r0,f(m,0u.x)cos(0w.),(3)也就是说,当样本x与真实说话人类别对应参数向量w,之间的余弦相似度大于和非标签说话人k郭新,等.开放场景下短时语音说话人识别系统的优化设计:588GUO Xin,et al.Optimal design o
17、f short-time speech speaker recognition system in open scenarios.对应参数向量w之间的余弦相似度时,说明样本x(6)没有被误分类到说话人k中,此时函数I=0,否其中:为可学习的权重系数,可训练;Lmv是基于难则=1.样本挖掘的分类损失函数;LAP 是基于余弦相似度的式(2)中,h(t,0wk,l.)是一个用来对误分类类原型度量损失函数;LsR代表说话人识别的组合损失别进行加权的函数,可以表示为函数.(4)4实验结果及分析其中,t0是预先设置的超参数,当t=0时,基于误分类样本损失函数就变为普通的基于间隔的损失函数.当I=0,即没有
18、误分类时,h(t,0wbx,l)=1;当=1,有被误分类时,h(t,w,l.)1,这表示当前样本被误分类为类别k时,会进一步加大样本与类别K分类边界之间的间隔,使得说话人特征度量空间中当前样本特征与说话人类别k特征更加可分.3.2基于原型损失的度量损失函数在小样本学习框架下,训练集和测试集都会被分为两个不重合的子集,即支持集和查询集,用x和x分别表示经过特征提取后的支持集和查询集样本中的说话人特征向量,原型损失函数便是小样本学习框架下的损失函数.基于余弦相似度的原型损失函数见文献10,2 4,它可表示为KeLAPK台Kwcos(l.c)e式中,分子表示查询样本x与其所属真实说话人类中心向量之间
19、的余弦相似度的自然指数,分母则表示查询样本x与当前训练批次中包含的所有说话人类中心向量之间的余弦相似度的自然指数之和.除此之外,K表示在每个训练批次中随机抽取的说话人数量,C为每个说话人类中心向量,也称为原型,表示说话人在特征空间中的特征信息,x表示第k个说话人的查询样本.3.3组合损失函数分类损失函数能够优化的是样本与分类层参数向量之间的关系,属于实例一代理之间的关系,能够在训练阶段为模型提供较稳定的收敛曲线,而度量损失函数优化的是样本与支持集中真实样本的类中心向量之间的度量关系,属于实例一实例之间的关系.而说话人识别模型实质就是实例一实例之间的关系,度量函数更加符合说话人识别任务的实际应用
20、场景.文献15,2 4 使用分类损失和度量损失的组合函数,本文将其进行优化升级,将难样本挖掘的分类损失函数融人其中,得到的组合损失函数如下:LsR=LMV+LAP,4.1实验设置本文实验均在Ubuntu18.04.3LTS、6 4位系统下进行,所采用的深度学习框架是 PyTorch,输人声学模型为8 0 维的Fbank,实验中所有模型均使用Adam优化器进行训练,权重衰减率设置为5e-5,初始学习率为0.0 0 5,batch size大小设为2 56.数据集为Vox-Celeb1,共包含12 51个说话人的153516 条音频,语音时长总计352 h,其中训练集包含12 11个说话人,测试集
21、包含40 个说话人.基准模型10 为基于Fast-SE-ResNet34、Ne Xt V LA D 特征聚合层和AMSoftmaxloss+AugularPrototypical loss组合损失函数的模型,4.2评价指标说话人识别任务中最常用的性能评估指标为等wcos(x1,ck)(5)误率(EqualErrorRate,EER)和最小检测代价函数(Minimum Detection Cost Function,minDCF).等误率EER定义为错误拒绝率FRR与错误接受率FAR相等时的错误率,EER越小说明系统的性能越好.表达式为EER=FRR=FAR,FNFRR=TP+FNFPFAR=F
22、P+TN式中,FN、T P、FP和TN所代表的含义如表1混淆矩阵所示.表1混淆矩阵Table 1 Confusion matrix预测类别真实类别正例正例真阳性(TP)反例假阳性(FP)minDCF指标计算时考虑了实际使用过程中两种错误事件发生的代价,以及真实说话人和冒充者的先验概率,选择阈值使得DCF最小时的值为minDCF.计算表达式为(7)(8)(9)反例假阴性(FN)真阴性(TN)南京信息工经大学学报(自然科学版),2 0 2 3,15(5):58 5-591Journal of Nanjing University of Information Science&Technology(
23、Natural Science Edition),2023,15(5):585-591minDCF=Ca FAR(1-Puargl)+Ca.FRR Purat,其中,Ca和C分别表示错误接受样本和错误拒绝样本的权重,Parget 和1Parget 分别表示真实说话人和冒名顶替者出现的先验概率,minDCF越小表示系统的风险系数越小,模型性能越好.4.3RFEL有效性实验本节实验主要验证所提出RFEL的有效性,实验结果如表2 所示.Table 3Results of ablation experiments with RFEL combinations at different stagesRF
24、EL位置组合1Inputstagelstage2stage3stage4新增参数量EER/%minDCF从表2 中可看出,多层RFEL结构的性能都超过基准模型.表3中,组合4的EER为2.49%,minDCF为0.2 44,与基准模型(EER为2.7 3%,minDCF为0.2 98)相比,EER相对降低了8.8%,minDCF相对降低了18.12%,获得最好的性能指标,所以RFEL的数量和位置选择极其重要.4.4组合损失函数有效性实验为验证组合损失函数的有效性,组合函数参数与基准模型10 中的参数一致,均设定为1.由表4可知,使用MVSoftmax和AP组合损失函数后模型的EER比基准模型平
25、均降低了12.45%,minDCF平均降低了14.0 9%.实验结果表明,使用基于误分类样本分类损失和小样本学习框架损失的组合损失函数训练的模型性能最好.589aroe表2 基于输入声学特征增强的频率重加权层实验结果(10)Table 2Experimental results of RFEL顿级特征提取网络Fast-SE-ResNet34(基准模型)Fast-SE-ResNet34+RFEL另外RFEL还可以放在顿级特征提取网络中增强网络中间特征的频域特征,不同stage下RFEL组合消融实验结果如表3所示表3不同stage下RFEL组合的消融实验结果组合2组合4V801202.622.69
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 开放 场景 下短时 语音 说话 识别 系统 优化 设计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。