一种简单的文本信息增强的声纹识别算法.pdf
《一种简单的文本信息增强的声纹识别算法.pdf》由会员分享,可在线阅读,更多相关《一种简单的文本信息增强的声纹识别算法.pdf(4页珍藏版)》请在咨信网上搜索。
1、信息通信一种简单的文本信息增强的声纹识别算法李晋(科大讯飞股份有限公司,安徽合肥2 30 0 8 8)摘要:深度嵌入学习(DeepEmbeddingLearning)是目前声纹识别(VoiceprintRecognition)研究领域中的主流技术方法,通常采用卷积神经网络(Convolutional NeuralNetwork,CNN)用于深度嵌入学习,得到声纹模型向量。与传统的i-vector方法相比,深度嵌入学习方法主要专注于帧级特征提取、段级池化和聚合,以及目标损失函数的设计,从而获得有效的声纹模型向量。但由于局部顿级特征提取的原因,如果打乱输入语音的时序,生成的声纹模型向量将会有所不同
2、。相反,传统的i-vector方法是语音时序不敏感的。文章提出了一种简单的文本信息增强方法,获得对语音时序不敏感的声纹模型向量。在基准VoxCeleb语料库上的三个测试子集实验结果表明,相对基线系统,采用本文提出的文本增强方法,等错误率(Equal Error Rate,EER)分别降低16.6 2%、12.2 6%、13.8 7%。关键词:声纹识别;文本信息增强;段级随机中图分类号:TN912.34A Simple Context Enhanced Voiceprint Recognition AlgorithmAbstract:Deep Embedding Learning is the
3、mainstream technical method in the research field of Voiceprint Recognition.Usually,Convolutional Neural Network(CNN)is adopted for deep embedding learning to obtain voiceprint model vectors.Compared withtraditional method named i-vector,deep embedding learning methods mainly focus on frame-level fe
4、ature extraction,segment-levelpooling and aggregation,and the design of an objective loss function to obtain effective voiceprint model vectors.However,due tolocal frame-level feature extraction,if the sequential order of the input speech is disturbed,the generated voiceprint model vectorwill be dif
5、ferent.In contrast,traditional i-vector method is insensitive to the sequential order.this paper,propose a simple contextenhancement technique to obtain voiceprint model vectors which are insensitive to the sequential order.The experimental resultson the three sub-testsets of the benchmark VoxCeleb
6、corpus show that,after adopting the context enhancement technique proposedin this paper,the Equal Error Rate(EER)is reduced by 16.62%、12.2 6%、13.8 7%i n c o mp a r i s o n w i t h t h e b a s e l i n e s y s t e m.Keywords:voiceprint recognition;context enhancement;segment-level shuffling1 引言采用个人生物特
7、征进行用户身份认证或者识别是目前模式识别中一个很重要的研究方向。近几年来,随着以深度学习为代表的人工智能技术迅速发展,基于生物特征认证的技术,正越来越广泛地应用在网络安全、执法记录等方面。这里的生物特征主要包括人脸、指纹、虹膜、体态、步态等具有鲜明个人化信息的特征。从目前的应用来看,指纹识别和虹膜识别已经达到较高的识别准确率,广泛应用在一些重要的安全保密领域,并取得显著效果。但是这两种生物特征,在一般使用中必须取得用户的主动配合,才能完成指纹和虹膜的采集。在大规模应用的情况下,用户可接受程度较低,这在一定程度上制约了机器自动身份认证技术的发展。基于语音信号处理的声纹识别技术,因其兼顾生物特征的
8、生理特性和行为特性,且可以在无需用户配合的情况下进行采集,受到广大研究工作者的广泛关注。经过国内外研究者多年的探索和尝试,传统基于因子分析框架的声纹识别技术(如i-vector方法)成为过去几十年的主流技术方案。而随着越来越多面向短时(1秒左右)语音的声纹识别应用场景,传统因子分析算法的性能遇到极大挑战。收稿日期:2 0 2 3-0 2-2 1基金项目:国家重点研发计划(2 0 2 2 YFF0608503)。作者简介:李晋(19 8 7-),男,安徽蒙城人,博士研究生,科大讯飞股份有限公司,工程师,主要研究方向:声纹识别、深度学习等。92023年第0 5期(总第2 45期)文献标识码:A文章
9、编号:2 0 9 6-9 7 59(2 0 2 3)0 5-0 0 0 9-0 4LIJin(IFLYTEK Co.,Ltd,AnhuiHefei230088)自2 1世纪初期以来,神经网络方法在自然语言处理、图像处理、语音识别等领域的研究均取得了巨大进展,但其在声纹识别领域一直无法取得理想的性能,且性能一直远远低于传统的 i-vector 方法。直到以DeepID 2-4 为代表的卷积神经网络(ConvolutionalNeuralNetwork,C NN)算法在人脸识别上的成功应用,广大研究者开始在声纹识别领域针对卷积神经网络等相关算法开展大量工作,取得显著的技术进步。但由于卷积神经网络中
10、固有的感受野限制,导致在声学特征提取的过程中,特征关联只能作用于若干连续帧,无法关联至感受野之外的声学特征,这样导致训练的卷积神经网络会对语音的时序信息形成依赖。如果将语音的时序,也即文本信息进行随机扰乱再重排,得到的声纹模型向量将会有所不同。但文本信息的扰乱和重排,只是影响文本内容的连贯性,并未改变语音中蕴含的个性化声纹信息,改变时序前后的语音仍属于同一个声纹个体。从理论上讲,扰乱和重排文本信息前后的语音,得到的声纹模型向量应该高度相似。本文提出一种简单的文本信息增强的声纹识别算法,在卷积神经网络模型的训练过程中,采用声学特征语谱图段级随机扰乱和重排的方法,降低卷积神经网络对语音时序的依赖性
11、,提高声纹识别算法的鲁棒性。Changjiang Information&Communications2声纹识别算法2.1深度嵌入学习深度嵌入学习(DeepEmbeddingLearning)5-是一种利用深度神经网络进行信息浓缩和抽取的技术手段,旨在实现相似性度量学习。利用该深度嵌入空间,将原始语音、图像、文本等数据压缩成尺度固定且统一的低维模型向量,使得相同个体的模型向量更加逼近,不同个体的模型向量更加远离,达到原始数据容易区分的目的。在声纹识别算法中,深度嵌入学习就是将原始语音的声学特征,通过深度神经网络,提取对应的低维声纹模型向量,这里一般采用深度残差神经网络(DeepResidual
12、Network,Res-Net)7,比如常用的ResNet-18、R e s Ne t-34(8 、R e s Ne t-50 等深度残差神经网络结构。深度残差神经网络是目前众多声纹识别算法中比较主流的网络结构,它在一定程度上缓解了普通卷积神经网络随着网络深度增加而出现的性能退化问题,可以进行网络模块的堆叠而不引起性能下降。为了提高神经网络的泛化能力,研究者通过引入压缩和激励网络模块(Squeeze-and-ExcitationNetwork,SENe t)9 、多尺度的残差模块Res2Net loi、多层特征聚合模块(Multi-layerFeature Aggregation,MFA)、注
13、意力统计池化(Attentive StaticPooling,A SP)等,提出一种基于时延神经网络(TimeDelayNeuralNetworks,T D NN)的全新神经网络结构ECAPA(Em-phasized channel attention,propagation and aggregation)12用于进行声纹模型向量提取。和残差神经网络等相比,ECAPA具有较小的网络参数空间,但由于加入较多先进的模块组件,显著提升声纹模型向量的精准度,提高声纹识别算法的准确性。因此本文在ECAPA神经网络的基础上,提出一种简单的文本信息增强的声纹识别算法。2.2网络结构ECAPA神经网络的结构
14、如图1所示。声纹的身份个体标签声纹模型向量声学特征语谱图ECAPA神经网络主要由3个SE-Res2Block、1个MFA和李晋:一种简单的文本信息增强的声纹识别算法1个ASP组件堆叠而成。Res2Block模块是在残差网络模块的基础上,采用分组卷积和多个33卷积核组融合的方式,代替原始ResNetBlock模块中的单个33卷积核,同时将不同的卷积核输出以层级残差的形式拼接在一起,这样就可以用更细粒度来表示多尺度特征。SE模块用于学习卷积神经网络中不同通道特征图的权重,通过压缩、激励和重标定三个过程,突破卷积神经网络由于感受野造成的浅层特征分析局限在较短上下文信息空间中的问题,可以在全局层面实现
15、对各个通道特征图的修正,强化与任务相关的特征,同时抑制与任务无关的特征,增强卷积神经网络的全局特征的整合能力。将SE模块和Res2Block模块拼接在一起形成SE-Res2Block组件,在残差网络内部构造层次化的分组连接来处理多尺度特征,同时通过引入包含上下文的全局信息对残差网络的各个通道特征图进行相关性强化或抑制。相对于原始的ResNetBlock模块,有效提升单个神经网络组件的深度特征表达能力,为有效建立精准的声纹模型向量奠定基础。原始的声纹模型向量仅使用最后一个网络组件(如Re-sNetBlock)的特征图来进行统计池化,再通过一个线性层得到。但是相关研究表明,浅层网络组件的特征图也包
16、含一部分个性化声纹信息。因此将若干浅层网络组件的特征图和最后一个网络组件的特征图融合在一起,再进行统计池化,可预期获得更加精准的声纹模型向量。在ECAPA神经网络中,作者提出MFA的方法,将所有SE-Res2Block组件得到的特征图拼接起来,进而获得蕴含更丰富个性化信息的声纹模型向量。常用的统计池化(StaticPooling,SP)是计算通道特征图在时间维度的均值和标准差,然后拼接在一起形成新的维度空间。作者在ECAPA神经网络中设计一种注意力统计池化ASP的结构,其认为高阶统计量和注意力机制 3 对于提高声纹的可辨性是有效的。通过产生一种针对全局加权的相关系数,完成对均值和标准差的标定。
17、采用如下方法计算全局加权的相关注意力系数i.e:ee=ve.f(Wh,+b)+ke上式中,h,是经过MFA后第t帧的隐层特征,采用各通道Attentive StaticPooling+BatchNom共享的线性变换(W,b)和非线性激活f()将h,映射到低维空间中,以此降低参数量并避免过拟合。再经过通道相关的线Conv+Relu+BatchNorm性层(ve,k),得到通道相关的注意力系数et.c。在全部帧上采用softmax函数对er.进行归一化,获得全SE-Res2Block局加权的相关注意力系数se:t,e=2exp(e.c)SE-Res2Block1SE-Res2Block采用公式(2
18、)中获得的全局加权的相关注意力系数t.c,对隐藏特征h,进行全局加权修正,分别计算全局加权修正后的均值和标准差,再拼接在一起完成ASP处理。Conv+Relu+BatchNorm3文本信息增强的声纹识别方法3.1现有算法的问题从上文第2.2 部分的介绍可以看出,ECAPA网络在输入图1ECAPA神经网络阶段,通过一层卷积网络模块,提取声学特征语谱图的浅层特征。由于卷积网络模块存在的感受野限制,浅层特征仅是对10(1)exp(ei.c(2)Changjiang Information&Communications有限若干帧的上下文信息进行分析,容易对语音的时序形成依赖,陷入局部最优的状态。但是对
19、于个性化的声纹信息,这种语音中蕴含的弱信息,如果更改语音的时序,并不改变语音仍来自于同一个声纹个体的事实,也就是说声纹信息未发生改变。在声纹识别的实际应用中,各种文本信息组合多样,语音时序千变万化,如果声纹识别算法依赖于训练语音中的文本信息和语音时序,那么在面对可能存在不同文本信息和语音时序的测试语音时,可预期此时声纹识别算法的性能会有一定的下降。针对上述问题,有研究者提出多任务学习(Muli-taskLeaming)14和生成对抗学习(GenerativeAdversarialLearning)5)的优化算法,但是这两种方法需要对文本信息进行人工标注,以识别音素信息(PhoneticInfo
20、rmation)的方式进行辅助学习,达到降低文本信息和语音时序对声纹识别算法性能影响的目的。这样的优化算法,虽然可以提高声纹识别算法性能,但人工标注成本过高,在声纹识别的实际应用中,无法获得所有训练语音的文本信息标注,因此推广应用价值有限。本文对此提出一种简单的文本信息增强的声纹识别算法,仅对送入ECAPA网络的声学特征进行段级随机扰乱和重排,有效降低ECAPA网络对文本信息和语音时序的依赖程度,提升声纹识别算法的性能。3.2改进的文本信息增强方法一般来说,我们可以在顿级尺度上对声学特征语谱图进行随机扰乱和重排。但是我们发现,如果以1为单位,将原始声学特征语谱图进行随机扰乱和重排后,声纹识别性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 简单 文本 信息 增强 声纹 识别 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。