基于多维注意力机制的单通道语音增强方法.pdf
《基于多维注意力机制的单通道语音增强方法.pdf》由会员分享,可在线阅读,更多相关《基于多维注意力机制的单通道语音增强方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、CNATURASCIENCEJuly,20232023年7 月JOURNAIANIVERSITYVol.59,No.4第4期第59 卷南京大学学报(自然科学)DOI:10.13232/ki.jnju.2023.04.013基于多维注意力机制的单通道语音增强方法姚王瑶1,杨吉斌1*,张雄伟1*,陈乐乐1,范君怡2(1.陆军工程大学指挥控制工程学院,南京,2 10 0 0 7;2.中国科学院声学研究所东海研究站,上海,2 0 18 15)摘要:基于深度学习的单通道语音增强技术能有效改善语音增强的质量,但在低信噪比环境下,语音增强的效果不能令人满意,为了改善低信噪比下单通道语音增强的质量,提出一种多
2、维注意力机制(Multi-DimensionalAttentionMechanism,M D A M),通过将通道注意力和全局、局部时间注意力进行级联,充分挖掘深度神经网络各通道间语音特征的长短时相关性.在此基础上,设计了基于多维注意力机制的时域语音增强网络MDAM-Net,采用跳跃连接的编解码结构获取深层语音特征,并采用MDAM充分关注干净语音特征在网络通道间、时间方向上全局与局部范围的变化差异,可以更好地建模语音特征的上下文联系.仿真实验的结果表明,在保持较低模型参数量条件下,MDAM-Net在VoiceBankDEMAND公开数据集上增强语音的PESQ(PerceptualEvaluat
3、ionofSpeechQuality)评分可以达到3.2 5.在低信噪比条件下,增强语音质量显著优于已有的单通道语音增强模型。关键词:单通道语音增强,多维注意力,通道注意力,Transformer中图分类号:TN912文献标志码:ASingle-channel speech enhancement based onmulti-dimensional attention mechanismYao Yao,Yang Jibin*,Zhang Xiongweil*,Chen Lele,Fan Junyi(1.School of Command and Control Engineering,Army
4、 Engineering University,Nanjing,210007,China;2.Shanghai Acoustics Laboratory,Chinese Academy of Sciences,Shanghai,201815,China)Abstract:In recent years,deep learning-based single-channel speech enhancement technology effectively improves the qualityof speech enhancement.However,in low signal-to-nois
5、e ratio environments,the enhanced speech effect is still notsatisfactory.In order to improve the quality of single-channel speech enhancement in low signal-to-noise ratio,a multi-dimensional attention mechanism(MDAM)is proposed,which fully explores the long-term and short-term correlationsbetween sp
6、eech features among various channels in deep neural networks by cascading channel attention and global and localtemporal attention.Based on this,MDAM-Net is designed which is a time-domain speech enhancement network based onmulti-dimensional attention mechanism.This network adopts a skip-connection
7、encoder-decoder structure to obtain deepspeech features,and uses MDAM to fully pay attention to the global and local variations of clean speech features in channeland temporal directions,which betterly model the contextual relationships of speech features.Simulation experiment resultsshow that under
8、 the condition of keeping a relatively low model parameter volume,the PESQ(Perceptual Evaluation ofSpeech Quality)score of the enhanced speech by MDAM-Net on the VoiceBank-DEMAND public dataset reaches 3.25.Under low signal-to-noise ratio conditions,the enhanced speech quality is significantly bette
9、r than existing single-channelspeech enhancement models.Key words:single-channel speech enhancement,multi-dimensional attention,channel attention,Transformer基金项目:国家自然科学基金(6 2 0 7 148 4),陆军工程大学基础前沿项目(KYZYJKQTZQ23001)收稿日期:2 0 2 3一0 6 一0 5*通讯联系人,E-mail:,670第59 卷南京大学学报(自然科学)单通道语音增强能抑制并衰减背景噪声,提高语音信号的可懂度和
10、感知质量1.近年来,基于深度神经网络的语音增强技术快速发展,能有效实现带噪语音向干净语音的映射,提升单通道语音增强的效果2-3 然而,在低信噪比条件下,带噪语音中的语音功率接近甚至低于噪声功率,不论是时域还是频域的映射模型,在估计干净语音分量时都面临更大的困难4-5,低信噪比条件下单通道增强语音的质量依然无法令人满意已有研究表明,语音信号同时具有短时相关性和长时相关性,可以用于低信噪比条件下的干净语音建模循环神经网络(RecurrentNeuralNetwork,RNN)虽然可以建模语音的长时相关性,但训练时间长,计算资源消耗高,制约了增强语音质量的进一步提升6 .卷积神经网络(Convo-l
11、utional Neural Network,CNN)的感受野有限,对语音的长时相关性建模较差7-8 ,虽然利用膨胀卷积可以扩大其感受野,但膨胀卷积提取的信息不连续,对语音局部信息的提取不充分。受人类感知注意力的机理启发,近年来,注意力机制广泛应用于自动语音识别(AutomaticSpeech Recognition,A SR)、语音增强等处理任务9.Transformer是一种典型注意力机制的实现结构,可以对重要语音特征赋予更高的关注权重.Kimetal10)提出一种具有高斯加权的Trans-former,遵循语音信号相关的时间分布特性,其注意力权值随着目标信息帧与上下文信息帧之间的距离增大
12、而衰减,但其前馈网络采用全连接层,位置感知较差.Girietal1将自注意力机制引入带有跳跃连接的U-Net架构,利用自注意力机制关注语音长时相关性.PandeyandWangl12同样采用自注意力机制,同时结合密集卷积网络,促进梯度流动,并有效降低网络参数数量.然而,现有的语音增强方法对语音特征的关注维度较单一,往往只关注时间维度或频率维度的语音特征,忽视了网络通道维度上语音特征间的联系10-12 .为了充分关注网络通道间语音特征的分布,通道注意力机制13 被引人语音增强网络.To-looshamsetal14提出具有通道注意力的密集连接的U-Net网络,同时关注通道与时间维度全局语音特征,
13、改善了增强的性能,但没有关注语音局部细节特征的差异.Parketal151提出多视图注意力网络MANNER,并联通道注意力与时间注意力,从带噪语音中提取语音特征表示,然而其在每一层编解码网络中都采用大规模的注意力模块,网络结构复杂,为了充分利用各个维度的注意力机制,本文改进了传统的Transformer结构,提出一种由通道注意力、时间维度全局注意力和局部注意力构成的多维注意力机制(Multi-DimensionalAttention Mechanism,MDAM),基于此设计并实现了单通道语音增强模型MDAM-Net.实验结果表明,该模型在参数较少时也能有效地提升低信噪比下的语音增强质量.本文
14、的主要贡献:(1)提出一种多维注意力机制,将通道注意力模块、全局注意力模块、局部注意力模块级联,同时关注网络通道维度上不同通道特征、时间维度上全局特征和局部特征的差异与联系(2)在传统的Transformer上,设计了一种改进的注意力编码器(Transformer with ImprovedEncoder,T r a n s f o r m e r I E),在获取语音长短时相关性与重要特征的同时,优化全局、局部关注机制的位置感知能力(3)设计了具有跳跃连接的U形编解码器的多维注意力时域语音增强网络MDAM-Net,在保持较低参数量的条件下,显著提高了增强语音的客观质量与可懂度,在低信噪比条件
15、下,增强语音质量优于对比的其他同类型网络增强语音1多维注意力机制MDAM多维注意力机制MDAM由通道注意力、全局注意力、局部注意力构成,如图1所示.带噪语音经过深度编码器之后得到深层语音特征进入MDAM,其中C表示通道数,T表示时间顿长度.语音特征图进人MDAM模块后首先输人通道注意力中,在通道维度上赋予特征不同的重要性。随后,MDAM沿时间维度对特征图进行分块,并依次输人全局注意力与局部注意力,全局注意力关注特征块间的重要性差异,有利于获得语音的长时相关性;局部注意力则是对各块内特征的重要性进行区分,有利于获得细粒度差异,经过通道注意力、全局注意力与局部注意力后,得到不同维度上语音重要特征的
16、注意力权重.最后,671瑶等:基于多维注意力机制的单通道语音增强方法姚第4期CC掩码模块输入语音特征TT通道注意力全局注意力输出语音特征局部注意力图1多维注意力机制MDAM的示意图Fig.1The diagram of Multi-Dimensional Attention MechanismMDAM通过掩码模块将注意力权重与原始输入特征相乘,得到输出的有效语音特征。1.1通道注意力通道注意力通过全连接交互所有通道特征16 的方式来关注通道维度,每个通道都可以看作一个特征映射,隐式地包含时间维度的语音信息.通道注意力结构如图2 所示.为了获得通道维度聚合的特征,将平均池化(A v g Po o
17、 l)和最大池化应用于输人特征XERcT.每个池化输出分别通过全连接层后,再经过Sigmoid激活层得到通道注意力权重。ER c x 1,其中,C为通道数,1表示时间帧数为1.如式(1)所示:。=o(FC(A v g Po o l(X)+FC(M a x Po o l(X)(1)其中,FC表示全连接层,o表示Sigmoid激活.通道注意力根据不同的输人语音,自适应地调整不同通道的权重,使重要的特征映射能获得更高的权重,不重要的特征映射获得的权重更低。通道注意力权重可调整深层特征,形成经过加权后的注意力特征,全局最大池化1全连接层FCC激活CCC全局平均池化T11T输入特征XC通道注意力权重输出
18、特征1全连接层FC图2通道注意力Fig.2Channelattention1.2TransformerIE网络全局注意力与局部注意力采用TransformerIE注意力机制提取时间维度上的全局特征与局部特征.TransformerIE(图3b)对传统Transformer编码器(图3a)进行改进,仅包括多头注意力和前馈网络两个部分,不采用绝对位置编码,因为绝对位置编码不利于声学序列的位置与信号相关性建模17 .为了使编码器更适用于声学序列的位置感知,TransformerIE将前馈网络第一层改为双向长短时记忆网络(Bi-Long Short-Term Memory,Bi-LSTM),其前馈网络
19、由Bi-LSTM,ReLU和线性层级联构成.TransformerIE中,多头注意力机制对语音特征的关注起到重要的作用,如图4所示,多头注意力模块中输入的特征XERkx通过可h个可学习的线性变换,获得由查询Q、键K和值V构成的多组不同的映射,如图4a所示。第i组映射计算Q,与K,的点积,并除以常数a,经过softmax映射后得到值V,的权重,如图4b所示,第i组映射的输出即第i头部的注意力,是权重和值的点积,所有头部的注意力被串联并再次线性投影,获得方程中的最终输出,然后进行层归一化和残差连接处理.672第59 卷南京大学学报(自然科学)层归一化层归一化线性层Linear线性层Liean激活R
20、eLU前馈网络微活ReLU前馈网络线性层Linear双向长短时记忆层归一化网络Bi-LSTM层归一化多头注意力多头注意力机制机制位置编码输入特征图输入特征图(a)传统的Transformer(b)TransformerIE图3TransformerIE与传统Transformer的结构对比Fig.3The structure of classical Transformer and TransformeriE矩阵相乘线性层激活softmax拼接掩码(可选)缩放点积注意力h缩放线性层线性层线性层矩阵相乘4QKV(a)多头注意力机制(b)缩放点积注意力图4多头注意力结构图Fig.4The stru
21、cture of multi-head attentionQ,=XWo,K,=XWK,V,=XWy(2)head;=Q,KT(3)Attention(Q,K,V.)=softmarVMultiHead(Q,K,V)=(4)Concat(head,headh)WoMid=LayerNorm(X+Multihead)(5)dK其中,Qi,K,V,ERh,i=l,2,h,W,WiWYERdxd/h表示第i组查询中键和值的线性变换矩阵,k和d分别表示输人特征的个数与维度,最后,多头注意力块的输出通过改进的前馈网络,包括双向长短时记忆网络Bi-LSTM、R e L U激活与层归一化处理,如式(6)和式(
22、7)所示:FFN(Mid)=(6)ReLU(Bi-LSTM(Mid)W,+b)Output=LayerNorm(Mid+FFN(Mid)(7)其中,FFN()表示前馈网络的输出,W,ERd,biERa,其中,df=hXd.1.3全局注意力与局部注意力全局注意力模块首先将输人特征进行组归一化并经过1D卷积以获得清晰的特征表示,将处理后的输入特征XERCXT以移动大小为H、块长度为F的大小分割成总数为N的重叠块,将重叠块连接为三维的特征XsegERCNF.特征块的总数N为:T-FN=F-H+1(8)其中,T为时间顿长度,H为切块的移动重叠长度,F为块长度.如图5所示,分割之后的特征为XseERCN
23、F时,全局注意力模块在输人特征的第二维上使用TransformerIE注意力对分割的所有块进行关注,通过全局的视野赋予重要特征更高的权级,构建语音特征长时相关性联系.输入特征X输出特征Xseg组归一化TransformerIE1D卷积分割NF图5全局注意力Fig.5Globalattention局部注意力模块在输人特征的最后一维上执行,如图6 所示与全局关注模块不同,局部关注模块对每一块内的特征使用TransformerIE进行关注,加强局部细粒度语音特征的关注,为局部特673瑶等:基于多维注意力机制的单通道语音增强方法姚第4期2D卷积ReLU激活输人特征XsegTransformerlE组合
24、N输出特征XCF图6局部注意力Fig.6Local attention征赋予不同的重要性权重,在TransformerIE之后进一步采用2 D卷积与ReLU激活提取语音特征,最后,将分割的特征块经过重叠组合,还原特征大小,完成对局部语音的关注.为了加强特征表示,在局部关注模块之后设计了掩码模块,如图7 所示。掩码模块利用输人特征XERCXT分两路送入1D卷积,并分别进入Tanh与Sigmoid函数进行非线性运算,得到的特输入特征XLD卷积ID卷积TanhSigmoidID卷积ReLU输出特征图7掩码模块Fig.7Maskmodule征图进行点积之后,输人1D卷积并用ReLU激活得到特征掩码;将
25、特征掩码与输入该模块的特征图逐元素相乘,加强特征的重要性区域表示;最后,将经过掩码模块的特征张量输入解码器,还原语音特征,重构增强后的语音波形。2基于多维注意力机制的语音增强2.1MDAM-Net框架语音增强过程中,假设时域干净的语音信号为S,加性背景噪声信号为n,带噪语音信号如式(9)所示:y(t)=s(t)+n(t),0tT-1(9)其中,y,S,nERT1,T表示时间顿长度.语音增强的目标是找到一个增强函数F,如式(10)和式(11)所示,使其尽可能接近干净语音信号s:mind(s(t),s(t)(10)s.t.s(t)=F(y(t)(11)本文设计了语音增强网络MDAM-Net,采用带
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多维 注意力 机制 通道 语音 增强 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。