注意力机制融合前端网络中间层的语声情感识别.pdf
《注意力机制融合前端网络中间层的语声情感识别.pdf》由会员分享,可在线阅读,更多相关《注意力机制融合前端网络中间层的语声情感识别.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 42 卷 第 5 期Vol.42,No.52023 年 9 月Journal of Applied AcousticsSeptember,2023 研究报告 注意力机制融合前端网络中间层的语声情感识别朱应俊周文君朱 川马建敏(复旦大学航空航天系上海200433)摘要:为了使机器能够更好地理解人的情感并改善人机交互体验,可对语声特征及分类网络进行融合以提升情感识别性能。该文从网络融合的角度,把基于梅尔倒谱系数和逆梅尔倒谱系数的二维卷积神经网络和基于散射卷积网络系数的长短期记忆网络作为前端网络,提取前端网络的中间层作为话语级的特征表示,利用压缩-激励(SE)通道注意力机制对前端网络的中间层的权
2、重进行调整并融合,然后由深度神经网络后端分类器输出情感分类结果。在汉语情感数据集中进行五折交叉验证的对比实验,实验结果表明,基于SE通道注意力机制的网络融合方式可以有效地利用不同前端网络在语声情感识别任务中的优势,提高语声情感识别的准确率。关键词:注意力机制;语声特征;网络融合中图法分类号:TN912.3文献标识码:A文章编号:1000-310X(2023)05-1090-09DOI:10.11684/j.issn.1000-310X.2023.05.023Speech emotion recognition using the attention mechanism to fuse thei
3、ntermediate layer of front-end networksZHU YingjunZHOU WenjunZHU ChuanMA Jianmin(Department of Aeronautics and Astronautics,Fudan University,Shanghai 200433,China)Abstract:In order to enable machines to better understand human emotions and improve human-computerinteraction experience,speech features
4、 and classification networks can be fused to improve emotion recognitionperformance.From the perspective of network fusion,this paper builds front-end networks including two dimen-sional convolutional neural network(2D-CNN)based on Mel-frequency cepstral coefficients,2D-CNN based oninverted Mel-freq
5、uency cepstral coefficients,long short-term memory based on scattering convolution networkcoefficients.The intermediate layer of the front-end networks are then extracted as the feature representationof the discourse level,and the squeeze-and-excitation(SE)channel attention mechanism is introduced t
6、o adjustand fuse the weights of the intermediate layer.Eventually the sentiment classification results are output bythe back-end network based on the deep neural network.A comparison experiment of five-fold cross-validationwas carried out on the Chinese speech emotion data set.The experimental resul
7、t showed that the networkfusion based on the SE channel attention mechanism can effectively utilize the advantages of different front-endnetworks in speech emotion recognition tasks,and improve the accuracy of speech emotion recognition.Keywords:Attention mechanism;Speech feature;Network fusion2022-
8、06-04 收稿;2023-01-12定稿作者简介:朱应俊(1998),男,山东济南人,硕士研究生,研究方向:语声情感识别。通信作者 E-mail:第42卷 第5期朱应俊等:注意力机制融合前端网络中间层的语声情感识别10910 引言语声情感识别(Speech emotion recognition,SER)已在娱乐产品的情感交互、远程教育的情感反馈、智能座舱的情绪监测中得到广泛应用。在应用中,通过建立语声信号的声学特征与情感的映射关系,对语声的情感进行分类。基于单一特征的SER模型因受到特征信息量不足的制约而影响识别准确率。随着对语声情感特征研究的逐步深入,通过对多种语声特征进行融合以消除特征
9、中的冗余信息并提升识别准确率的方法受到越来越多的关注,已形成了特征级、中间层级、决策级等融合方式。对语声情感特征进行特征级的融合可以在增加信息量并提高识别准确率的同时有效减小特征维度。Liu等1使用基于相关性分析和Fisher准则的特征选择方法,去除来自同一声源且具有较高相关性的冗余特征。Cao等2也提出了基于Spear-man相关性分析和随机森林特征选择的方法提取相关性最弱的特征以进行融合。基于网络中间层进行的融合则利用神经网络将原始特征转化为高维特征表达,以获取不同模态数据在高维空间的融合表示。Cao等3在话语级别的情感识别中使用门控记忆单元(Gated memory unit,GMU)来
10、获取语声信号的静态与动态特征融合后的情感中间表示。Zhang等4提出了基于块的时间池化策略用于融合多个预训练的卷积神经网络(Convolutionalneural network,CNN)模型学习到的片段级情感特征,得到固定长度的话语级情感特征。语声特征的融合还可基于多个模型在其输出阶段进行决策级融合以集成其情感分类结果5。Noh等6使用基于验证准确度的指数加权平均法则组成了分级投票决策器对多个CNN模型的决策结果进行融合。Yao等7使用基于置信度的决策级融合整合了在多任务学习中获得的循环神经网络(Recur-rent neural network,RNN)、CNN和深度神经网络(Deep n
11、eural network,DNN)。注意力机制可用于自动计算输入数据对输出数据的贡献大小,近年来也在语声识别相关领域得到了较多运用。Bahdanau等8将注意力机制应用于RNN和n-gram语言模型,建立了端到端的序列模型。Mirsamadi等9将基于局部注意力机制的加权时间池化策略用于RNN模型,以学习与情感相关的短时帧级特征。Kwon10使用特殊的扩张CNN从输入的过渡语声情感特征中提取空间信息并生成空间注意力图以对特征进行加权。在已有对语声特征融合及注意力机制在SER任务中应用研究的基础上,通过对语声信号进行预加重和分帧加窗等处理,得到基于谱特征和时序特征的前端网络,利用压缩-激励(S
12、queeze-and-excitation,SE)通道注意力机制对前端网络中间层进行融合,有效利用不同前端网络在SER任务中的优势提高情感识别准确率。通过在汉语情感数据集中的对比实验,对前端网络选择的合理性和SE通道注意力机制用于对前端网络中间层进行融合的有效性进行验证。1SER模型本文判断语声信号情感类别的SER模型如图1所示,该模型由3个模块组成:前端网络模块、注意力机制融合模块和后端网络分类模块。前端网络模块对输入的语声信号进行预加重和分帧加窗等处理后,提取梅尔倒谱系数(Mel-frequency cepstralcoefficients,MFCC)和逆梅尔倒谱系数(InvertedMF
13、CC,IMFCC)作为谱特征,把谱特征输入到二维卷积神经网络(Two dimensional CNN,2D-CNN)得到MFCC 2D-CNN和IMFCC 2D-CNN;提取散射卷积网络系数(Scattering convolution networkcoefficients,SCNC)作为时序特征,把时序特征输入到长短期记忆网络(Long-short term memory,LSTM)中得到SCNC LSTM。注意力机制融合模块引入SE通道注意力机制,将MFCC 2D-CNN、IMFCC 2D-CNN和SCNC LSTM前端网络中提取的中间层进行加权融合得到融合深度特征(Fusiondeep
14、 feature,FDF)。后端分类模块基于DNN构建分类器,依据输入的FDF映射输出情感分类结果。1.1基 于MFCC和IMFCC特 征 的2D-CNN前端网络MFCC和IMFCC谱特征中不同频谱区间的频谱能量分布体现着不同情感状态下的声道形状和发声状态11,其中计算MFCC特征时使用的Mel三角滤波器模拟了人耳听觉的非线性机制,更加关注于语声信号的低频部分而对中高频的变化不够敏感12;IMFCC特征则通过IMel滤波器在高频区域分布更加密集来获取更多高频信息13。Hz 频率10922023 年 9 月?MFCC?IMFCC?2D-CNN?SE?SCNC?2.01.51.00.5064202
15、468TimeOriginal waveAmplitude2.01.51.00.50Time/sMFCCdB+10001002003004002.01.51.00.50Time/sWaveletsdB+0+2+4+6+82.01.51.00.50Time/sIMFCCdB+100+200+30001002D-CNN?LSTM?图1SER模型结构Fig.1 Structure of SER model与Mel频率及IMel频率之间的定量关系可分别表示为14fMel=2595 lg(1+f700),(1)fIMel=2146.1 1127 lg(1+4000 f700),(2)其中,f 表示Hz频
16、率,fMel和fIMel分别为Mel频率及IMel频率。将语声信号的功率谱通过Mel及IMel三角滤波器,并将对数能量带入离散余弦变换(Discretecosine transform,DCT)以消除相关性,可计算得到语声信号的MFCC系数及IMFCC系数。还引入其一阶二阶差分项作为动态特征以体现语声情感的时域连续性15。特征差分项 dt的实现如下:dt=STst=1st (ct+st ctst)2STst=1st2,(3)其中,ct表示MFCC或IMFCC倒谱系数,st表示一阶导数的时间差。将一阶差分结果重复带入即可得到二阶差分,最终可计算得到带有差分项的MFCC及IMFCC特征。为了利用C
17、NN在提取特征矩阵的局部空间相关性信息方面的优势16,本文搭建了改进Alexnet的2D-CNN,网络结构简图如图2所示,网络卷积部分的结构参数如表1所示。卷积层使用了ReLU激活函数,并进行了L2正则化,正则化参数为0.02。在完成卷积运算后,使用扁平化层(Flatten)对卷积特征进行降维,输入到节点数分别为2048和512的两层全连接层对特征进行整合,并由6个节点的Softmax分类层得到情感分类结果。将MFCC和IMFCC特征分别输入2D-CNN训练得到MFCC2D-CNN前端网络和IMFCC 2D-CNN前端网络。表12D-CNN前端网络卷积层参数Table 1Parameters
18、of convolutional lay-ers in 2D-CNN front-end network网络层数核尺寸核数量步长2D Conv155322Maxpooling13322D Conv2551282Maxpooling23322D Conv33325612D Conv43325612D Conv5331281在反向传播过程中,为了应对由样本量过少及训练数据分布不均衡导致的网络性能下降的问题,本文引入了Focal loss损失函数17,通过给难分类样本(Hard example)较大的权重,给易分类样本(Easy example)较小的权重,来放大难分类样本的损失并抑制易分类样本的损
19、失,从而使网络聚焦于难分类样本的学习,提高分类准确率。Focal loss损失函数 Lfl的计算如下:Lfl=t(1 pt)lg(pt),(4)第42卷 第5期朱应俊等:注意力机制融合前端网络中间层的语声情感识别1093.?3220?63?3210?321285?161283?8 2563?8 HappyAngrySadNeutralSurpriseFear2563?8?1283?8Flatten?Softmax?2.01.51.00.50MFCC图2基于MFCC与IMFCC的2D-CNN前端网络结构Fig.2 2D-CNN front-end network structure based
20、on MFCC and IMFCC其中,pt表示分类器预测的概率值,为权重放大因子,t是类别权重。为了增大2D-CNN前端网络对难分类样本的权重,将 取为4,因为数据集中各类情感样本数目相同,将t设置为1。1.2基于SCNC特征的LSTM前端网络本文引入了由不变散射卷积网络(Invariantscattering convolution network,ISCN)自动提取的SCNC特征18作为时序特征。将语声帧视作短时平稳信号,输入由多层小波散射变换与取模算子级联得到的ISCN中,提取其散射系数作为SCNC特征,该特征能够最小化信号的平移和形变的影响,具有较强的变形稳定性,且保留用于分类的高频
21、信息,故在网络中间层对特征进行融合时能够维持分类鲁棒性19。对语声信号进行的小波变换可表示为 x,其中指数 =2jr给出了带通滤波器的频率位置,表示卷积运算,对于语声信号仅计算在r 0,)范围内所对应的路径。沿路径p=(1,2,m)迭代进行小波变换和取模运算可求得小波变换系数:U px=U mU 2U 1x=|x 1|2|m|.(5)为得到具有更好变形稳定性的局部描述符,将空间窗函数 J2(u)=22J(2Ju)与小波系数进行积分以得到路径 p 上的加窗散射系数:S px(u)=U px 2J(u)=U px(v)2J(u v)dv,(6)其中,对于每条路径 p,Spx(u)是窗口位置u的函数
22、,将式(5)代入其中即可得到计算 m 阶加窗散射系数的公式如下:Spx(u)=|x 1|2|5|2J(u).(7)为了提高特征的高频分辨率,将分帧加窗后的语声片段输入由5层小波变换和取模算子级联得到的ISCN中,以提取网络的加窗散射系数作为SCNC特征。LSTM相较于CNN可以更好地处理时间序列的任务,同时LSTM解决了RNN的长时依赖问题20,并避免了反向传播过程中的梯度消失21。本文搭建了基于SCNC特征的LSTM前端网络,网络由LSTM层和3层全连接层组成,为对应每帧语声提取到的32维的SCNC特征,LSTM层设置了32个节点,每个节点通过126个时间步进行更新22。单个节点的结构如图3
23、所示。在LSTM节点中,Xt表示SCNC特征沿时间轴的输入,Ct表示由当前输入产生的细胞待更新的状态,由输入门 it和遗忘门 ft决定当前细胞状态要如何更新,细胞状态的迭代公式为Ct=ft Ct1+itCt.(8)10942023 年 9 月ht表示当前节点输出的隐藏状态,由输出门ot和当前细胞状态计算得到,使用 tanh 函数作为激活函数,其计算如下:ht=ot tanh(Ct).(9)?CthtCtXththttanh+?tanhht图3单个LSTM节点的内部结构Fig.3 Internal structure of LSTM node将LSTM网络层输出的全部隐藏状态 H 使用Flatt
24、en层降维后输入到节点数分别为1024和256的全连接层进行特征整合,激活函数为ReLU函数,全连接层后使用了Dropout函数以抑制过拟合,Dropout率为0.3,并由6个节点的Softmax分类层得到情感分类结果。将SCNC特征输入LSTM以训练得到SCNC LSTM前端网络。1.3基于SE通道注意力机制的网络中间层融合在SER任务中,MFCC 2D-CNN和IMFCC2D-CNN前端网络更加关注谱特征中的语声能量信息,而SCNC LSTM前端网络则侧重于语声的时序性信息。为了发挥两类网络的优势,本文将前端网络模型视作特征提取器,分别提取了MFCC2D-CNN与IMFCC 2D-CNN前
25、端网络最后一层卷积层的输出,提取了SCNC LSTM前端网络的隐藏状态H。前端网络的中间层深度特征作为话语级的特征表示,由于不同网络中的深度特征对情感分类的贡献程度不同,本文引入SE通道注意力机制,利用SE Block对各前端网络中间层权重进行调整23,融合过程如图4所示。SE通道注意力机制的实现通过两步完成。第一步为Squeeze操作,对应于图4中的全局平均池化,其实现如下:zc=Fsq(uc)=1H WHi=1Wj=1uc(i,j),(10)其中,压缩函数 Fsq在特征维度上对中间层矩阵 uc进行压缩降维,将 H W C 的多通道特征降为1 1 C 的C 维向量,以表征网络中间层的全局信息
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 注意力 机制 融合 前端 网络 中间层 语声 情感 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。