基于MFCC特征融合的语音情感识别算法.pdf
《基于MFCC特征融合的语音情感识别算法.pdf》由会员分享,可在线阅读,更多相关《基于MFCC特征融合的语音情感识别算法.pdf(9页珍藏版)》请在咨信网上搜索。
1、 年 月 陕西理工大学学报(自然科学版).第 卷第 期 ().引用格式:黄喜阳杜庆治龙华等.基于 特征融合的语音情感识别算法.陕西理工大学学报(自然科学版)():.基于 特征融合的语音情感识别算法黄喜阳 杜庆治 龙 华 邵玉斌昆明理工大学 信息工程与自动化学院 云南 昆明 摘 要:在目前语音情感识别中采用单一梅尔倒谱系数()频谱的方法不能完全体现语音中所包含的情感特性而多特征融合容易导致维数过大 提出了一种融合 及其差分频谱的双向长短时记忆网络结合卷积神经网络()的语音情感识别算法 首先提取语音信号的 特征并进行差分运算得到一阶、二阶差分特征提取频谱再采用主成分分析法分别获取 个频谱中贡献度较
2、高的维度组成新的频谱达到降维目的并将降维后的 个特征频谱从上到下依次进行堆叠得到动、静结合的 差分融合频谱 训练阶段 模型从特征融合频谱中学习语音情感特性并采用稀疏交叉熵法得到最优结果实验结果表明在 数据集上准确率为.在 数据集上对情感识别的准确率为.比主流情感识别模型的准确率提高了.关键词:语音情感识别主成分分析法双向长短时记忆网络 差分融合频谱深度学习中图分类号:.文献标识码:文章编号:()收稿日期:修回日期:基金项目:云南省媒体融合重点实验室开放项目()通信作者:杜庆治()男云南楚雄人高级实验师主要研究方向为通信工程、信息系统、网络安全情感信息在语音信号中也是一种很重要的信息资源对于说话
3、人情感的分析有很重要的研究意义通常语音情感分为七大类分别是生气()、害怕()、无聊()、厌恶()、高兴()、中性()、悲伤()当相同内容的话说话人当时情感的不同则会表现出不同的形式使得听者在感知上就会存在很大的差异以至于产生歧义甚至是误会 语音情感识别技术()是一种自动检测说话人情感状态的技术对于分析和处理语音信号中的情感特征有着很重要的作用对于语音情感的模型目前国内外学者普遍采用基本情感、情感二维空间、情感论三种分类方式 对于情感特征而言通常采用线性预测倒谱系数()、梅尔频率倒谱系数()及其差分倒谱系数等参数 而一阶 是对 特征的时间差分通过计算相邻帧之间的差异可以捕捉到语音信号的动态特性且
4、能够提供有关语音信号的速度和变化趋势的信息 在语音情感识别中一阶差分可以帮助检测情感状态的瞬时变化如情感的转折或强度的变化 二阶 在保留 特征的基础上能够更好地区分不同的语音情感提高情感识别的准确率同时二阶 在特征提取时考虑了时序差分可以提供更细致的情感变化信息有助于区分不同情感状态之间的微妙差异 对于语音情感识别方法而言目前主要采用 方式其中双向长短期记忆网络()和卷积神经网络()对情感特征都有着良好的提取作用 等采用 静态特征频谱结合长短期记忆网络()对语音情感进行识别由于只采用静态 特征仅仅捕捉了语音信号的频率特征 罗相林等采用 及其一阶差分特征并通过数据归一化进行预处理再使用十折交叉验
5、证法选择最优支持向量机模型()对语音情感信息进行识别并未考虑二阶 对语音信号中的时序信息且采用直接拼接法进行特征融合基于上述本文在 基础上进行差分运算求出一阶和二阶频谱特征采用主成分分析法()分析、一阶、二阶特征频谱中不同维度的贡献度并分别去掉贡献度较低维数后将贡献度较高的维数进行融合得到融合特征频谱再将融合后的频谱作为特征输入减少冗余信息提高计算效率由于不同的特征维度具有不同的信息表达能力融合后可以充分利用它们之间的互补性以增强特征的表征能力 最后将融合频谱特征通过标准化后采用 神经网络对语音情感进行识别 频谱特征融合模型目前主流方法均采用 或一阶差分 特征频谱作为输入由于直接拼接融合造成维
6、度过大训练时间较长且准确率不理想问题 在本实验中采用静态 及其一、二阶差分 的融合频谱作为输入一阶差分 是离散函数中连续相邻两项之差其物理意义在语音中表现的是当前语音帧与前一帧之间的关系体现相邻两帧信号之间的相互关系在频谱图上表现出来的是能量的变化 二阶差分表示的是一阶差分与一阶差分之间动态的关系即一阶差分与一阶差分之间的关系体现到语音信号帧上是相邻三帧信号之间的动态关系在频谱图上表现出的是一阶 变化加速度大小 由于标准的梅尔频率倒谱参数只反映了语音参数的静态特性和单帧的功率谱包络线但在语音情感识别中语音情感特征更多的表现在能量的变化以及相邻语音帧之间的关系因此静态 不能完全体现语音中包含的情
7、感特性而 随着时间变化的轨迹能反映语音情感的实质特性即语音的特性可以利用静态特征的差分谱来描述并采用 法将各个频谱中贡献度较高的维数组合成新的频谱动、静态特征频谱结合作为输入可以提高系统的识别性能且减少时间的开销其差分 频谱融合特征模型如图 所示图 差分融合频谱模型.特征提取对于深度学习的语音情感识别技术()首先是对语音进行预处理得到语音中最重要的频谱图频谱图中包含了语音的大量关键信息 目前在语音情感识别中使用的频谱特征一般有线性预测系数、线性预测倒谱系数、梅尔倒谱系数等 当语音信号通过运算成倒谱系数后这些倒谱系数就能够被相应特性的机器学习算法学习进而利用这些特性辨别出说话人的情感特征 梅尔频
8、率倒谱系数是利用基于人耳听觉特性提出来的梅尔感知频率与 频率成非线性对应关系从而得到的 频谱特征以 为单位的感知频率 与以 为单位的实际频率 的转化关系如 (/)()主要用于语音数据特征提取和降低运算维度对于语音中的相关特性提取有很好的作用.一阶和二阶 特征提取一阶和二阶差分特征提取过程如图 所示)分帧:在特征频谱提取过程之前将语音数据分帧为帧长为 、帧移为 的一小段数据以此保证进行语音信号的平稳性)加窗:加窗主要目的是增强分帧后每一帧信号中间部分的强度削弱端点处不连续性本实验使 陕西理工大学学报(自然科学版)第 卷图 差分特征提取流程用汉明窗()汉明窗公式为().()式中 为窗口长度)快速傅
9、里叶变换():快速傅里叶变换能将时域信号转化为频域信号能生动地展现信号强度和频率的关系有利于获取语音信号中情感的特性快速傅里叶变换公式为()()()()式中()为输入语音信号()为汉明窗函数 是傅里叶变化的点数()为输入语音信号的频域表达式)梅尔滤波组():通过快速傅里叶变换得到语音声谱由于人耳对低频部分听觉不敏感因此再通过模拟人耳听力特点设计出的梅尔滤波组可增强三角波区域中间信号削弱两边信号因此能对信号进一步提取特征本实验设置滤波器个数 为 个三角波中心频率为()其梅尔滤波组函数()为 ()()()()()()()()式中()频谱能量:为了更好使梅尔特征频谱输出具有更好的抗干扰作用每帧谱线能
10、量()与梅尔滤波组函数()相乘取对数得到对数能量()即()()()()()()()()()取值:.由全连接层学习卷积层输出的特征提取出语音特征并利用该特性识别出语音情感 由于情感主要分为七类分别是生气、害怕、无聊、厌恶、高兴、中性、悲伤因此在判断情感类别时假设一条语音信号对应的差分融合梅尔倒谱矩阵为 情感识别模型表示为()经过网络模型后的()输出 个值、个值分别对应七类不同的情感由于网络输出层采用 激活函数可对输出值进行归一化操作使得输出值转化为概率值并且概率值之和为 第 期 黄喜阳杜庆治龙华等 基于 特征融合的语音情感识别算法 激活函数公式为()()/()()式中为第 个节点的输出值 为总输
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 MFCC 特征 融合 语音 情感 识别 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。