基于Involution算子和交叉注意力机制的合成语音检测方法.pdf
《基于Involution算子和交叉注意力机制的合成语音检测方法.pdf》由会员分享,可在线阅读,更多相关《基于Involution算子和交叉注意力机制的合成语音检测方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、中国人民公安大学学报(自然科学版)2023 年第 3 期 No.3 2023Journal of People蒺s Public Security University of China(Science and Technology)总第 117 期 Sum117基于 Involution 算子和交叉注意力机制的合成语音检测方法邓泗波,摇 芦天亮,摇 彭舒凡,摇 刘晓文,摇 于子健(中国人民公安大学信息网络安全学院,北京摇 100038)摘摇 要摇 随着科学技术的迅速发展,基于深度学习生成的合成语音给语音认证系统和网络空间安全带来了新的挑战。针对现有检测模型准确率较低和语音特征挖掘不够充分的问
2、题,提出了一种基于 Involution 算子和交叉注意力机制改进的合成语音检测方法。前端将语音数据提取线性频率倒谱系数(LFCC)特征和恒定 Q 变换(CQT)谱图特征,两个特征分别输入到后端的双分支网络中。后端网络使用 ResNet18 作为主干网络先进行浅层的特征学习,并将 Involution 算子嵌入主干网络,扩大特征图像学习区域,增强在空间范围内学习到的频谱图像特征信息。同时在训练分支之后引入 cross鄄attention 交叉注意力机制,使 LFCC 特征和 CQT 谱图特征构建交互的全局信息,强化模型对特征的深层挖掘。所提模型在 ASVspoof 2019 LA 测试集上取得
3、了 0郾 84%的等错误率和 0郾 026 的最小归一化串联检测代价函数的实验结果,展现了优于主流的检测模型。结果表明,改进的模型能够有效融合不同的频谱特征,提高模型的特征学习能力,从而强化模型的检测能力。关键词摇 合成语音检测;特征融合;Involution 算子;注意力机制中图分类号摇 D918郾 2文献标志码摇 A收稿日期摇2023鄄07鄄12基金项目摇国家社会科学基金重大项目(21&ZD193)。第一作者简介摇邓泗波(1997),男,辽宁沈阳人,在读硕士研究生。研究方向为语音合成与鉴别。通信作者摇芦天亮(1985),男,博士,副教授。E鄄mail:Research on Synthet
4、ic Speech Detection Based on InvolutionOperator and Cross Attention MechanismDENG Sibo,摇 LU Tianliang,摇 PENG Shufan,摇 LIU Xiaowen,摇 YU Zijian(School of Information and Cyber Security,People蒺s Public Security University of China,Beijing 100038,China)Abstract:With the rapid development of science and
5、technology,synthetic speech based on deep learn鄄ing has posed new challenges to speech authentication systems and cyberspace security.In response tothe problems of low accuracy of existing detection models and insufficient speech feature mining,an im鄄proved synthetic speech detection method is propo
6、sed based on the Involution operator and cross attentionmechanism.The front鄄end extracts linear frequency cepstral coefficient(LFCC)features and the constantQ transform(CQT)spectrogram features from speech data,and these two features are respectively inputinto the back鄄end dual branch network.The ba
7、ckend network takes ResNet18 as the backbone networkfor shallow feature learning,and the Involution operator is embedded into the backbone network to expandthe feature image learning area and enhance the spectral image feature information learned within the spa鄄tial range.At the same time,the cross鄄
8、attention mechanism is introduced after training the branches,which generates interactive global information between LFCC features and CQT spectral features,56邓泗波等:基于 Involution詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬算子和交叉注意力机制的合成语音检测方法strengthening the model蒺s deep mining of features.The pro
9、posed model achieves an EER of 0郾 84%andmin鄄tDCF of 0郾 026 on the ASVspoof 2019 LA evaluation set,better than the mainstream detection mod鄄els.The results show that the improved model can effectively fuse different spectral features,improve thefeature learning ability of the model,and thus strengthe
10、n the model蒺s detection ability.Key words:synthetic speech detection;feature fusion;Involution operator;attention mechanism0摇 引言语音是人类交流的主要方式,是人机交互的重要载体。俗话说“听音识人冶,语音不仅传递了说话人的语言信息和情感表达,还展示了说话人性别、年龄等独有的身份特征。自动说话人验证(AutomaticSpeaker Verification,ASV)是一种用于识别单个说话人的身份验证方法,主要是通过识别由说话人的语音信息生成的每个说话人独有的“声纹冶信息,
11、来完成说话人的身份认证。ASV 系统常用于个人身份安全认证和一些智能设备的安全访问控制场景,比如当前常用的语音密码、声纹登录认证等。但 ASV 系统也很容易受到不法分子的攻击,通过语音合成(Text to Speech,TTS)、语音转换(VoiceConversion,VC)、录音重放(Replay Attack,RA)等方式生成的伪造语音会降低 ASV 系统的效率及其识别的准确性。不法分子若攻击成功,将非法获取目标用户的访问权限,实现对目标用户的智能设备或安全账户的非法操控,从而使目标用户遭受个人隐私泄露、财产损失等不良侵害。尽管由最新算法生成或先进设备录制等方式生成的伪造语音的真实度越来
12、越高,人耳听觉系统很难区分辨别,但通过使用深度学习方法,分析语音相关的频谱特征,真实语音与伪造语音之间还是存在可鉴别的差异。因此,为了提高 ASV 系统的安全性,在进行声纹安全认证前,需先进行输入语音的真伪检测,若判断为真实语音,才进行下一步的声纹认证,进一步保护用户的个人数据、财产等信息安全。伪造语音不仅对 ASV 等机器听觉系统进行攻击,还直接对人类听觉系统进行极具迷惑性的欺骗。近年来,由深度伪造技术生成的伪造语音足以“以假乱真冶“瞒天过海冶,比如不法分子使用文本合成语音的方式播放虚假信息、使用变声器模仿亲朋好友的声音进而实施电信诈骗等,这些行为不仅对公民财产安全造成了损害,更是严重危害了
13、社会安全,因此,研究伪造语音尤其是合成语音的检测方法对有效打击此类犯罪是极其重要的。1摇 相关介绍1郾 1摇 合成语音检测伪造语音的目的是生成目标说话人的声音,以欺骗人类听觉系统或自动说话人验证系统(ASV),其主要生成方法包括语音合成、语音转换、录音重放以及对抗攻击。语音合成是指通过识别分析文本,将文字转换为相应的语音信号,生成新的语音;语音转换是指通过频谱映射,在原语音内容不变的基础上,改变说话人的音色;重放攻击是指对目标说话人的语音通过设备录制后进行编辑和回放以产生高度逼真的目标说话人语音;对抗攻击是指通过对抗样本技术,在语音信号上添加微量扰动,实现对 ASV系统的攻击1。通过使用语音合
14、成和语音转换技术,可以生成任意语言内容和任意说话人音色的语音信号,因此,是主要的伪造语音攻击手段。本文研究的是针对包括语音合成和语音转换在内的合成语音检测方法。基于深度学习的合成语音检测系统是通过学习分析合成语音和真实语音的特征差异来分类判断输入语音的真伪。当前有两种系统类型,第一种是传统的基于特征提取的检测系统,这种检测系统分为前端和后端,前端首先对语音进行数据预处理,将原始语音提取为具有区分性的语音特征作为输入,后端则通过神经网络学习语音特征的高级表示,然后进行分类判决;另一种是端到端的检测系统,该类型的检测系统直接将原始语音作为网络输入,由神经网络自行学习高级特征表示后进行判决。但由于传
15、统特征提取的合成语音检测系统目前明显优于端到端的检测系统。因此,本文研究的是基于传统特征提取的合成语音检测方法。1郾 2摇 合成语音检测前端常用特征检测系统前端常用的特征为原始语音提取的频谱特征,主流的语音频谱特征可以分为两大类,即基于傅里叶变换的特征和基于恒定 Q 变换2的特征。表 1 总结了常见的一些语音频谱特征。近期的研究66邓泗波等:基于 Involution詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬算子和交叉注意力机制的合成语音检测方法工作表明,LFCC 特征和 CQT 谱图在合成语音检测中取得了良好的检测效果。表 1摇 常见的语音
16、频谱特征特征类型特征名称中文英文缩写短时傅里叶变换语谱图STFT 语谱图线性频率倒谱系数LFCC基于傅里叶变换梅尔频率倒谱系数MFCC逆梅尔频率倒谱系数IMFCC矩形滤波倒谱系数RFCC恒定 Q 变换谱图CQT 谱图基于恒定 Q 变换基于恒定 Q 变换的倒谱系数CQCC扩展 CQCCeCQCC1郾 3摇 合成语音检测后端常用网络检测系统后端一般采用基于卷积神经网络的架构,如轻量卷积神经网络(Light Convolutional NeuralNetwork,LCNN)、残差网络(Residual Network)、挤压-激励网络、胶囊网络等,部分工作还引入了门控递归单元(Gated Recur
17、rent Unit,GRU)等循环神经网络架构用以捕获序列上下文信息1。在 ResNet 网络提出之前,所有的卷积神经网络都是通过卷积层和池化层的叠加组成的,并且通过搭建更多层数的卷积层和池化层,以期望可以捕捉挖掘到更多的特征信息。但是在实际的试验中发现,随着网络层数的叠加,非但没有出现性能变好的情况,反而在网络层次较深时会出现梯度消失问题,造成了在训练过程中,更新的学习信息难以传播到网络低层,从而影响网络进一步学习高级特征表示,导致模型的预测效果不佳。基于 ResNet 的神经网络模型能在一定程度上缓解梯度消失问题,其核心思想是通过跳过连接的方式来降低深层网络的参数量,从而优化模型的训练速度
18、和训练效果,令模型在训练过程中的参数更新能够更快地传播至低层网络,解决梯度消失问题,因此本文采用 ResNet 作为所提模型的主干网络。1郾 4摇 合成语音检测研究现状研究人员发现,相比于前端采用单特征的合成语音检测系统,前端采用多特征输入策略的合成语音检测系统检测效果更优。Alzantot 等人3前端使用 3 种不同的语音特征(MFCC、CQCC、Spec),后端使用 ResNet 网络,再进行分数融合的检测方案;Wang 等人4前端使用了 4 种不同的语音特征(MFCC、CQCC、Spec、LFCC),后端提出了一种密集连接的卷积网络,实验结果表明,前端使用 Spec 特征和 LFCC 特
19、征进行分数融合的效果最优;Li 等人5前端使用了 3 种不同的语音特征(CQT、Spec、LFCC),通过构建多重特征尺度丰富了 ResNet 模块的感受野,增强了基于 ResNet 设计的模型的通用性;Cui 等人6前端使用了 3 种不同的语音特征(SpecL、LFCC、ARS),后端改进了基于 Densenet 模型的分类器,实现对多层级特征的充分利用,提升了模型的分类效果,然而这些检测系统在特征和网络选取方面缺乏深入的研究,检测系统的精度还存在提升的空间。2摇 改进的合成语音检测模型本文针对前端多特征输入的合成语音检测系统未能深入挖掘不同语音特征之间的潜在关联及准确率偏低的不足,提出了一
20、种改进的合成语音检测模型,模型结构如图 1 所示,本文主要创新点如下:(1)构建双分支网络,前端输入特征为 LFCC 特征和 CQT 谱图,后端训练主干网络为融合 CBAM7模块的 ResNet18;(2)在 ResNet18 双分支主干网络中引入 Invo鄄lution 算子8,扩大不同尺寸频谱图特征的学习区域,使主干网络在训练阶段更好、更全面地学习输入的语音特征信息;(3)在训练分支之后引入交叉注意力机制(Cross鄄Attention)9,使 LFCC 特征和 CQT 谱图构建交互的全局信息,从而强化模型的特征学习能力。2郾 1摇 语音特征2郾 1郾 1摇 LFCC 特征LFCC 是线性
21、频率倒谱系数的意思,它是通过傅里叶变换将语音信号从时域转换到频域上。经研究表明,LFCC 是在伪造语音检测领域表现最突出的前端特征之一。与常用的语音特征 MFCC 相对比,LFCC 是在提取过程中,将 Mel 滤波器组更换成线性滤波器组计算得到的。线性滤波器组在较高频率区域具有更好的分辨率,因此 LFCC 特征相较传统的 MFCC 特征,能更好地表达语音的频率特征,提高真伪语音间的频谱差异,后端模型可以更好地进行学习分类,其具体的提取流程如图 2 所示。2郾 1郾 2摇 CQT 谱图CQT(Constant Q Transform,CQT)即恒定 Q 变76邓泗波等:基于 Involution
22、詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬算子和交叉注意力机制的合成语音检测方法图 1摇 基于 Involution 算子和交叉注意力机制的伪造语音检测模型框架摇图 2摇 LFCC 特征提取流程摇换,它是用一组恒定 Q 滤波器对时域语音信号进行滤波,将语音信号由时域变换到频域上。对比短时傅里叶变换(Short鄄Time Fourier Transform,STFT),STFT 中每个滤波器的带宽恒定且与窗口函数相关,故频率越高,Q 因子越大。但 CQT 变换中,滤波器是恒定 Q 值的,即中心频率与带宽比相同,则在低频时,带宽窄,高频时带宽高,
23、从而得到非线性频域信号。该方法对于较低的频率给出较高的频率分辨率,而对于较高的频率给出更高的时间分辨率。其具体的提取流程如图 3 所示。图 3摇 CQT 谱图提取流程摇2郾 2摇 Involution 算子Involution 是一种卷积神经网络中的算子,与传统的卷积操作相比,Involution 算子引入了自适应的感受野,它可以更好地处理图像中的细节和局部特征。传统的卷积操作在每个位置上使用相同的固定大小的卷积核,可能无法有效地捕捉不同位置和尺度上的细节信息。而 Involution 算子通过学习感受野的大小和位置,可以自适应地捕捉不同位置和尺度上的特征,从而提高模型的表达能力。Involu
24、tion 算子的公式可以表示为:Involution(x)=(滓1c移Cc=1wc x*k)c(1)其中:-(x)是输入特征图,维度为(H 伊 W 伊 C),表示高度、宽度和通道数;-(C)是输入特征图的通道数;-(wc)是卷积核权重,维度为(1 伊1 伊 C),表示在每个通道上的权重;-(kc)是卷积核,维度为(k 伊 k 伊 C),表示在每个通道上的卷积核;-(*)表示卷积操作;-(滓)表示非线性激活函数,如 ReLU。Involution 算子的具体步骤如下:(1)对输入特征图(x)应用分组卷积操作,使用卷积核在每个通道上进行卷积操作。这将生成(C)个输出特征图,每个特征图的大小为(H
25、伊 W);(2)将每个输出特征图与对应的权重(wc)相乘,得到加权的特征图;(3)对加权的特征图进行通道维度的求和,得到一个大小为(H 伊 W)的特征图;(4)将求和得到的特征图除以通道数(C),得到平均特征图;(5)对平均特征图应用非线性激活函数(滓),得到最终的输出特征图。86邓泗波等:基于 Involution詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬算子和交叉注意力机制的合成语音检测方法将 Involution 算子嵌入到骨干网络 ResNet18 的残差模块中,使得改进后的模型可以更好地学习不同尺寸大小的输入特征,加入 Involu
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Involution 算子 交叉 注意力 机制 合成 语音 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。