基于噪声破坏和波形重建的声纹对抗样本防御方法.pdf
《基于噪声破坏和波形重建的声纹对抗样本防御方法.pdf》由会员分享,可在线阅读,更多相关《基于噪声破坏和波形重建的声纹对抗样本防御方法.pdf(13页珍藏版)》请在咨信网上搜索。
1、第 9 卷 第 1 期 信 息 安 全 学 报 Vol.9 No.1 2024 年 1 月 Journal of Cyber Security January 2024 通讯作者:孙蒙,博士,副教授,Email:。本课题得到江苏省优秀青年基金(No.BK20180080)和国家自然科学基金(No.62371469,No.62071484)资助。收稿日期:2022-05-08;修改日期:2022-07-06;定稿日期:2023-09-27 基于噪声破坏和波形重建的声纹对抗样本防御方法 魏春雨1,孙 蒙1,张雄伟1,邹 霞1,印 杰2 1陆军工程大学 指挥控制工程学院 南京 中国 210007 2
2、江苏警官学院 南京 中国 210031 摘要 语音是人类最重要的交流方式之一。语音信号中除了文本内容外,还包含了说话人的身份、种族、年龄、性别和情感等丰富的信息,其中说话人身份的识别也被称为声纹识别,是一种生物特征识别技术。声纹具有获取方便、容易保存、使用简单等特点,而深度学习技术的进步也极大地促进了识别准确率的提升,因此,声纹识别已被应用于智慧金融、智能家居、语音助手和司法调查等领域。另一方面,针对深度学习模型的对抗样本攻击受到了广泛关注,在输入信号中添加不可感知的微小扰动即可导致模型预测结果错误。对抗样本的出现对基于深度学习的声纹识别也将造成巨大的安全威胁。现有声纹对抗样本防御方法会不同程
3、度地影响正常样本的识别,并且局限于特定的攻击方法或识别模型,鲁棒性较差。为了使对抗防御能够兼顾纠正错误输出和准确识别正常样本两个方面,本文提出一种“破坏+重建”的两阶段对抗样本防御方法。第一阶段,在对抗样本中添加具有一定信噪比幅度限制的高斯白噪声,破坏对抗扰动的结构进而消除样本的对抗性。第二阶段,利用提出的名为SCAT-Wave-U-Net的语音增强模型重建原始语音样本,通过在Wave-U-Net模型结构中引入Transformer全局多头自注意力和层间交叉注意力机制,使改进后的模型更有助于防御声纹对抗样本攻击。实验表明,提出的防御方法不依赖于特定声纹识别系统和对抗样本攻击方式,在两种典型的声
4、纹识别系统下对多种类型对抗样本攻击的防御效果均优于其他预处理防御方法。关键词 声纹识别;噪声破坏;语音增强;对抗样本防御 中图法分类号 TP391.9 DOI 号 10.19363/J10-1380/tn.2024.01.05 Defense of Speaker Recognition Against Adversarial Ex-amples Based on Noise Destruction and Waveform Recon-struction WEI Chunyu1,SUN Meng1,ZHANG Xiongwei1,ZOU Xia1,YIN Jie2 1 College of
5、Command and Control Engineering,Army Engineering University of PLA,Nanjing 210007,China 2 Jiangsu Police Institute,Nanjing 210031,China Abstract Voice is one of the most import ways of human communications.Besides texts,voice signals also hold the information of the speakers identity,race,age,gender
6、,and emotion,where the recognition of speaker identity is also called speaker recognition which is a biometric technique.Given the fact that human voice is easy to be collected and saved,and that the development of deep learning improves the recognition accuracy,speaker recognition has been used in
7、financial APP authentication,smart home,voice assistant and forensics.On the other hand,adversarial attacks against deep learning models have attracted great attention,which could make the models predictions incorrect by adding im-perceptible perturbations to input signals.Therefore,the emergence of
8、 adversarial examples also poses the same serious security threat to deep learning-based speaker recognition.In this paper,a two-stage method with“destructing”and“reconstructing”is proposed to defense against adversarial examples of speaker recognition by overcoming the short-comings of existing def
9、ense methods,such as the inability to remove adversarial perturbations,the negative impacts on the recognition of normal examples,and the poor robustness to different models and attack methods.At the first stage,Gaussian noises with a certain range of SNR amplitudes are added to the input speech sig
10、nal to destroy the structure of potential adversarial perturbations and to eliminate its adversarial function.At the second stage,the proposed speech enhancement model named SCAT-Wave-U-Net is used to reconstruct the original clean speech.Global multi-head self-attention of Transformer and interlaye
11、r cross-attention mechanisms are introduced into the Wave-U-Net structure,which is more useful for defending the speaker adversarial examples.Experimental results show that the effectiveness of the proposed defense method does not depend on the specific speaker recognition system and the adversarial
12、 example attack method.By conducting extensive experiments on two state-of-the-art speaker recognition systems,i.e.,i-vector and x-vector,the performances of the defense against multiple types of adversarial examples are superior to other de-72 Journal of Cyber Security 信息安全学报,2024 年 1 月,第 9 卷,第 1 期
13、 fense methods using preprocessing techniques.Key words speaker recognition;noise destruction;speech enhancement;defense of adversarial examples 1 引言 近年来,深度学习在语音、图像等识别任务中展现了优异的性能。然而,研究表明,深度学习模型容易受到在样本中添加小幅度扰动的影响,这些受到扰动的非正常样本被称为“对抗样本”1。通过在音频中加入微小的扰动使声纹识别(Speaker Recogni-tion)系统出错2的样本被称为声纹对抗样本。由于对抗样本具
14、有很小的扰动失真,人们从听觉上很难察觉到异常变化。对抗样本的出现对深度学习模型的安全性提出了严峻挑战。随着基于深度学习的声纹识别技术在金融、安防、智能家居等领域的广泛应用,声纹识别系统中对抗样本的防御就成为亟待解决的重要课题。现有的声纹对抗样本防御方法可分为对抗样本检测、对抗训练以及样本变换处理三种3。这些方法在不同程度上存在丢弃样本、泛化性能差、真实样本识别率降低等缺点。另一方面,为了去除语音中的各种噪声,近年来涌现出了大量的基于深度学习的语音增强方法4-6。从对抗样本的生成过程来分析,对抗扰动也可以看成是一种幅度较小的加性噪声7。如何将对抗样本防御和语音增强有效结合,使语音增强有助于去除对
15、抗噪声,进而减弱对抗样本带来的不利影响,是一个非常有价值的研究方向。为了解决这些问题,本文借助语音增强从对抗样本中恢复出原始波形,提出一种结合噪声破坏与波形重建的声纹对抗样本防御方法。该方法首先在对抗样本中加入高斯白噪声以破坏对抗扰动的结构,然后利用改进的语音增强模型重建原始波形,从而实现对对抗样本攻击的防御。2 相关工作 本文以噪声破坏和波形重建相结合的方式来防御声纹对抗样本攻击,通过语音增强重建原始音频样本。首先总结声纹对抗样本攻防和语音增强方面的相关工作如下:2.1 声纹对抗样本的攻击与防御 2.1.1 声纹对抗样本攻击方法声纹对抗样本攻击方法 根据攻击者是否了解被攻击模型的信息,声纹对
16、抗样本攻击可分为白盒攻击和黑盒攻击,根据是否迫使声纹识别系统输出指定的目标标签又分为有目标攻击和非目标攻击。在声纹对抗样本攻击的发展历程中出现了一些具有代表性的研究。1)FGSM Gong 等8将快速梯度符号法(Fast Gradient Sign Method,FGSM)用于生成声纹对抗样本。FGSM 通过一步梯度上升在输入 x 中添加扰动以最大化损失函数,计算公式如下:sign(,)xxxf x y (1)其中,是梯度上升的步长,f(x,y)是将输入x分类为说话人标签y的损失函数。2)PGD Liu等9将迭代梯度下降法(Projected Gradient Descent,PGD)应用于声
17、纹识别系统。PGD是FGSM的改进版本。在每次迭代中,PGD以步长应用FGSM并裁剪结果以确保其在原始输入x的邻域内,第i次迭代后的样本为,11,clip(sign(,)iiixxxxf xy (2)在求解对抗样本之前,PGD攻击为原始样本增加一个随机的扰动10,这有助于攻击方找到更好的损失函数局部最大值。3)Carlini&Wagner(CW)Carlini和Wagner11针对语音识别系统提出的CW攻击方法也被用于攻击声纹识别系统。CW方法将对抗样本的求解定义为一个优化问题,用一个权重因子调节目标函数中对抗样本的有效性与不可感知性之间的相对重要程度。用f(x,y)度量有效性,当且仅当攻击成
18、功时损失函数(,)0f x y。用对抗样本和原始样本之间的L2和L距离来度量不可感知性,由此产生了CW攻击的两个版本,即CW2和CW。CW攻击使用参数度量扰动的强度,越大,对抗样本攻击性越强,但同时也降低了对抗扰动的隐蔽性,使人更容易察觉。4)FakeBob Chen等12针对声纹识别系统提出了一种名为FakeBob的黑盒攻击方法。FakeBob与PGD均以迭代方式生成对抗样本,与PGD不同的是它作为一种黑盒攻击方法,通过自然进化策略估计梯度,并且攻击针对的是原始输入语音而不是添加了随机扰动的语音。FakeBob采用早停策略来减少查询次数,即一旦找到对抗样本就停止计算。与CW攻击类似,Fake
19、Bob也可以通过参数控制对抗扰动的强度。魏春雨 等:基于噪声破坏和波形重建的声纹对抗样本防御方法 73 5)SirenAttack Du等13提出了一种名为SirenAttack的黑盒音频对抗样本攻击方法。他们利用粒子群优化(Particle Swarm Optimization,PSO)算法求解对抗扰动。PSO算法不需要梯度信息,通过迭代地使候选解(粒子)群体根据适应度在搜索空间中移动来求得全局最优解。当算法在设定的最大迭代次数内攻击成功,即可获得满足要求的音频对抗样本。上述攻击方法将作为本文的对抗样本生成手段来验证所提出的防御方法的有效性。2.1.2 声纹对抗样本防御方法声纹对抗样本防御方
20、法 对于声纹对抗样本的防御,Li等14提出了对抗样本检测的方法,有效避免了对抗样本被声纹识别系统验证通过,但这种方法不能纠正由对抗样本造成的错误识别结果,从而不得不丢弃这些被对抗扰动污染的语音样本。基于对抗训练15的防御方法虽然可以在一定程度上减轻对抗样本带来的负面影响,但却严重依赖特定的模型以及特定的对抗样本生成方法,迁移性较差。最近,一些基于样本变换的预处理方法被用于防御对抗样本的攻击,在一定程度上纠正了对抗样本造成的错误识别结果,但也会降低真实样本的识别准确率。这些基于样本变换处理的防御方法包括:1)时频变换 在时域和频域对语音进行变换,变换方法包括量化(Quantization)16、
21、音频湍流(Audio Turbulence,AT)17、均值平滑(Average Smoothing,AS)13、中值平滑(Median Smoothing,MS)16和低通滤波(Low Pass Filter,LPF)18。量化是将每个语音采样点的幅值四舍五入到最接近量化因子的整数倍。音频湍流假设对抗性扰动对噪声敏感,通过向输入语音添加特定信噪比的噪声以改变对抗样本的识别结果。均值平滑通过对输入语音波形进行平滑来减弱对抗样本带来的影响,将每个样本点xk替换为其k个相邻样本的平均值。中值平滑与均值平滑相似,只是它用xk的k个相邻样本点的中值进行替换。低通滤波19-20的方法认为人类语音处于较低
22、的频率范围内,应用低通滤波器可以在保留语音内容的同时,去除许多高频的对抗扰动。2)MP3压缩 基于心理声学原理,语音MP3压缩21旨在抑制语音中的冗余信息,以提高存储或传输效率。当难以察觉的对抗性扰动是冗余信息时,可以通过语音压缩来消除。3)特征压缩 特征压缩是一种在特征级别破坏对抗扰动的压缩方法22。对于具有N帧的特征矩阵 M,每帧由d个特征组成。将矩阵 M 视为d维空间中的N个数据点,并在给定参数KN的情况下将N个数据点划分为K个簇,同一个簇中的数据点由一个代表向量表示。将K个代表向量组合起来形成新的特征矩阵 M0。上述基于样本变换的防御方法将作为基线系统与本文提出的方法进行对比。2.2
23、语音增强模型与对抗样本防御 语音增强的任务之一是提高受噪声影响语音的质量23。基于深度神经网络的模型在非平稳噪声影响下的单通道语音增强任务中已经取得了比传统滤波方法更好的效果。例如,Wave-U-Net模型是Stoller等由用于图像分割的U-Net模型24改进而来的,在语音增强和语音分离任务中取得了良好的效果25。在对抗样本防御方面,Yang等26提出了改进的U-Net模型,用于防御针对语音内容识别(Speech Recogni-tion)的对抗样本攻击,在降低语音文本识别词错误率和语音感知质量的改善上都取得了不错的效果,提高了语音识别系统对对抗扰动的鲁棒性。本文针对声纹对抗样本,研究改进基
24、于Wave-U-Net的深度学习语音增强模型,提高声纹识别系统防御对抗样本攻击的能力。相对于2.1和2.2的相关工作,本文的贡献如下所述:1)提出了基于噪声破坏和波形重建的声纹对抗样本防御方法。首先,通过在语音样本中添加高斯白噪声破坏对抗扰动的结构;然后,用含噪语音数据集对语音增强模型进行训练;最后,将对抗样本输入训练所得的语音增强模型,重建出的波形即为去除了对抗扰动的语音样本。实验发现,相比2.1.2的几种基于样本变换处理的方法,本文提出的方法可以显著提高声纹识别系统在对抗样本上的识别准确率,且对正常样本识别的负面影响较小。2)设计了SCAT-Wave-U-Net语音增强模型。通 过 引 入
25、Transformer全 局 多 头 自 注 意 力(Self-Attention)27和层间交叉注意力(Cross-Attention)机制,增强下采样层特征之间全局交互的能力,同时减轻跳跃连接中来自下采样层不相关特征信息的影响。将Self-Attention和Cross-Attention注意力机制与Wave-U-Net相结合,构建出本文的增强方法SCAT-Wave-U-Net。实 验 发 现,相 比 包 括 原 始Wave-U-Net模型在内的其他语音增强算法,本文提74 Journal of Cyber Security 信息安全学报,2024 年 1 月,第 9 卷,第 1 期 出的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 噪声 破坏 波形 重建 声纹 对抗 样本 防御 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。