合成语声的声学分析及识别特征算法.pdf
《合成语声的声学分析及识别特征算法.pdf》由会员分享,可在线阅读,更多相关《合成语声的声学分析及识别特征算法.pdf(11页珍藏版)》请在咨信网上搜索。
1、第 43 卷 第 1 期Vol.43,No.12024 年 1 月Journal of Applied AcousticsJanuary,2024 研究报告 合成语声的声学分析及识别特征算法周峻林胡晓光黄子旭汪 旭付哲宇(中国人民公安大学北京100038)摘要:当前社会新型犯罪中电信诈骗案件频发,急需一种能够自动有效区分语声真伪的方法。为进一步增强目前深度学习领域识别合成语声的能力,为保障语声信息安全提供技术上的支持,针对合成语声声学特性上异于真实语声的特点,分析对比合成语声和真实语声的声学特性,设计了一种声学特征均方根角量化语声声强变化程度,结合基频变化率和语声窄带频谱图声学特征进行融合,量
2、化了声学特性差异,聚焦了合成语声中关键声学信息。在神经网络模型中融合输入声学特征,在FoR数据集的验证集上得到了0.6%的等错误率,在测试集上最好结果达到了10.8%的等错误率。该文成功实现了对合成语声的识别,证实了声学特征的有效性和研究方案的可行性,在一定程度上拓宽了合成语声特征设计的研究思路。关键词:声学特征;声强;基频;语声频谱图;神经网络中图法分类号:TP391文献标识码:A文章编号:1000-310X(2024)01-0131-11DOI:10.11684/j.issn.1000-310X.2024.01.016Acoustic analysis and recognition fe
3、ature algorithm of synthetic speechZHOU JunlinHU XiaoguangHUANG ZixuWANG XuFU Zheyu(Peoples Public Security University of China,Beijing 100038,China)Abstract:With the frequent occurrence of telecommunication fraud cases in the current new social crimes,a method that can automatically and effectively
4、 distinguish the authenticity of speech is urgently needed.To further enhance the current capability of detecting synthetic speech in the field of deep learning and toprovide technical support for securing speech information,we analyze and compare the acoustic characteristicsof synthetic speech and
5、real speech,design an acoustic feature root mean square angle to quantify the variationof speech intensity,combine fundamental frequency variation and speech narrowband spectrogram acousticfeatures for fusion,quantify the difference of acoustic characteristics,and focus on the key acoustic informati
6、onin synthetic speech.The fusion of input acoustic features in the neural network model yielded an equal errorrate of 0.6%on the validation set of the FoR dataset,and the best result reached an equal error rate of 10.8%on the test set.The recognition of synthetic speech was successfully achieved,con
7、firming the effectivenessof acoustic features and the feasibility of the research scheme of this paper,broadening the research ideas ofsynthetic speech feature design to a certain extent.Keywords:Acoustic features;Sound intensity;Fundamental frequency;Speech spectrogram;Neural network2023-01-06收稿;20
8、23-06-05定稿中国人民公安大学2021年度拔尖创新人才培养项目(2021yjsky017)作者简介:周峻林(1998),男,湖南衡阳人,硕士研究生,研究方向:语声识别。通信作者 E-mail:M1322024 年 1 月0 引言随着人工智能技术的发展,合成语声的能力日益提高。通过技术手段合成得到的语声开始变得越来越逼真,甚至可以达到通过模仿目标说话人,生成即使是人类也很难区分的语声。基于深度学习的最新语声合成研究成果包括Tacotron和Tacotron2框架、百度 AI研发的Deep Voice、谷歌Deepmind提出的Wavenet 技术、科大讯飞语声合成系统等。嫌疑人利用这些技术
9、合成语声开展电信诈骗等违法犯罪活动的比例逐年上升,对人民财产安全、社会稳定构成了严重威胁。现有的传统司法语声鉴定技术在开展合成语声检验时难度较大,难以出具鉴定意见。但由于人对语声的感知是非常多样化的,考虑到计算机受限于目前人工智能技术和硬件运算能力,只能通过部分参数在一定程度上对人类真实语声的声学特性进行感知,使得通过语声合成技术生成的语声在声学特性上仍与真实语声存在着一定距离。因此,研究合成语声识别的技术存在可行性。目前的主流研究趋势1是通过设计和改进语声特征,以找到能够较好表征出合成语声和真实语声间差异性的参数,实现有效识别合成语声的目的。现有的语声特征研究成果丰富2,主要可分为倒谱系数特
10、征、相位特征、幅度值特征、长时特征、子带特征,分别是根据在语声合成的过程中短时内频率变化、相位、幅度特性差异,长时内语声信息差异和频带中的部分特性差异所提出的一系列特征,主要如下。Davis等3提出,在以人对频率的听觉感知曲线梅尔刻度的基础上,设计得到梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)。在此基础上,不同的研究人员设计了不同的MFCC改进特征,如Chettri等4提出的逆梅尔频率倒谱系数(Inverted Mel-frequency cepstral coefficients,IMFCC)等。类似于MFCC,还有利用线性的三角滤波
11、器组对语声做出处理后,再求取对数的倒谱系数,得到线性频率倒谱系数特征(Linear fre-quency cepstral coefficients,LFCC),由于LFCC在语声高频区域可能具有更好的分辨率,其已被证实拥有较好性能。Hanilci5提出从线性预测残差分析信号中提取出幅值和相位,得到线性预测残差相位函数(Linear prediction residual phase,LPRe-sPhase)、线性预测残余希尔伯特包络倒谱系数(Linear prediction residual Hilbert envelope cep-stral coefficients,LPRHEC)以及
12、线性预测残余相位层系数(Linear prediction residual phase cepstralcoefficients,LPRPC)特征,用于合成语声识别,在ASVspoof2015数据集上取得了较好性能。Sanchez等6提出利用相位信息开展对合成语声的检测工作,使用相对相位偏移(Relative phase shift,RPS)特征实现了合成语声的检测。除此之外,相位特征还包括群延迟特征(Group delay,GD)、修正群延迟倒谱系数(Modified group delay cepstral co-efficients,MGDCC)、基带相位差(Baseband phas
13、edifference,BPD)等。Tian等7综合比对了这些相位特征在合成语声识别任务中的性能,证实了相位特征的有效性。Todisco等8提出利用基于长时常数Q变换的倒谱系数(Constant-Q cepstral coef-ficients,CQCC)特征,该特征是研究者针对伪造语声识别领域所专门设计的特征,其能更密切地反映出人对声音感知程度,提取过程是通过对语声信号采样恒Q变换(Constant-Q transform,CQT)后,再求对数得到倒谱系数所得到的。在CQCC特征的基础上,Yang等9研究提出倒倍频常数Q系数和倒倍频常数Q倒倍频系数来进一步优化CQCC特征。Das等10验证了
14、基于CQT的扩展恒Q倒谱系数(extended constant-Q cepstral coefficients,eCQCC)、常数Q统计量加主信息系数(Constant-Q statistics-plus-principal information coefficients,CQSPIC)特征的性能优于CQCC特征。子带特征指的是通过对频带中的一部分展开变换所得到的特征。主要包括子带频谱质心幅度系数(Spectralcentroid magnitude coefficients,SCMC)、子带质心频率系数(Subband centroid frequency coefficients,SC
15、FC)等。2020年,Yang等11提出的恒Q等子带变换(Constant-Q equal subband transform,CQ-EST)、恒Q倍频程子带变换(CQ-OST)和离散傅里叶梅尔子带变换(Discrete Fourier Mel subbandtransform,DF-MST),并在ASVspoof2019 LA数据集上取得了较好的效果,这证明了子带特征也适用于合成语声识别领域。Laskowski等12提出基频变化率(Fundamental frequency variation,FFV)特征用于说话人识别领域。Monisankha等13将其应用于合成语声识别上,取得了较好的效
16、果。上述为目前研究领域主流特征,大部分是针对合成语声短时内频率、幅度、相位和长时内语声信第43卷 第1期周峻林等:合成语声的声学分析及识别特征算法133息、部分频带特性5个方面进行设计和持续改进的。但是由于目前计算机对于人类语声的感知学习能力是有限的,现有成果针对合成语声的声学特性表现研究较少,针对合成语声同真实语声在听感上存在的韵律平淡、自然度欠缺的特点所设计的特征较少,且不同特征间的融合探索还可以进一步加强。1 合成与真实语声的声学差异分析本节通过剖析比对合成语声同真实语声在声学特性上的差异,开展声学分析,从而证实两者差异是可通过声学特性进行体现的。1.1声学研究过程本文通过使用语声学分析
17、软件Praat对比计算机合成的语声、人类真实语声的各项声学特性,生成相关图表,分析数据上的差异,从而找到可用以区分合成语声和真实语声的依据。其中真实语声来自于TESS数据集14,合成语声来自于利用Jia等15提出的说话人风格迁移的方法和SV2TTS模型在真实语声的基础上进行合成。两者在语义信息、说话人声音特点上保持了一致。研究具体过程如图1所示。首先在语声数据集中选取出真实语声;随后提取出真实语声的文本信息与说话人声音特点,融入至用于语声合成的神经网络模型中,得到满足比对条件的合成语声和真实语声样本;再依次通过不同的软件进行语声标注、数据提取、绘制图表,得到声学特性的数据统计结果;最后经过分析
18、,得到结论。?+?SPPAS?Praat?SV2TTS?图1声学研究流程Fig.1 The process of acoustic research1.2声学研究结果对合成语声与真实语声的基频、声强、窄带频谱图3类声学特性进行比对以及结果分析,其中真实语声包含中性、愤怒、恐惧、开心、悲伤5种情感。这是因为人类往往是在不同情感状态下进行发声的,使用不同的情感语声将能更全面地代表人类语声的真实发声情况。分别提取90条合成语声与90条真实语声中的基频和声强数据,求取均值和方差值的总体均值,统计结果如图2、图3所示。总结合成语声与真实语声在声学特性中的表现差异如下:(1)基频。由图2(a)可见:合成语
19、声的基频均值约为170.75 Hz,而真实语声的基频均值约为257.98 Hz;合成语声基频方差值约为44.57,真实语声基频方差值却为1849.83。对比之下,可见真实语声基频均值和方差值均大于合成语声,其中方差值要远大于合成语声。这是因为人类真实语声往往会受多方面影响而起伏波动,比如在某些激烈的情绪条件下,声调变化程度也会加剧,使得基频方差要明显大于合成语声。因此,可利用声调的变化程度作为区分合成语声与真实语声的可靠依据之一。?/dB(b)?10008006004002000806040200/Hz 6.6113.3083.0662.9244.57170.75257.981849.83(a
20、)1849.827498257.982318244.57030412170.7470758图2合成与真实语声的基频、声强均值及方差数据统计图Fig.2The statistical graph of the mean andvariance data of the fundamental frequency andspeech intensity of the synthetic and real speech1342024 年 1 月(2)声强。由图2(b)可见:合成语声的声强均值约为83.06 dB,真实语声的声强均值约为83.06 dB。对比之下,可见真实语声声强均值小于合成语声,声强方
21、差值要大于合成语声。这是因为真实语声往往节奏多变,致使语声能量起伏输出、方差较大。但是语声的强度大小可受到声源设备等非语声自身因素决定,并非合成语声与真实语声的根本性差异。由此可知,可利用语声声强的变化程度作为区分合成语声与真实语声的可靠依据之一。(3)窄带频谱图。由文献16以及图3可见:合成语声3000 Hz以上频率的谐波存在着明显缺失,谐波总体形态平直无倾斜,韵头走向仅存在微小的弯曲,韵尾走向平直,音节过渡区域几乎没有抖动,见图3(a)中蓝色方框中无黑色实线;中性语声谐波整体形态近乎平直,韵头、韵尾均有微小的弯曲,倾角较小,在音节过渡区域可见明显但幅度较小的抖动,见图3(b)蓝色方框中线条
22、弯曲;悲伤语声整体形态呈直线下降趋势,韵头、韵尾走向有些许弯曲,过渡区域的抖动较小,见图3(d)蓝色方框中线条起伏弯曲;恐惧、开心、愤怒语声可见整体形态存在着明显的、不同程度的倾斜和弯曲,呈下降趋势,韵头韵尾弯曲明显且程度大,音节过渡区域存在明显较大抖动,见图3(c)、图3(e)、图3(f)蓝色方框中线条为曲线,且弯曲程度大。5000400030002000100001.2?/Hz500040003000200010000?/Hz500040003000200010000?/Hz500040003000200010000?/Hz500040003000200010000?/Hz50004000
23、3000200010000?/Hz?/s?/s?/s?/s?/s?/s0.20.990.220.870.120.281.601.350.250.181.15(a)?(b)?(c)?(d)?(e)?(f)?图3合成语声与真实语声窄带频谱比对图Fig.3 The comparison of narrowband spectrogram of synthetic and real speech由上述比对结果可知:在窄带频谱图谐波形态方面,真实语声较合成语声的整体弯曲、倾斜程度更大,韵头韵尾弯曲程度明显更大,过渡区域的抖动范围更大。因此,频谱图中反映的谐波形态、频谱分布宽泛程度可作为区分合成语声与真实
24、语声的可靠依据之一。2合成语声识别特征研究表征声学特性的数据需进一步量化为声学特征输入至构造的深度学习模型中,才能让机器实现第43卷 第1期周峻林等:合成语声的声学分析及识别特征算法135自动化识别合成语声。本节针对声学比对结果,对不同的声学特性差异开展了特征量化,设计选用不同的声学特征及其结合开展实验,以验证性能。2.1特征化声学特性特征化声学特性的步骤是:(1)依据声学实验结果得到所需数据;(2)依据数据特点,设计特定算法;(3)利用特定算法处理声学数据;(4)对数据进行变换,突出高价值部分。最终表征出对合成语声识别任务具有针对性的特征。本文设计了均方根角(Root mean square
25、 an-gle,RMSA)特征,一种能够反映声强变化程度的声学特征。选取能够反映出基频变化程度、语声频谱特性的声学特征,分别为FFV特征、语声窄带频谱图(Speech narrowband spectrogram,SNS)特征。其中RMSA与FFV特征为时域特征,包含时序信息;SNS特征为频域特征,包含频谱信息。进一步结合3种特征,将能更加适用于合成语声识别任务。2.1.1RMSA特征本文提出RMSA特征的具体过程如下:(1)语声数据获取。输入语声,经过16000 Hz采样和8位量化提取语声数字信号。(2)计算语声均方根(Root mean square,RMS)能量。首先对语声信号进行分帧处
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 合成 语声 声学 分析 识别 特征 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。