分销赏收藏举报申诉 / 11

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 合成语声的声学分析及识别特征算法.pdf

合成语声的声学分析及识别特征算法.pdf

上传人：自信****多点

文档编号：3618102

上传时间：2024-07-10

格式：PDF

页数：11

大小：2.47MB

《合成语声的声学分析及识别特征算法.pdf》由会员分享，可在线阅读，更多相关《合成语声的声学分析及识别特征算法.pdf（11页珍藏版）》请在咨信网上搜索。

1、第 43 卷第 1 期Vol.43,No.12024 年 1 月Journal of Applied AcousticsJanuary,2024 研究报告合成语声的声学分析及识别特征算法周峻林胡晓光黄子旭汪旭付哲宇(中国人民公安大学北京100038)摘要：当前社会新型犯罪中电信诈骗案件频发，急需一种能够自动有效区分语声真伪的方法。为进一步增强目前深度学习领域识别合成语声的能力，为保障语声信息安全提供技术上的支持，针对合成语声声学特性上异于真实语声的特点，分析对比合成语声和真实语声的声学特性，设计了一种声学特征均方根角量化语声声强变化程度，结合基频变化率和语声窄带频谱图声学特征进行融合，量

2、化了声学特性差异，聚焦了合成语声中关键声学信息。在神经网络模型中融合输入声学特征，在FoR数据集的验证集上得到了0.6%的等错误率，在测试集上最好结果达到了10.8%的等错误率。该文成功实现了对合成语声的识别，证实了声学特征的有效性和研究方案的可行性，在一定程度上拓宽了合成语声特征设计的研究思路。关键词：声学特征；声强；基频；语声频谱图；神经网络中图法分类号:TP391文献标识码:A文章编号:1000-310X(2024)01-0131-11DOI:10.11684/j.issn.1000-310X.2024.01.016Acoustic analysis and recognition fe

3、ature algorithm of synthetic speechZHOU JunlinHU XiaoguangHUANG ZixuWANG XuFU Zheyu(Peoples Public Security University of China,Beijing 100038,China)Abstract:With the frequent occurrence of telecommunication fraud cases in the current new social crimes,a method that can automatically and effectively

4、 distinguish the authenticity of speech is urgently needed.To further enhance the current capability of detecting synthetic speech in the field of deep learning and toprovide technical support for securing speech information,we analyze and compare the acoustic characteristicsof synthetic speech and

5、real speech,design an acoustic feature root mean square angle to quantify the variationof speech intensity,combine fundamental frequency variation and speech narrowband spectrogram acousticfeatures for fusion,quantify the difference of acoustic characteristics,and focus on the key acoustic informati

6、onin synthetic speech.The fusion of input acoustic features in the neural network model yielded an equal errorrate of 0.6%on the validation set of the FoR dataset,and the best result reached an equal error rate of 10.8%on the test set.The recognition of synthetic speech was successfully achieved,con

7、firming the effectivenessof acoustic features and the feasibility of the research scheme of this paper,broadening the research ideas ofsynthetic speech feature design to a certain extent.Keywords:Acoustic features;Sound intensity;Fundamental frequency;Speech spectrogram;Neural network2023-01-06收稿;20

8、23-06-05定稿中国人民公安大学2021年度拔尖创新人才培养项目(2021yjsky017)作者简介:周峻林(1998),男,湖南衡阳人,硕士研究生,研究方向:语声识别。通信作者 E-mail:M1322024 年 1 月0 引言随着人工智能技术的发展，合成语声的能力日益提高。通过技术手段合成得到的语声开始变得越来越逼真，甚至可以达到通过模仿目标说话人，生成即使是人类也很难区分的语声。基于深度学习的最新语声合成研究成果包括Tacotron和Tacotron2框架、百度 AI研发的Deep Voice、谷歌Deepmind提出的Wavenet 技术、科大讯飞语声合成系统等。嫌疑人利用这些技术

9、合成语声开展电信诈骗等违法犯罪活动的比例逐年上升，对人民财产安全、社会稳定构成了严重威胁。现有的传统司法语声鉴定技术在开展合成语声检验时难度较大，难以出具鉴定意见。但由于人对语声的感知是非常多样化的，考虑到计算机受限于目前人工智能技术和硬件运算能力，只能通过部分参数在一定程度上对人类真实语声的声学特性进行感知，使得通过语声合成技术生成的语声在声学特性上仍与真实语声存在着一定距离。因此，研究合成语声识别的技术存在可行性。目前的主流研究趋势1是通过设计和改进语声特征，以找到能够较好表征出合成语声和真实语声间差异性的参数，实现有效识别合成语声的目的。现有的语声特征研究成果丰富2，主要可分为倒谱系数特

10、征、相位特征、幅度值特征、长时特征、子带特征，分别是根据在语声合成的过程中短时内频率变化、相位、幅度特性差异，长时内语声信息差异和频带中的部分特性差异所提出的一系列特征，主要如下。Davis等3提出，在以人对频率的听觉感知曲线梅尔刻度的基础上，设计得到梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)。在此基础上，不同的研究人员设计了不同的MFCC改进特征，如Chettri等4提出的逆梅尔频率倒谱系数(Inverted Mel-frequency cepstral coefficients,IMFCC)等。类似于MFCC，还有利用线性的三角滤波

11、器组对语声做出处理后，再求取对数的倒谱系数，得到线性频率倒谱系数特征(Linear fre-quency cepstral coefficients,LFCC)，由于LFCC在语声高频区域可能具有更好的分辨率，其已被证实拥有较好性能。Hanilci5提出从线性预测残差分析信号中提取出幅值和相位，得到线性预测残差相位函数(Linear prediction residual phase,LPRe-sPhase)、线性预测残余希尔伯特包络倒谱系数(Linear prediction residual Hilbert envelope cep-stral coefficients,LPRHEC)以及

12、线性预测残余相位层系数(Linear prediction residual phase cepstralcoefficients,LPRPC)特征，用于合成语声识别，在ASVspoof2015数据集上取得了较好性能。Sanchez等6提出利用相位信息开展对合成语声的检测工作，使用相对相位偏移(Relative phase shift,RPS)特征实现了合成语声的检测。除此之外，相位特征还包括群延迟特征(Group delay,GD)、修正群延迟倒谱系数(Modified group delay cepstral co-efficients,MGDCC)、基带相位差(Baseband phas

13、edifference,BPD)等。Tian等7综合比对了这些相位特征在合成语声识别任务中的性能，证实了相位特征的有效性。Todisco等8提出利用基于长时常数Q变换的倒谱系数(Constant-Q cepstral coef-ficients,CQCC)特征，该特征是研究者针对伪造语声识别领域所专门设计的特征，其能更密切地反映出人对声音感知程度，提取过程是通过对语声信号采样恒Q变换(Constant-Q transform,CQT)后，再求对数得到倒谱系数所得到的。在CQCC特征的基础上，Yang等9研究提出倒倍频常数Q系数和倒倍频常数Q倒倍频系数来进一步优化CQCC特征。Das等10验证了

14、基于CQT的扩展恒Q倒谱系数(extended constant-Q cepstral coefficients,eCQCC)、常数Q统计量加主信息系数(Constant-Q statistics-plus-principal information coefficients,CQSPIC）特征的性能优于CQCC特征。子带特征指的是通过对频带中的一部分展开变换所得到的特征。主要包括子带频谱质心幅度系数(Spectralcentroid magnitude coefficients,SCMC)、子带质心频率系数(Subband centroid frequency coefficients,SC

15、FC)等。2020年，Yang等11提出的恒Q等子带变换(Constant-Q equal subband transform,CQ-EST)、恒Q倍频程子带变换(CQ-OST)和离散傅里叶梅尔子带变换(Discrete Fourier Mel subbandtransform,DF-MST)，并在ASVspoof2019 LA数据集上取得了较好的效果，这证明了子带特征也适用于合成语声识别领域。Laskowski等12提出基频变化率(Fundamental frequency variation,FFV)特征用于说话人识别领域。Monisankha等13将其应用于合成语声识别上，取得了较好的效

16、果。上述为目前研究领域主流特征，大部分是针对合成语声短时内频率、幅度、相位和长时内语声信第43卷第1期周峻林等：合成语声的声学分析及识别特征算法133息、部分频带特性5个方面进行设计和持续改进的。但是由于目前计算机对于人类语声的感知学习能力是有限的，现有成果针对合成语声的声学特性表现研究较少，针对合成语声同真实语声在听感上存在的韵律平淡、自然度欠缺的特点所设计的特征较少，且不同特征间的融合探索还可以进一步加强。1 合成与真实语声的声学差异分析本节通过剖析比对合成语声同真实语声在声学特性上的差异，开展声学分析，从而证实两者差异是可通过声学特性进行体现的。1.1声学研究过程本文通过使用语声学分析

17、软件Praat对比计算机合成的语声、人类真实语声的各项声学特性，生成相关图表，分析数据上的差异，从而找到可用以区分合成语声和真实语声的依据。其中真实语声来自于TESS数据集14，合成语声来自于利用Jia等15提出的说话人风格迁移的方法和SV2TTS模型在真实语声的基础上进行合成。两者在语义信息、说话人声音特点上保持了一致。研究具体过程如图1所示。首先在语声数据集中选取出真实语声；随后提取出真实语声的文本信息与说话人声音特点，融入至用于语声合成的神经网络模型中，得到满足比对条件的合成语声和真实语声样本；再依次通过不同的软件进行语声标注、数据提取、绘制图表，得到声学特性的数据统计结果；最后经过分析

18、，得到结论。?+?SPPAS?Praat?SV2TTS?图1声学研究流程Fig.1 The process of acoustic research1.2声学研究结果对合成语声与真实语声的基频、声强、窄带频谱图3类声学特性进行比对以及结果分析，其中真实语声包含中性、愤怒、恐惧、开心、悲伤5种情感。这是因为人类往往是在不同情感状态下进行发声的，使用不同的情感语声将能更全面地代表人类语声的真实发声情况。分别提取90条合成语声与90条真实语声中的基频和声强数据，求取均值和方差值的总体均值，统计结果如图2、图3所示。总结合成语声与真实语声在声学特性中的表现差异如下：(1)基频。由图2(a)可见：合成语

19、声的基频均值约为170.75 Hz，而真实语声的基频均值约为257.98 Hz；合成语声基频方差值约为44.57，真实语声基频方差值却为1849.83。对比之下，可见真实语声基频均值和方差值均大于合成语声，其中方差值要远大于合成语声。这是因为人类真实语声往往会受多方面影响而起伏波动，比如在某些激烈的情绪条件下，声调变化程度也会加剧，使得基频方差要明显大于合成语声。因此，可利用声调的变化程度作为区分合成语声与真实语声的可靠依据之一。?/dB(b)?10008006004002000806040200/Hz 6.6113.3083.0662.9244.57170.75257.981849.83(a

20、)1849.827498257.982318244.57030412170.7470758图2合成与真实语声的基频、声强均值及方差数据统计图Fig.2The statistical graph of the mean andvariance data of the fundamental frequency andspeech intensity of the synthetic and real speech1342024 年 1 月(2)声强。由图2(b)可见：合成语声的声强均值约为83.06 dB，真实语声的声强均值约为83.06 dB。对比之下，可见真实语声声强均值小于合成语声，声强方

21、差值要大于合成语声。这是因为真实语声往往节奏多变，致使语声能量起伏输出、方差较大。但是语声的强度大小可受到声源设备等非语声自身因素决定，并非合成语声与真实语声的根本性差异。由此可知，可利用语声声强的变化程度作为区分合成语声与真实语声的可靠依据之一。(3)窄带频谱图。由文献16以及图3可见：合成语声3000 Hz以上频率的谐波存在着明显缺失，谐波总体形态平直无倾斜，韵头走向仅存在微小的弯曲，韵尾走向平直，音节过渡区域几乎没有抖动，见图3(a)中蓝色方框中无黑色实线；中性语声谐波整体形态近乎平直，韵头、韵尾均有微小的弯曲，倾角较小，在音节过渡区域可见明显但幅度较小的抖动，见图3(b)蓝色方框中线条

22、弯曲；悲伤语声整体形态呈直线下降趋势，韵头、韵尾走向有些许弯曲，过渡区域的抖动较小，见图3(d)蓝色方框中线条起伏弯曲；恐惧、开心、愤怒语声可见整体形态存在着明显的、不同程度的倾斜和弯曲，呈下降趋势，韵头韵尾弯曲明显且程度大，音节过渡区域存在明显较大抖动，见图3(c)、图3(e)、图3(f)蓝色方框中线条为曲线，且弯曲程度大。5000400030002000100001.2?/Hz500040003000200010000?/Hz500040003000200010000?/Hz500040003000200010000?/Hz500040003000200010000?/Hz50004000

23、3000200010000?/Hz?/s?/s?/s?/s?/s?/s0.20.990.220.870.120.281.601.350.250.181.15(a)?(b)?(c)?(d)?(e)?(f)?图3合成语声与真实语声窄带频谱比对图Fig.3 The comparison of narrowband spectrogram of synthetic and real speech由上述比对结果可知：在窄带频谱图谐波形态方面，真实语声较合成语声的整体弯曲、倾斜程度更大，韵头韵尾弯曲程度明显更大，过渡区域的抖动范围更大。因此，频谱图中反映的谐波形态、频谱分布宽泛程度可作为区分合成语声与真实

24、语声的可靠依据之一。2合成语声识别特征研究表征声学特性的数据需进一步量化为声学特征输入至构造的深度学习模型中，才能让机器实现第43卷第1期周峻林等：合成语声的声学分析及识别特征算法135自动化识别合成语声。本节针对声学比对结果，对不同的声学特性差异开展了特征量化，设计选用不同的声学特征及其结合开展实验，以验证性能。2.1特征化声学特性特征化声学特性的步骤是：(1)依据声学实验结果得到所需数据；(2)依据数据特点，设计特定算法；(3)利用特定算法处理声学数据；(4)对数据进行变换，突出高价值部分。最终表征出对合成语声识别任务具有针对性的特征。本文设计了均方根角(Root mean square

25、 an-gle,RMSA)特征，一种能够反映声强变化程度的声学特征。选取能够反映出基频变化程度、语声频谱特性的声学特征，分别为FFV特征、语声窄带频谱图(Speech narrowband spectrogram,SNS)特征。其中RMSA与FFV特征为时域特征，包含时序信息；SNS特征为频域特征，包含频谱信息。进一步结合3种特征，将能更加适用于合成语声识别任务。2.1.1RMSA特征本文提出RMSA特征的具体过程如下：(1)语声数据获取。输入语声，经过16000 Hz采样和8位量化提取语声数字信号。(2)计算语声均方根(Root mean square,RMS)能量。首先对语声信号进行分帧处

26、理，其中每帧包含2048个采样点，帧与帧间的重叠部分包含512个采样点，再计算每帧语声信号RMS能量，如公式(1)所示：Ek=1NKxK(i)2.(1)(3)向量化输入数据。为使一维时序型数据变换为二维数据，向原数据中加入时间点数据作为维度一，维度二为该点的数值。(4)计算相邻向量间的余弦距离，如公式(2)所示：d(kx,kx+1)=1 kx kx+1kx kx+1.(2)(5)最后根据计算的余弦距离d，得出夹角余弦值，利用反余弦函数计算对应的夹角度数，得到RMSA 特征，计算过程表示如公式(3)所示：k=arccos1 d(kx,kx+1).(3)本文通过利用RMS能量的计算方式作为特定处理

27、算法表征声强，能够更为准确地表征出语声信号的真实强度大小，有利于提取出周期性变化的语声信号的每一帧能量，而每一帧的语声能量有效值则能够较好地表征出信号在较短时间段内的能量大小。图4为语声信号的RMS能量可视化。可见经过计算RMS能量值大小，将语声信号的起伏程度以数值上变化的形式有效表征出来，为下一步提取声强变化率提供了计算条件。1.000.750.500.250-0.25-0.50-0.750.300.250.200.150.100.0501751501251007550250010000200003000040000?/s(a)RMS?(b)RMS?/s图4RMS能量可视化Fig.4 RMS

28、 energy visualization为量化合成语声与真实语声的声强的变化程度不同，本文进一步计算了相邻RMS能量数据间的余弦夹角，如图5所示。这样做可以提高数据精细度，放大相邻数据差异大的部分，缩小差异小的部分，降低数据的平滑度，从而增强数据的特点。这是因为自然语声在发声过程中，往往是起伏较大、律感十足的，剧烈波动对声强的影响往往较大，相邻向量间的夹角度数扩大的程度较大，而合成语声的声强则会偏于平稳发声，这使得两个相邻向量之间的夹角变化较小。因此经过计算得到两个相邻向量间的夹角大小，可以用以衡量数据点之间的差值大小，可以量化语声在声强声学特性上体现的起伏程度。由图5可见，下个时间点的数值

29、较当前时间点的增加得越多，则两者夹角越大，并且夹角的增幅越大。1362024 年 1 月TxTx0?RMS图5RMSA特征余弦夹角示意图Fig.5 Diagram of RMSA feature cosine angle通过提取语声信号能量有效值，并量化相邻两帧的差异，在一定程度上可以反映出语声的声学特性情况和说话人发音时的状态。因此提取语声的RMSA特征表征声强变化程度可以从语声声学特性的角度，提取出声强的即时变化情况，进而有利于区分合成语声和真实语声，有助于提高合成语声自动化识别的准确率。2.1.2FFV和SNS特征(1)FFV特征。使用韵律学特征中的FFV特征表示了逐帧间的基音频率瞬时变

30、化的情况，能够较好体现声学上的声调起伏程度，又能较好地适用于合成语声识别任务，将有助于区分合成语声和真实语声。(2)SNS特征。SNS在频率上的分辨能力高，相比宽带频谱图，其包含的谐波结构及形态走向更加清晰明了。两者本质上是同种变换不同参数下的结果。因此，本文直接提取SNS特征，利用机器直接学习和识别输入的窄带频谱图像，将能比较直观地学习到合成语声与真实语声的频谱特性差异情况，相较于宽带频谱有着更为高效、直观的优点。3 合成语声识别特征验证实验通过比对目前合成语声识别领域前沿特征，开展合成语声识别实验和消融实验，通过设置对照实验特征及模型，与本文所提和使用的特征在同一模型下的表现性能进行比对，

31、从而得出特征化声学特性得到的声学特征在区分合成语声任务中的表现情况，用以证明声学特征的有效性，进一步验证特征的针对合成语声识别任务的性能。3.1数据集及实验环境本实验使用的数据集为FoR17：Fake or Real合成语声数据集的2 s语声标准版。该数据集使用了最新的开源语声合成(Text-to-speech,TTS)系统包括百度的Deep voice3、谷歌云Wavenet、亚马逊AWS Polly、微软Azure TTS系统等，对选取的特殊短语文本生成声频文件；收集了来自Arctic、LJSpeech、VoxForge三个开源数据集和Youtube视频播放平台上的语声作为数据集中真实语声

32、的来源。训练集包含的合成语声、真实语声均为8391条语句，总共16782条语句，验证集包含2826条语句，测试集中包含1088条语句并且增加了一种训练和验证集中没有的语声合成方法，用以测试实验模型和特征的泛化性能。本实验使用的评价指标为等错误率(Equal er-ror rate,EER)18，即错误接受率(False accept rate,FAR)和错误拒绝率(False rejection rate,FRR)相等时的数值。其数值越小，代表性能越好，分类错误出现得更少。实验工具包括Keras、tensorflow深度学习框架、sklearn机器学习工具库、librosa声频数据处理库、sp

33、afe语声特征提取库、numba开源编译器工具库。实验运行环境：操作系统为windows 10专业版，图形运算显卡为Nvidia Tesla V100-SXM2 32 GB。3.2实验模型及参数设置为保证能够在相同的变量条件下开展对照实验，在实验模型上根据特征的类型选择不同的深度神经网络模型，以保证声学特征和对比特征在同一模型中开展的同时，保证识别模型的性能。(1)时序型特征识别模型。针对以时间序列上排序为重要特性的RMSA特征、FFV特征，将使用适用于合成语声识别任务的包含5层隐藏层、每层2048个神经元的深度神经网络(Deep neuralnetwork,DNN)模型。(2)谱图型特征识别

34、模型。针对主要以频谱图像为形式的SNS特征，将使用包含两层64个3 3的卷积核、两层汇聚层的卷积神经网络(Convolu-tional neural network,CNN)模型，对特征分类学习。使用该模型连接全连接层，实现二分类输出为合成或者真实标签。(3)融合特征识别模型。特征融合的方法是通过使用DNN、CNN模型对声学特征数据进行深度向量表示后，利用Concat层融合，一同输入至全连接层进行二分类输出。融合特征识别模型结构如图6所示。第43卷第1期周峻林等：合成语声的声学分析及识别特征算法137DNN?CNN?DNN?concat?CNN?SNS?FFV?RMSA?图6融合特征识别模型

35、结构图Fig.6 Structure diagram of fusion feature recognition model模型的训练具体参数设置为：使用Adam优化器，学习率初始化为3104，损失函数使用二值交叉熵函数。为避免过拟合，当训练过程中损失不再下降超过5轮时，学习率缩小10倍。训练批次大小为128，训练周期为60轮。3.3实验结果与分析3.3.1RMSA、FFV特征有效性验证实验为验证本文设计的特征在合成语声识别任务上的有效性以及优化性能，开展消融实验，进一步对比本文所选用和设计的声学特征在合成语声识别领域的适用性，将提取RMS特征、RMS差分特征比对本文设计的RMSA特征识别性能

36、；提取Pitch(基频)特征、Pitch差分特征比对FFV特征识别性能，在相同的DNN模型下进行测试，EER指标如表1所示。表1RMSA、FFV和对比特征的实验结果Table 1 Experimental results of RMSA,FFV and comparison features声学特征(Features)验证集EER/%测试集EER/%RMS特征25.233.5RMS差分特征34.636.8RMSA特征*27.428.6Pitch特征27.850Pitch差分特征43.844.7FFV特征2643.8*为本文所提特征。由验证集实验结果可见，6种特征都能实现在一定程度上识别合成语声

37、，其中对照设置的RMS、Pitch特征在模型中的识别效果则分别为25.2%、27.8%。这表明提取出语声的声强、基频声学特性，并且利用其开展区分合成语声与真实语声是可行的。差分特征能够实现一定程度的识别效果，改进的RMSA和FFV特征优于差分特征。由测试集实验结果可见，RMSA特征、FFV特征的EER为28.6%、43.8%，识别效果最佳。这表明本文使用的RMSA特征、FFV特征分别能在一定程度上对合成语声进行识别的基础上，对于训练集中没有学习过的语声合成算法的泛化识别性能更好。通过对比上述实验结果可以发现：RMSA特征在验证集中的性能略差于RMS特征，优于RMS差分特征，在测试集中的性能却同

38、时好于RMS特征和RMS差分特征。这是因为模型通过学习RMS特征，学习到了声强的数值大小，利用声强数值上的差异也能够区分部分合成语声与真实语声，但是表征声强变化程度的RMSA特征更为根本性地反映了合成语声在声学特性上与真实语声的差异，并进一步增强了差异性表现程度，因此模型通过学习RMSA特征将能拥有更好的鲁棒性和泛化性能。FFV特征则在验证集、测试集上均优于Pitch特征及差分特征，但可以发现在测试集中Pitch特征识别合成语声失败，且Pitch差分特征和FFV特征的EER也明显提高，证明在面对新算法的干扰时，利用基频特性开展合成语声识别的鲁棒性要差于声强特性。因此，可见通过提取RMSA特征、

39、FFV特征实现合成语声的识别，反映出本文所设计的算法能较好地表征出语声声学特性的特点的同时，也证明利用声强、基频的变化程度差异，区分合成语声与真实语声是可行的且性能较好。1382024 年 1 月3.3.2SNS特征有效性验证实验为对比SNS特征，选择基于语声频谱数据为基础进行变换得到的特征，分别为MFCC、Mel-Spectrogram、CQT、LFCC特征。以上4种对比特征均是在语声频谱数据的基础上设计应用不同的算法得到的特征，是目前合成语声识别领域性能较好、应用较多、设计较为前沿的特征，在欺骗性语声识别大赛上均能取得较好的实验效果。同时提取了宽带频谱图中的Formants(共振峰)特征来

40、对比SNS特征。通过采用相同的CNN模型分别对SNS特征以及Formants、MFCC、Mel-spectrogram、CQT、LFCC特征进行对比实验，以发现本文使用的SNS特征化频谱声学特性的方法对合成语声识别任务的适用性，验证所设计语声的特征的有效性。根据结果计算的EER指标如表2所示。表2SNS和对比特征的实验结果Table 2 Experimental results of SNS andcomparison features声学特征(Features)验证集EER/%测试集EER/%SNS特征1.213.4Formants特征3.919.6MFCC特征192.026.3Mel-sp

41、ectrogram特征4.520.1CQT特征207.413.8LFCC特征211.520.8由验证集实验结果可见，SNS特征与对比特征都能识别合成语声。其中SNS特征、Formants特征、MFCC特征、Mel-spectrogram特征、CQT特征、LFCC特征的EER分别达到了1.2%、3.9%、2.0%、4.5%、7.4%、1.5%。这表明利用频谱特性为基础的声学特征能够使模型学习到合成语声与真实语声之间的差异，并且SNS特征在验证集中的性能最优。由测试集实验结果可见，同为频谱变换得到的SNS特征和对比特征在相同的网络模型下，得到的EER分别为13.4%、19.6%、26.3%、20.

42、1%、13.8%、20.8%，其中SNS特征EER明显最低。这表明本文使用的SNS特征对于训练集中没有学习过的语声合成算法同样保持着较好的识别性能，泛化性能更好。通过对比上述实验结果可以发现：SNS特征在验证集和测试集当中的识别性能是最佳的。这是因为SNS特征表征的SNS中包含了大量语声频谱声学特性，当CNN模型利用该特性开展合成语声识别时，能更加直观地学习到谐波形态与分布宽泛程度的差异，优于宽带频谱图中Formants(共振峰)以及其他特征对于频谱特性的表达方法。因此，可见通过提取SNS特征能够实现合成语声的识别，在表征出合成语声与真实语声频谱声学特性差异的同时，也证明利用该差异区分合成语声

43、与真实语声是可行的且性能较好。3.3.3RMSA、FFV、SNS融合特征消融实验通过采用DNN模型分别对RMSA、FFV特征进行深度向量表征，采用CNN模型对SNS特征进行深度向量表示，以融合特征化声学特性的声学特征。将三者的融合特征与消融后的单个特征进行对比，分析融合过程对最终的合成语声识别所带来的影响，验证融合特征的有效性。根据结果计算的EER指标如表3所示。表3RMSA、FFV、SNS融合特征的消融实验结果Table 3 Results of ablation experiments ofRMSA,FFV and SNS fusion features声学特征(Features)验证集E

44、ER/%测试集EER/%RMSA特征27.428.6FFV特征2643.8SNS特征1.213.4RMSA+FFV+SNS融合特征*0.613.1*为本文所提融合特征。通过对比可以发现：3类特征融合后在验证集和测试集上表现最佳。这是因为不同的声学特征之间，存在着同质和异质之差的部分。特征数据内部不同部分对目标任务的价值高低也不尽相同。通过模型深度表示的方法对特征进行融合，可以相互补足异质有价值的数据、强化共有的同质关键数据以及弱化异质冗余数据。同时，证明了本文使用的3种声学特征之间的信息冗余较少，不同特征之间可以相互补充，使得融合后的数据信息价值更高。因此，通过利用RMSA、FFV、SNS的融

45、合特征开展合成语声识别是有效的，3种特征之间包含着异质高价值数据，可以进一步降低EER，提升模型的识别性能。第43卷第1期周峻林等：合成语声的声学分析及识别特征算法1393.3.4RMSA、FFV、SNS以及融合特征的损失变化曲线对比分析在验证集下的特征损失曲线变化如图7所示。可以发现，图7(a)中训练曲线和验证损失曲线在前10 个周期时下降速度较快，1030个周期内缓慢下降，最后大约于第35个周期逐渐收敛于平稳；图7(b)中训练损失曲线和验证测试曲线在前10个周期内下降速度快，1020个周期内缓慢下降，验证损失曲线存在波动，在大约第20和第22个周期时，训练曲线和验证损失曲线开始收敛于稳定

46、值；由图7(c)可见，训练损失曲线在小于5个周期内就收敛平稳，验证损失曲线在经过23次微小波动后于大约第12个周期就开始收敛于平稳；由图7(d)可见，训练曲线和验证损失曲线均在小于5个周期内就开始收敛于平稳值，验证曲线仅经过一次骤升剧降，便趋于稳定下降。543214.03.53.02.52.01.51.00.58765432102.01.51.00.506050403020100605040302010060504030201006050403020100TrainValidationTrainValidationTrainValidationTrainValidation?(a)FFV?(b

47、)RMSA?(c)SNS?(d)SNS+FFV+RMSA?图7单个特征和融合特征的损失曲线对比Fig.7 Comparison of loss curves of single features and fused features通过分析以上的损失曲线观察结果可以发现：当将RMSA特征、FFV特征和SNS特征融合输入至模型中时，模型的训练损失曲线和验证损失曲线下降速度进一步提高，起伏减少，稳定收敛所需周期进一步减小，反映出融合特征性能最佳。这是因为这3种特征之间信息重复度较低，经过组合后能够较好地将合成语声与真实语声区分开来。进一步证实特征在本质上所反映出的是语声声学特性的不同方面，且均有利

48、于合成语声的识别，也进一步反映出频谱声学特性对于合成语声识别精度的提高是极其重要的。3.3.5融合特征与已有研究成果对比实验通过比对表4可以发现：每组特征在不同的后端神经网络模型中的性能各不一样。其中在SERes-Net50的模型下，本文提出的融合特征效果最佳；在SEResNet34模型下，AFF特征的效果最佳。除此之外，所提融合特征相比其他特征在不同模型下的表现差异更小，性能更为稳定。这是由于所提融合特征的构成是来自于频谱、基频、声强3个不同方面，不同特征之间相互补足，所以面对不1402024 年 1 月同模型均能保持良好性能。融合特征在没有SE模块的ResNet+DNN模型下的表现依次优于

49、SERes-Net34/SEResNet50+DNN模型，是因为SE注意力模块并不能有效聚焦本文所提融合特征中的关键数据信息，导致,实验EER的提高。表4RMSA、FFV、SNS融合特征和已有研究的实验结果Table 4Experimental results of RMSA,FFV,and SNS fusion features and existingstudies声学特征(Features)模型(Models)测试集EER/%MFCC特征SEResNet502238.5SEResNet3415.8LFCC特征SEResNet502249.9SEResNet3416.0AFF特征SERes

50、Net502218.6SEResNet34224.9RMSA+FFV+SNS融合特征*SEResNet50+DNN12.8SEResNet34+DNN12.5ResNet+DNN10.8*为本文所提融合特征。由此可见，不同的后端分类模型对特征的性能影响较大。这是因为不同的模型对不同数据类型特征的学习程度不同，好的模型将能更为充分高效学习到关键信息。因此，接下来将开发适用所提融合特征的深度神经网络模型，提高特征利用率，进一步强化识别合成语声的性能。综合上述实验可见，基于声强和基频的变化程度和语声频谱特性数据特征化得到的RMSA、FFV、SNS特征皆可适用于合成语声识别任务。对比3种特征性能，在面

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 合成语声声学分析识别特征算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。