多尺度富有表现力的汉语语音合成.pdf
《多尺度富有表现力的汉语语音合成.pdf》由会员分享,可在线阅读,更多相关《多尺度富有表现力的汉语语音合成.pdf(11页珍藏版)》请在咨信网上搜索。
1、ISSN 10049037,CODEN SCYCE4Journal of Data Acquisition and Processing Vol.38,No.6,Nov.2023,pp.1458-1468DOI:10.16337/j.10049037.2023.06.019 2023 by Journal of Data Acquisition and Processinghttp:/Email:sjcj Tel/Fax:+8602584892742多尺度富有表现力的汉语语音合成高洁1,肖大军2,徐遐龄2,刘绍翰1,杨群1(1.南京航空航天大学计算机科学与技术学院,南京 211106;2.国家
2、电网公司华中分部,武汉 430070)摘要:常见的增强合成语音表现力方法通常是将参考音频编码为固定维度的韵律嵌入,与文本信息一起输入语音合成模型的解码器,从而向语音合成模型中引入变化的韵律信息,但这种方法仅提取了音频整体级别的韵律信息,忽略了字或音素级别的细粒度韵律信息,导致合成语音依然存在部分字词发音不自然、音调语速平缓的现象。针对这些问题,本文提出一种基于 Tacotron2语音合成模型的多尺度富有表现力的汉语语音合成方法。该方法利用基于变分自编码器的多尺度韵律编码网络,提取参考音频整体级别的韵律信息和音素级别的音高信息,然后将其与文本信息一起输入语音合成模型的解码器。此外,在训练过程中通
3、过最小化韵律嵌入与音高嵌入之间的互信息,消除不同特征表示之间的相互关联,分离不同特征表示。实验结果表明,该方法与单一尺度的增强表现力语音合成方法相比,听力主观平均意见得分提高了约 2%,基频 F0帧错误率降低了约 14%,该方法可以生成更加自然且富有表现力的语音。关键词:语音合成;神经网络;变分自动编码器;注意力机制;韵律增强中图分类号:TP391 文献标志码:AMultiscale Expressive Chinese Speech SynthesisGAO Jie1,XIAO Dajun2,XU Xialing2,LIU Shaohan1,YANG Qun1(1.College of Co
4、mputer Science and Technology,Nanjing University of Aeronautics&Astronautics,Nanjing 211106,China;2.Central China Branch of State Grid Corporation of China,Wuhan 430070,China)Abstract:Common methods for enhancing the expressiveness of synthesized speech typically involve encoding the reference audio
5、 as a fixed-dimensional prosody embedding.This embedding is then fed into the decoder of the speech synthesis model along with the text embedding,thereby introducing prosody information into the speech synthesis process.However,this approach only captures prosody information at the global level of s
6、peech,neglecting fine-grained prosody details at the word or phoneme level.Consequently,the synthesized speech may still exhibit unnatural pronunciation and flat intonation in certain words.To tackle these issues,this paper introduces a multi-scale expressive Chinese speech synthesis method based on
7、 Tacontron2.Initially,two variational auto-encoders are employed to extract global-level prosody information and phoneme-level pitch information from the reference audio.This multi-scale variational information is then incorporated into the speech synthesis model.Additionally,during the training pro
8、cess,we minimize the mutual information between the rhyme embedding and the pitch embedding.This step aims to eliminate intercorrelation between different feature representations and to 收稿日期:20230113;修订日期:20230628高洁 等:多尺度富有表现力的汉语语音合成separate distinct feature representations.Experimental results demo
9、nstrate that our proposed method enhances the subjective mean opinion score by 2%and reduces the F0 frame error rate by 14%compared to the single-scale expressive speech synthesis method.The findings suggest that our method generates speech that is more natural and expressive.Key words:speech synthe
10、sis;neural networks;variational auto-encoder;attention mechanism;prosody enhancement引 言语音合成,又称文语转换(Texttospeech,TTS)技术,是指通过计算机将文本转化为语音。基于神经网络的语音合成模型,例如:Tacotron1、MelNet2、Deep Voice 33和 TransformerTTS4已经能够根据输入文本合成较高质量的语音音频。这些模型经过训练,将输入文本映射到语音特征(例如梅尔频谱)。在现实生活中,文本与语音是一对多的映射关系。具有相同文本内容的真实人类语音并不是一模一样的,它会
11、随着说话者的韵律特征,如时长、音高、音量等的变化而发生改变。仅从文本信息生成语音,缺少与语音韵律相关信息,在这种没有足够的输入信息的情况下训练模型,学习文本与语音一对多的映射,所生成语音的梅尔频谱往往过于平滑,模型倾向于学习数据集的平均韵律模式而不是学习每一个语句具体的韵律变化。这导致合成的语音音调平缓、缺乏节奏感和表现力、语音自然度较差,与真人语音有一定的差距。增强合成语音的表现力的一个关键是处理文本信息与语音特征之间一对多的映射关系。将变化的韵律信息作为输入引入语音合成模型,并对这些信息进行建模可以缓解以上问题,提高合成语音的表现力5。近年来,研究人员通过将参考音频作为语音合成模型的输入之
12、一,把韵律信息引入语音合成模型中。在这些方法中,通常是通过参考编码器将参考音频编码为韵律嵌入,再将韵律嵌入与文本嵌入一起输入到解码器进行解码。例如 Wang 等6提出的全局样式标记(Global style token,GST),这种方法通过参考编码器和一个基于多头注意力的 GST 层提取参考音频的句子级别的韵律信息。当 GST 进行训练时,它会生成多个标记,这些标记的加权和作为音频的韵律嵌入。另一类增强合成语音表现力的方法通过变分自动编码器(Variational autoencoder,VAE)7实现。VAE通过从潜在变量的分布中采样,从而生成具有特定特征的样本。潜在变量连续并且可以插值,
13、类似于语音中的隐式特征。Zhang 等8在语音合成模型中添加了一个 VAE 网络来学习代表语音韵律信息的潜在变量。上述方法在学习参考音频韵律表示方面表现出良好的性能,并在一定程度上提高了合成语音的表现力。但是,它们都是将韵律信息编码为固定维度,仅关注了句子级别这一尺度的韵律信息。事实上,人类语音的韵律表达本质上是多尺度的,从粗粒度到细粒度都应有体现,而不仅在单尺度上。在句子的整体级别,可以对语句的韵律模式进行整体概括;而在语音音频的局部中,语句中每个音素的韵律特征都在发生变化。比如音调特征往往就在音素间发生变化。仅对句子级别的韵律信息进行建模,就会忽略更细粒度的如音素级别的变化信息。汉语作为一
14、种音调语言系统,有着音调多变及音调载义的特点。汉语中有众多的同音字,通过不同的音调用来区分词义。音调可以帮助听者理解语音所表达的含义9。而汉语音调往往在音或字之间发生变化,仅对韵律信息在句子级别进行建模,会导致细粒度的音素级别的语调变化信息丢失,在合成汉语句子时,生成的语音仍然存在停顿不当、字词发音不自然甚至错误等问题。针对上文对于仅在单一尺度学习音频韵律信息方法不足的分析,本文在 Tacotron2 模型10的基础上提出了一种多尺度的汉语语音合成方法,旨在学习多尺度的韵律信息。Tacotron2是 Tacotron的改进1459数据采集与处理 Journal of Data Acquisit
15、ion and Processing Vol.38,No.6,2023版本,是目前最先进的语音合成模型之一,本文所提方法对 Tacotron2进行了拓展。考虑到汉语音调具体表现为音高随时间而变化的模式11,而语音信号的基频 F0特征直接关系到语音的音高,所以本文设计将基频引入语音合成模型,通过模型学习音频的音高信息。为了得到合适的信息表示以及受到 VAE网络在语音合成领域应用的启发,本文提出了基于 VAE 网络的多尺度韵律编码网络,对参考音频的韵律信息进行多尺度建模。具体来说,在多尺度韵律编码网络中,通过一个 VAE 对参考音频的韵律信息在句子级别进行建模,将参考语音中的韵律信息编码为一个固定
16、维度的全局韵律嵌入,该 VAE 网络称作韵律编码器;而多尺度韵律编码网络中的另一个 VAE 网络对参考音频音高特征在音素级别进行建模,将参考语音中的音高信息编码为一个的音素级别的韵律嵌入序列,它被称作音高编码器。通过两个 VAE 学习整体和局部的多尺度的韵律变化,帮助模型进行文本到语音特征的一对多映射的建模,增强合成语音的表现力。此外,考虑到 VAE 作为一种无监督学习的模型,它学习到的韵律表示为所有韵律特征的混合表示。各个韵律特征彼此纠缠在一起,对一个特征进行操作可能会影响其他维度,模型无法对韵律特征进行更明确精准的控制。并且训练时,因为输入的参考音频与输出的生成音频相同,所以两个编码器会出
17、现信息冗余的情况,解码器会使用一个编码网络学习到的信息去重建语音,同时忽略另一个编码器学习的信息,在推理时影响合成语音的质量。所以,本文设计在训练过程中通过最小化韵律嵌入和音高嵌入之间的互信息,进一步对音高表示和韵律表示进行分离,增强不同特征之间的独立性,减少编码器之间出现信息冗余的现象,使模型对于合成语音的控制更加灵活。1 Tacotron2模型结构 本文所提方法基于 Tacotron210语音合成模型。它是一种先进的端到端语音合成模型,由谷歌公司在 2018年提出。Tacotron2是 Tacotron模型的升级版,它优化了模型的编码器和解码器结构,并采用更高效的注意力机制,从而显著提升了
18、合成效果。Tacotron2通过循环的序列到序列特征预测模型,将文本内容直接映射到梅尔频谱,实现直接从文本进行语音合成。这种端到端的思路避免了多个分阶段的处理,提高了合成效率。同时,Tacotron2的注意力机制能够有效地关注文本与音频之间的对应关系,使得合成语音的音质更加自然流畅。如图 1所示,Tacotron2由两个部分组成:(1)带有注意力机制的循环序列到序列特征预测网络。它从输入的字符序列中预测梅尔谱频谱序列。(2)声码器。它通过预测的梅尔频谱,生成时域波形。具体来说,序列到序列特征预测模型是由编码器和带有注意力机制的解码器两部分组成。编码器将字符序列转换为相应的隐藏特征表示,而解码器
19、通过编码器生成的特征表示来预测频谱图。编码器由 3层卷积神经网络(Convolutional neural networks,CNN)和一层双向长短期记忆网络(Long shortterm memory,LSTM)组成。当文本序列输入后,编码器会输出相应的编码序列作为文本嵌入。文本嵌入序列通过注意力网络生成固定长度的内容向量,用于后续解码器进行特征预测。Tacotron2 中注意力网络使用带有位置敏感的注意力网络,它使解码器只能单向进行解码,减少了一些潜在的解码时会出现的问题。解码器部分是一个自回归循环神经网络,它能够利用上一帧信息来预测下一帧信息。解码器每次从输入的编码预测一帧梅尔谱图,并且
20、逐帧地预测停止符。上一个时间步的预测结果通过一个由两个全连接层构成的预处理网络和图 1Tacotron2架构Fig.1System architecture of Tacotron21460高洁 等:多尺度富有表现力的汉语语音合成两个单向 LSTM 与内容向量一起预测目标梅尔频谱帧,以及是否为最后一帧。预测的结果通过由 5层卷积网络构成的后处理网络对其进行改善。Tacotron2的损失函数主要由两部分组成:基于梅尔频谱图的损失和基于停止标志的损失。基于谱图的损失是用来衡量模型生成的声音与目标声音之间的差异,而基于停止标志的损失则是用来衡量模型是否在正确的时间停止生成声音。2 多尺度富有表现力的
21、语音合成模型 本文针对合成语音的语调单一、韵律不够丰富、表现力有限的问题,在 Tacotron2 的基础上引入了基于 VAE 的多尺度韵律编码网络和互信息估计器,使其能多尺度地学习音频韵律相关信息,以改善语音合成模型合成语音语调平缓以及部分字词发音不自然的问题,提升合成语音表现力和自然度。原始的 Tacotron2模型结构主要由编码器和带有注意力机制的解码器两部分组成。相比于原始的Tacotron2模型,本文提出的模型添加了基于 VAE 的多尺度韵律编码网络和一个互信息估计器。基于VAE 的多尺度韵律编码网络以参考音频的梅尔频谱和 F0作为输入,提取参考音频中句子级别的韵律信息和音素级别的音高
22、信息,并输出韵律嵌入和音高嵌入,之后与文本嵌入一起输入解码器中,以合成音调丰富且富有韵律的合成语音。而互信息估计器会计算音高嵌入和韵律嵌入之间的互信息,并在训练过程中最小化它们之间的互信息,从而分离音高特征与其余韵律信息,使模型可以直接控制合成语音的音高特征。模型总体架构如图 2所示。2.1基于 VAE的多尺度韵律编码网络如图 2 所示,基于 VAE 的多尺度韵律编码网络由韵律编码器、音高编码器和参考注意力 3 部分组成。韵律编码器和音高编码器都基于 VAE 模型。VAE 模型早期在图像领域取得了不错的效果,其主要思想是对目标的潜在信息进行编码,然后利用潜在信息重建目标。本文 VAE 模型的输
23、入是音频的声学特征x,输出则是编码的潜在向量z的分布。z的分布通常为多维高斯分布,因此模型只需要预测多维高斯分布的均值和标准差,即(,)=VAE(x)(1)式中:和分别为高斯分布的均值和标准差;x为输入的声学特征。因为直接从高斯分布N(,2)中采样潜在向量z会导致无法计算网络的梯度,所以为了能够在不改变潜在向量分布的情况下使网络的梯度可以回传,模型采用重新参数化得到潜在向量z,即z=+(2)式中从标准高斯分布中采样获得,N()0,I。图 2本文所提模型架构Fig.2System architecture of the proposed model1461数据采集与处理 Journal of D
24、ata Acquisition and Processing Vol.38,No.6,2023如图 2所示,本文采用参考音频的梅尔频谱和 F0分别作为韵律编码器和音高编码器的输入。其中,使用 WORLD 声码器12从音频波形文件中提取 F0序列。在每个音素的持续时间内对 F0值进行平均处理,从而得到音素级别的 F0,以便模型能够更好地学习每个音素的分布。每个音素的持续时间由其对应的帧数表示,这样确保 F0和持续时间在帧级别对齐。基于 VAE 模型的韵律编码器和音高编码器具有相似的结构。如图 3所示,它们都包含 1个参考编码器和 2个全连接层(Fully connected layers,FC)
25、。参考编码器的结构与 SkerryRyan等13提出的结构相同,具体来说,由 6个 CNN 层和 1个门控循环单元(Gate recurrent unit,GRU)层组成。对于韵律编码器,它学习音频句子级别韵律信息,将韵律信息编码为一个固定维度的向量,所以在 GRU 层,仅将 GRU 层的最后一个状态作为参考编码器的最终输出。而音高编码器学习参考音频音素级别的音高信息,它将音高信息编码为一个变长的向量序列,所以将音高编码器中的 GRU 层所有的状态都作为参考编码器的最终输出。参考编码器的输出通过 2 层 FC,从而得到潜在向量z分布的均值和标准差,最后通过重参数化操作得到音高嵌入序列zp和韵律
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 尺度 富有 表现力 汉语 语音 合成
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。