基于深度学习的蒙古语AI合成主播.pdf
《基于深度学习的蒙古语AI合成主播.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的蒙古语AI合成主播.pdf(10页珍藏版)》请在咨信网上搜索。
1、Journalof MUC(Natural Sciences Edition)Vol.32No.第2 期第3 2 卷May,2023中央民族大学学报(自然科学版)2023年5月基于深度学习的蒙古语AI合成主播宝音都古楞1.2.3,飞龙1.2.3,王炜华1.2.3,张长晖1.2.3,董林坤1,2.3(1.内蒙古大学计算机学院,内蒙古呼和浩特0 10 0 2 1;2.蒙古文智能信息处理技术国家地方联合工程研究中心,内蒙古呼和浩特0 10 0 2 1;3.内蒙古自治区蒙古文信息处理技术重点实验室,内蒙古呼和浩特0 10 0 2 1)摘要:目前,汉文AI合成主播已被运用于新闻内容生产和传播,为传统新闻
2、媒体行业开辟了新的发展路径,但蒙古语AI合成主播技术的研究仍处于起步阶段。为了研发蒙古语AI合成主播系统,本文采用深度学习技术提出了基于嘴型分类的蒙古语AI合成主播模型。首先采用ObamaNet模型构建了蒙古语AI合成主播基线系统,因为基线系统的时间开销大,提出了基于嘴型分类的蒙古语AI合成主播模型,此方法使用9种嘴型标签代表所有的嘴型状态,将得到的语音特征同步到不同的嘴型,根据得到的嘴型选择候选顿,得到AI主播合成视频。文章构建了蒙古语AI合成主播视频语料库,并以此为基础进行了实验比较。结果表明,文中提出的模型可以生成自然度较好的蒙古语AI合成主播视频。关键词:AI合成主播;蒙古语;多模态学
3、习;嘴型同步;人脸重构中图分类号:TP391文献标识码:A文章编号:10 0 5-8 0 3 6(2 0 2 3)0 2-0 0 3 1-10随着智能媒体时代来临,人工智能(AI)在新闻生产、内容分发和界面呈现等领域都产生了重要影响。AI合成主播已经被运用于新闻内容的生产和传播,为传统新闻媒体行业开辟了一条新的发展路径。AI合成主播是通过提取真人主播新闻播报中的语音、嘴型、表情动作等特征,运用语音合成、人脸关键点检测、人脸特征提取、人脸重构等技术,结合语音、图像等多模态信息进行联合建模训练,生成与真人无异的AI分身模型。AI合成主播任务的本质是根据一段音频和给定人物形象生成对应人物的说话视频,
4、使得说话人嘴型与音频内容对应,也就是说话人视频生成,它同样适用于游戏动漫角色嘴型同步化配音等场景。早在2 0 0 0 年4月,英国PA新媒体公司就在网络上推出世界上第一位虚拟主持人安娜诺(AnnaNo-va),它也被视为世界上最早的虚拟主持人;2 0 18 年11月,新华社推出全球首个AI合成主播;2 0 19年科大讯飞与央视新闻联手打造的记者通通、虚拟主播纪小萌以及和人民日报联合推出的虚拟主播果果,早已在各自的岗位参与了采访、报道等工作;2 0 2 0 年5月,新华社和搜狗公司发布全球首个3 D的AI合成主播“新小微”;2 0 2 1年,央视新闻AI手语主播正式亮相,她可以和人类正常交谈,并
5、且在2 0 2 2 年冬奥会上全程进行了手语直播。国内外的AI合成主播相关研究已经成熟,但是蒙古语AI合成主播的相关研究尚处于起步阶段。蒙古语AI合成主播对赋能传统媒体、便捷人民生活、促进蒙古语传播有着重要的研究意义和实用价值,AI合成主播较传统主播有显著的优势,其合成效率更高,速度更快,同时成本收稿日期:2 0 2 2-10-3 1基金项目:内蒙古自治区科技计划项目(2 0 2 1CG0158)作者简介:宝音都古楞(1999-),男(蒙古族),内蒙古赤峰人,内蒙古大学计算机学院(软件学院)硕士研究生,主要研究方向:自然语言处理。通讯作者:飞龙(198 5-),男(蒙古族),内蒙古兴安盟人,内
6、蒙古大学计算机学院(软件学院)教授,主要研究方向:人工智能,自然语言处理,语音识别,语音合成,语义理解,机器翻译。第3 2 卷中央民族大学学报(自然科学版)32更低。在社会生活方面,蒙古语AI合成主播可应用于银行、医院、政府部门等公共场所,用音视频形式代替文字指示,使社会服务更加便捷。首先,本文构建了大约3.5个小时的蒙古语AI合成主播视频语料库,用于模型的训练与实验。其次,构建了基于ObamaNet的蒙古语AI合成主播基线系统。由于基线系统的视频合成时间开销大,本文提出了基于嘴型分类的蒙古语AI合成主播模型。此方法使用6 个基础嘴型和3 个扩展嘴型来表示说话人不同状态下的嘴部状态,构建了语音
7、特征到基础嘴型的嘴型同步网络,将回归任务转换成了分类任务。为了解决基线系统合成速度慢的问题,提出了提前生成主播形象对应的基础嘴型的候选帧方法,嘴型同步网络在输出嘴型的类别之后,可以根据嘴型类别直接选择对应的候选帧。实验结果表明,本文生成的蒙古语AI合成主播视频达到了初步代替传统蒙古语新闻媒体的要求。1相关工作语音驱动合成面部动画是根据语音信号自动合成说话人视频的过程,该领域的大部分工作都创建了从音频特征到视觉特征的映射。在深度学习出现之前,大部分工作都是基于分析关于语言音素的显性知识,构建音素和目标输出人脸模型系数之间的映射,最后由输人音素对应的系数生成人脸动画。1999 年,Bregler2
8、等通过提取音轨的音素最可能对应的人脸图像来进行面部动画合成,Kakihara3等基于隐马尔可夫模型和维特比算法实现了说话人的动画合成。近年来,基于深度学习的方法逐渐成为AI合成主播中涉及的语音合成、嘴型合成、人脸重构和姿态合成等技术的主流方法,并表现出卓越的性能。Fan4等使用双向长短时记忆模块学习语音到动画的映射,尤其是学习自然的协同发音模式。Suwajanakorn5等在此基础上提出一种延时的单向长短时记忆模块,通过短暂的延时获取下文信息来帮助处理协同发音,模型可以将原始的语音特征合成至嘴型,从而生成具备精确嘴型同步的高质量说话人视频。回顾上述工作,这些工作大都受到主播形象的限制,即训练的
9、模型只适用于特定的主播,亦或受到特定主播语音的限制。2 0 19年以来,出现了很多适用于任意形象、任意语音的AI合成主播方法,这极大地降低了完成该任务的模型训练成本。Prajwal6等提出第一个独立于说话人的模型Wav2Lip,首次提出在训练过程中引入嘴型同步判别器的机制,强制视频生成器产生准确而逼真的唇部运动,该模型适用于任意说话人与任意语言,不仅可以使用静态人像图片还可以将动态视频进行唇形转换,输出与目标语音相匹配的视频,实现自制视频配音,得到了更加精确的嘴型同步效果。目前,语音合成、嘴型合成和表情合成技术相对达到了较高水平,但是也存在很多难点,如,主播的语音、表情和手势姿态的组合合成仍不
10、自然;视频顿的逼真度较低;模型对不同角度、不同姿态的人脸合成效果较差;语音合成出的语音多为中性,合成的视频同样缺少情感等。此外,针对少数民族语言的AI合成主播研究仍属于初级阶段,研究成果较少。蒙汉新媒体技术的发展对于内蒙古自治区经济、政治、文化和社会生活等各个方面具有重要推动作用,但是自治区蒙汉文媒体与人工智能技术相结合较为落后,蒙古语AI合成主播研究仍处于起步阶段。2模型与方法2.1蒙古语视频语料库由于目前互联网中没有开源的蒙古语视频语料库,故本文采用录制播报视频的方式扩充数据集。首先收集中国蒙古语新闻网的新闻稿件,将其作为新闻视频数据集的朗读内容,共收集新闻句子48 0句,蒙古文单词数合计
11、2 53 55词。然后搭建绿幕演播室,选取一位内蒙古电视台男主播作为本文蒙古语AI合成主播形象,录制该主播朗读新闻稿件的绿幕视频,共收集约4小时的原始蒙古语视频2.2宝音都古楞等:基于深度学习的蒙古语AI合成主播33第2 期录制的原始视频像素为3 8 40 2 16 0,帧率为2 5FPS,视频编码标准为H.264,语音采样率为48000Hz,录制视频大小共计8 0 CB。对采集的蒙古语视频数据进行人工剪辑,裁剪掉片头、片尾等无效片段,并按句子拆分视频。由于录制的视频数据分辨率过高会导致图像处理和训练速度过慢,将视频分辨率压缩为96 0 540。同时,修改采样率为16 0 0 0 Hz,最终得
12、到有效蒙古语视频数据约3.5小时。基于ObamaNet的蒙古语AI合成主播基线系统ObamaNet是一个由多个模块组成的神经网络架构,它以文本作为输人并生成相应的嘴型与语音同步的逼真说话人视频。其结构如图1所示,它由三个模块组成:基于Char2Wav7的文本到语音转换网络,生成与语音同步的嘴部关键点的时延LSTM网络以及一个基于pix2pix8翻译的U-Net9网络。Good.morningSTM视频Char2wav语音嘴部关键点U-Net视频顿文本时延LSTM背景顿图1ObamaNet视频合成流程图Fig.1ObamaNet video synthesis flow chartObamaNe
13、t通过修改现有视频的嘴部区域图像来解决AI合成主播的合成问题。本文基于Obama-Net提出了蒙古语AI合成主播的基线系统。在文本到语音转换模块,由于输人是蒙古语文本,所以使用了刘瑞 10 研究的蒙古语语音合成技术,调用了其提供的蒙古语语音合成接口,得到文本相对应的蒙古语语音。由于本文采集的蒙古语AI主播视频数据的语音的音源与蒙古语语音合成接口提供的音源非同一人,语速和语音特征差别较大,要学习语音特征与嘴型的对应关系,如果不进行两种语音的特征对齐和特征转换会导致由合成语音预测嘴部关键点误差较大。因此本文在模型结构中加人了语音特征转换网络,将语音合成的语音特征转换为新闻视频数据对应的真人语音特征
14、。本文提出的基于ObamaNet的蒙古语AI合成主播基线系统结构如图2 所示。首先得到蒙古语文本,调用蒙古语语音合成接口,得到对应的蒙古语语音,并提取语音的特征,将提取的语音特征输人语音特征转换模型,得到转换后的特征;其次将语音特征输入时延LSTM网络,输出数据经PCA模型还原得到嘴部关键点坐标;然后读取基础背景视频的缓存文件,对嘴部关键点坐标应用旋转变换矩阵,在人像缓存上绘制白板和关键点连线,将图像输入U-Net网络,合成人像后根据坐标缓存贴回原背景得到完整人像;最后添加字幕、片尾,整合语音,完成蒙古语AI主播的合成流程。提取语音特征语音特征转换网络时延LSTM网络语音合成模块蒙古语语音特征
15、向量蒙古语文本转换的特征向量嘴部关键点合井视频AI主播视频顿,添加字幕,片尾U-Net网络嘴部关键点画线图像基础背视频图2 基于ObamaNet的蒙古语AI合成主播基线系统结构图Fig.2Structural diagram of Mongolian AI composite anchor baseline system based on ObamaNet2.3基于嘴型分类的蒙古语AI合成主播模型由于基线系统视频合成的时间开销较大,无法保证快速、高效的视频合成,本文结合二维动画的制作思想,提出了基于嘴型分类的蒙古语AI合成主播模型。此方法采用若干种嘴型作为基础嘴型来表示不同状态下说话人的嘴型状
16、态,基于语音驱动生成对应的嘴型标签序列,并使用更加高清的人脸重构技(3)基于别基第3 2 卷中央民族大学学报(自然科学版)34术完成嘴型标签对应人像的合成。它与基线系统合成方法的主要区别在于,此方法把不同的嘴型归类为若干典型嘴型,将回归问题转化为嘴型分类问题,由语音生成嘴型标签序列,并提前合成了嘴型标签对应的人像(候选帧),从而大幅提升了视频合成速度。基于嘴型分类的蒙古语AI合成主播模型结构如图3 所示,首先根据蒙古语文本(可以是汉语文本通过机器翻译得到的蒙古语文本),使用语音合成模型生成蒙古语语音,并提取语音特征,将提取的语音特征输入嘴型同步网络,预测得到嘴型标签序列,然后根据嘴型标签序列选
17、择相应的候选顿,最后对顿序列抠图换背景、添加标题字幕、片尾、合并语音文件完成蒙古语AI主播视频的合成。取语音特征语音合成模块蒙古语语音语音特征转换网络特征向量转换的特征向最蒙古语文本AI主播视合井视频,添加字嘴型标签序列+频幕,片尾嘴型同步网络选取的候选顿候选顿图3 基于嘴型分类的蒙古语AI合成主播模型结构图Fig.3Structural diagram of Mongolian AI composite anchor model based on mouth shape classification2.3.1嘴型同步网络本文提出的方法使用嘴型标签代表嘴型特征,属于由语音特征到嘴型标签的分类问
18、题,本文分于DNN和Bi-LSTM1-12模型构建了嘴型同步网络,实现由语音特征到嘴型标签序列的生成。(1)嘴型标签结合二维动画的制作思想,采用6 种基础嘴型(标签:AF)和3 种可选扩展嘴型(标签:G、H、X),如图4所示。ABCDEFGHXL基础嘴型扩展嘴型(问选)图4嘴型标签Fig.4Mouth shapes tag(2)基于DNN的语音特征到嘴型标签序列的神经网络语音特征到嘴型标签的预测属于多标签分类问题,DNN适用于这种场景,其中嘴型标签的数量即为网络中输出层输出节点的个数。该DNN网络使用了Softmax作为激活函数,其是多分类问题中常用的激活函数,Softmax在回归训练时的目标
19、就是使得模型预测出的概率分布与真实标签的概率分布的交叉熵最小化。同时,在训练期间调整模型权重时使用交叉熵损失,目的是最小化损失,交叉熵损失的定义为:nLe=-Z t.logp:(1)其中:n表示分类个数;t;表示第i个标签;P,表示经Softmax计算数据属于第i类的概率值。FBi-LSTM的语音特征到嘴型标签序列的神经网络RNN13-14 网络结构在时间序列问题方面非常实用,弥补了全连接DNN模型无法对时间序列上的变化进行建模的问题,所以本文提出了基于Bi-LSTM的语音特征到嘴型标签序列的方法。Bi-LSTM可以保留未来和过去的信息,真正基于上下文预测序列。宝音都古楞等:基于深度学习的蒙古
20、语AI合成主播35第2 期Bi-LSTM网络是计算输人序列和输出序列之间的映射,比如X=(X,X2,X,)到y=(y,2,公式如下:orgetgate=sigmoid(WfeX,+Whgh-1+bre)(2)inputgate=sigmoid(WigX,+Whight-1+big)(3)Outputgate=sigmoid(WogX,+Whogh-1+bog)(4)0(C),=(C)t-(forgelgate),+(inputgate),(tanh(WcX,+Wheht-+be)(5)h,=outputgaetanh?(C)t-1)(6)式中:Wfe,Wi g,Wo g,Wh。和bie,b i
21、 g,b o g,b c 分别表示三个门和一个细胞的权重和偏置变量;X,为当前时刻的输人;h-1表示上一时刻的输出;(C)-1为上一时刻的记忆。2.3.2候选顿生成为了解决基线系统的合成速度慢的问题,本文根据一段主播基础背景视频(10 秒,2 5FPS)提前合成每一顿人像对应6 个基础嘴型标签的候选顿,以达到在合成视频时直接使用候选顿的目的。鉴于基线系统在嘴部图像翻译时会出现轻微嘴部区域图像拼接的痕迹,因此使用整脸翻译的方式可以避免产生嘴部周围的拼接痕迹。使用基础背景视频生成每一帧对应的6 个基础嘴型人像,根据人脸关键点连线图像合成人脸的方式,根据6 个基础嘴型重新画出6 个嘴部轮廓,再合成每
22、一顿对应的6 个候选帧,如图5所示ABCD图5候选Fig.5Candidate frames3实验设计及分析本文分别基于ObamaNet的蒙古语AI合成主播基线系统和基于嘴型分类的蒙古语AI合成主播模型进行了实验设计及结果分析。评测时均使用同一段蒙古文合成实验结果,蒙古语视频内容如图6,对应的拉丁内容如图7,对应的中文内容为“呼和浩特市是中华人民共和国内蒙古自治区首府”。xoxexota bol bugude nairamdaxu dumdaduarad ulus-un obor monggol-un obertegenjasaxu orun-un tob mun图7 传统蒙古文对应的拉丁字母
23、Fig.7 Latin alphabet corresponding to traditional Mongolian图6 实验视频内容Fig.6Experimental video content3.1基于ObamaNet的蒙古语AI合成主播基线系统3.1.1实验设置使用的数据集为本文构建的蒙古语视频语料库,随机在48 0 条视频数据抽取3 0 条数据作为测试36中央民族大学学报(自然科学版)第3 2 卷集,其余450 条数据作为训练集。(1)语音特征转换网络首先调用蒙古语语音合成接口合成对应的语音,然后使用LogFBank算法提取语音特征,将每个语音帧的特征表示为一个10 4维向量,对语音
24、特征做DTW特征对齐处理,由机器合成语音特征向真人语音特征对齐,距离算法使用曼哈顿距离(ManhattanDistance),得到对齐后的合成语音特征。最后基于Keras框架构建语音特征转换的神经网络,它包括一层输人层、一层隐藏层和一层输出层,输人层和隐藏层节点数为12 8,输出层节点数为10 4,使用ReLU激活函数RMSProp作为优化器,MSE作为损失函数,训练得到语音特征转换模型(2)语音特征到嘴部关键点的网络语音特征到嘴部关键点的神经网络输入输出分别为语音LogFBank特征和PCA降维嘴部关键点。为了提取嘴型特征,提取蒙古语视频语料的视频顿,使用DLib进行人脸关键点检测,从视频的
25、每一帧中提取6 8 个人脸关键点,对每一顿的2 0 个嘴部关键点坐标做PCA降维处理,使其不受图像大小、面部位置、面部旋转和面部大小的影响,设置保留的主成分个数为4,得到PCA模型。处理语音特征数据和PCA降维后的关键点数据,将数据按时延时长为2 0 0 ms对齐。基于Keras框架构建语音特征到嘴部关键点的神经网络,采用一层节点数均为6 0 的单向LSTM,为了防止模型过拟合,添加dropout层,比率设置为0.2 5,并添加输出维度为4的全连接层,损失函数使用均方误差,输出降维的嘴部特征,输出数据经PCA模型还原后即为2 0 个嘴部关键点的坐标数据(3)人脸合成网络根据生成的嘴部特征合成人
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 蒙古语 AI 合成
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。