基于CartoonGan的改进卡通化图片生成方法.pdf
《基于CartoonGan的改进卡通化图片生成方法.pdf》由会员分享,可在线阅读,更多相关《基于CartoonGan的改进卡通化图片生成方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、基于CartoonGan的改进卡通化图片生成方法张文天,于 瓅*(安徽理工大学 计算机科学与工程学院,安徽 淮南 232001)摘要:文章提出了一种改进的卡通图像生成网络模型,旨在增强卡通效果的同时保留语义信息。首先,设计一个显著性网络,为了防止过拟合问题以及进一步提取特征,在显著性网络上添加残差结构构成残差显著性网络,并将其拼接到CartoonGan上用来保留语义信息;其次,在前者基础上添加cbam注意力机制进一步提高卡通化效果;最后,在训练过程中为了防止训练不稳定和梯度消失使用最小二乘损失来替换交叉熵损失,并且引入显著性损失来约束显著性网路的训练。实验表明,通过在宫崎骏和新海诚两个画风的卡
2、通数据集上进行测试,使用FID测试指标显示在两个数据集上都有一定的优化。关键词:Cbam注意力机制;显著性网络;残差结构;CartoonGan中图分类号:TP391.4文献标识码:A文章编号:1008-9659(2024)02-0032-11Vol.43,No.2Jun.2024第43卷 第2期2024年6月新疆师范大学学报(自然科学版)Journal of Xinjiang Normal University(Natural Sciences Edition)收稿日期 2023-10-10 修回日期 2023-11-01 基金项目 2021年安徽省重点研究与开发计划项目(202104d070
3、20010)。作者简介 张文天(1999-),男,硕士研究生,主要从事图像处理方面研究,E-mail:.*通讯作者 于 瓅(1973-),女,教授,主要从事区块链及图像处理方面研究,E-mail:.卡通艺术的起源可追溯至17世纪的荷兰,其后随着时间推移逐渐受到人们的青睐,如今已广泛应用于宣传、教育、电影、广告等众多领域。然而,传统的卡通创作方式耗时费力,需要综合考虑色彩、纹理、结构以及阴影等复杂要素。为了应对这一挑战,自动卡通图生成方法应运而生,通过输入待转换的图像,能够自动生成相应的卡通图,从而实现高效的图像生成。在20世纪90年代中期,非逼真渲染(Non-Photorealistic Re
4、ndering,NPR)技术首次尝试了艺术风格的转换,并取得了初步的成功。在过去的十年里,深度学习方法首次在艺术风格转换领域取得突破。Gatys等人提出基于预先训练的VGG网络的特征提取方法1,虽然效果显著,但是其速度相对较慢。随后,Huang等学者通过引入前馈网络来加速训练过程2,Li等人则将卷积神经网络与马尔科夫随机场相结合,实现了更加高效的风格迁移3。2014年,生成对抗网络Gan4的出现引发了剧烈轰动,尤其在图像生成方面取得了卓越的成果。随着Gan的快速发展,涌现出许多基于Gan的衍生模型。例如,CycleGan5,Pix2PixHD6,StarGan7,DRB-Gan8等网络模型,解
5、决了成对数据匹配,图像分辨率以及多模态等问题,进一步丰富了卡通图生成领域的研究。尽管上述方法可以生成很好的艺术风格图片,但是在卡通图的生成上仍然不足,其原因是卡通图由清晰且锐利的边缘以及明显的颜色变化还有大量的颜色组成。因此为了更好地生成卡通图,一些专门用来生成卡通图的模型被提出。CartoonGan9首先提出一种促进边缘的对抗性损失来突出边缘清晰度的卡通特征,实现了优秀的卡通迁移效果。在此之后涌现出很多优秀的卡通风格迁移网络,如AnimeGan10,White-Box11,SdpGan12,CartoonlossGan13等,在模型轻量化,生成卡通图色块以及判别器的改动等方面都得到了很好的提
6、升。为了进一步优化卡通效果,文章提出一种通过引用Cbam14和残差显著性网络,采用最小二乘损失替换原有的损失函数并且引入显著性损失的方法来进一步优化卡通效果的一种方法。32张文天,等:基于CartoonGan的改进卡通化图片生成方法1 相关工作1.1 Gan网络生成对抗网络(Gan)是一种深度学习架构,它由两个神经网络组成:生成器(Generator,G)和判别器(Discriminator,D)。生成器接收随机噪声向量,并将其转换为逼真的数据样本。判别器的任务是区分真实数据样本和生成器产生的假样本,二者相互竞争,直到生成器生成的样本与真实数据的分布相似。Gan的损失函数如式(1)所示。min
7、max(D,G)=ExPdata log(D(x)+EzPz log(1-D(G(z)(1)式(1)中的函数最大化D对真实样本判断的能力,同时最小化D对生成器G生成图片的判断能力。其中Pdata是真实样本的概率分布,Pz是随机编码z生成的生成样本的概率分布。图1为Gan的结构图,在该图中随机噪声z经过判别器G产生生成样本G(z),随后将G(z)输入到D中,D对其进行判断。如果是真实数据那么就输出1,如果是生成的数据就输出0,最后经过不断地训练使得G生成的样本尽可能接近真实样本。图1 Gan网络的结构图1.2 CartoonGan模型Chen等人提出了CartoonGan10,该网络包含生成器和
8、判别器,生成器由平面卷积开始后经两个下采样模块进行空间压缩和编码,在8个布局相同的残差块构建内容和流形特征。最后经过两个上采样模块来输出和重构图像(图2)。下采样(Down-convolution)上采样(Up-convolution)8大卷积块(8 residual blocks)convconvNormNormReluReluconvconvconvconvNormNormReluReluconvconvconvconvNormNormReluReluEsEsconvconv图2 CartoonGan生成器结构图判别器相对简单,由于对卡通风格的识别依赖于图像的局部特征,因此使用补丁级别判别
9、器来进行判别。判别器D被设计为浅层,在经过平面层阶段后,使用两个分级卷积块来降低分辨率,并提取基本的局部特征用于分类。最后,通过特征构造块和33卷积层来生成分类结果(图3)。convconvinutinutLReluLReluconvconvLReluLReluconvconvLReluLReluNormNormconvconvLReluLReluconvconvLReluLReluNormNormconvconvLReluLReluNormNormconvconv图3 CartoonGan判别器结构图33新疆师范大学学报(自然科学版)2024年在训练过程中,首先进行预训练对图片进行预处理,正
10、式训练采用对抗性损失函数来促进边缘信息,该损失函数强制鉴别器不仅要区分真实卡通图像和合成图像,还要区分边缘平滑的卡通图像,从而引导生成器产生更清晰的边缘并欺骗鉴别器。2 研究方法2.1 显著性网络多年来,显著性检测一直受到人们的青睐,Itti等人15首次提出用来模拟人类视觉搜索的显著性模型,随着该研究的不断深入,显著性检测也被广泛应用在各个领域比如标题生成,图像分割和风格迁移等。文章的显著性网络结构包括平面卷积层、两个上采样层和下采样层,但未包括8个残差块,其结构如图4所示。虽然使用显著性网络可以有效地保留语义内容,但过多注重内容上的保留会导致风格图片的风格迁移困难。为解决这一问题并保持图像生
11、成质量,在拼接显著性网络时仅拼接前三层,这样可促进图像特征与显著性特征的融合,同时确保生成的图片不会过于受显著性特征的影响。convconvNormNormReluReluconvconvconvconvNormNormReluReluconvconvconvconvNormNormReluReluconvconvconvconvNormNormReluReluconvconvconvconvNormNormReluReluconvconv图4 显著性网络结构图2.2 残差显著性网络在深度学习中随着网络深度逐渐加深会遇到梯度消失和梯度爆炸。为了解决此类问题,He等人提出了残差网络16,用来设计
12、解决退化问题,同时梯度问题也有所解决,网络的性能也有所提升。在残差结构中添加跳跃连接到第二层激活函数之前,激活函数的输入就由原来的 H(x)=F(x)变成H(x)=F(x)+x以提高训练效率,这样的处理能够更有效地训练深度神经网络,其结构如图5所示。权重层(weight layer)短接操作(identity)权重层(weight layer)reluF(x)H(x)=F(x+x)relu+XX图5 残差结构图受到该结构启发,文章在显著性网络上采用残差结构来进一步优化其能力,和显著性网络在生成器拼接的部分一样,只在该模块的前三层进行跳跃连接,上采样层保持原状。残差显著性网络结构如图6所示。在该
13、结构中,经过每个卷积层的特征层要使用实例归一化(InstanceNorm)进行归一化操作,其中第一个卷积层中的卷积核大小为7*7,第二个卷积层中的两个卷积核大小均为3*3,第三个卷积层中的两个卷积层34张文天,等:基于CartoonGan的改进卡通化图片生成方法大小均为3*3.convconvNormNormReluReluNormNormconvconvNormNormReluReluNormNormconvconvconvconvconvconvNormNormReluReluNormNorm图6 残差显著性网络结构图2.3 网络结构图生成器部分将残差显著性网络拼接到CartoonGan的
14、前三层后,受到CBA-GAN17的启发,分别在这三层的后面添加cbam注意力机制模块和卷积块,进而提高生成效果。文章提出的生成器模型如图7所示,其中Ressal为残差显著性网络,conv为卷积块,Cbam为注意力机制模块。显著性网络(Saliency Network)残差块(Residual Blocks)生成网络(Generator Network)RessalCbamconvCartoonGanK7n64K3n128K3n256K3n128K3n64K7n64K3n256K3n256inputK7n64K3n128K3n256K3n128K3n64K7n64图7 生成器模型判别器部分和Ca
15、rtoonGan判别器一样由一个卷积核大小为3*3,步长为1,激活函数采用泄漏线性整流函数(Leaky Relu)的卷积层开始,之后是两个步长为2的卷积层用来降低分辨率,最后是特征重构模块,该模块用步长为1,卷积核大小为3的卷积层得到分类结果。每一层的归一化层后都使用=0.2的泄漏线性整流函数(Leaky Relu)用作激活函数。Cbam是一种用于图像处理的注意力机制模块。它通过结合通道注意力和空间注意力,自适应地调整输入特征图的通道权重和空间权重,以提取更具信息量的特征表示。Cbam结构如图8所示,其表示如式(2),式(3)所示。F=Mc(F)F(2)F =Ms(F)F(3)式中,F为输入特
16、征,F 为F经过通道注意力机制后并且和F相乘的结果,F 为F 经过空间注意力机制后和35新疆师范大学学报(自然科学版)2024年F 相乘的结果。通道注意力模块(ChannelAttention Module)空间注意力模块(SpatialAttention Module)图8 cbam结构图Cbam中的通道注意力机制能够自适应地学习每个通道的重要性,增强更有用的特征通道,抑制不重要的特征通道。将其拼接到生成器中,可以更好地捕捉图像的颜色,纹理等特征。通道注意力机制结构如图9所示,其表示如式(4)所示。Mc(F)=(MLP(AvgPool(F)+MLP(MaxPool(F)(4)最大池化(Max
17、Pool)平均池化(AvgPool)输入特征F(Input Feature F)多层感知机(Shared MLP)通道注意力(Channel Attenion)激活函数(Sigmoid)图9 通道注意力机制结构图对卡通图来说,清晰的边缘是其重要特征,所以生成的卡通图具有良好的边缘就是一项主要的任务。cbam中的空间注意力机制通过计算并学习特征图中不同位置的权值,在训练过程中更加注重边缘特征,进而更好地生成边缘清晰的卡通图。空间注意力机制结构如图10所示,其表示如式(5)所示。Ms(F)=(f 7*7(AvgPool(F);MaxPool(F)(5)最大池化(MaxPool),平均池化(AvgP
18、ool)空间注意力(Spatial Attention)conv激活函数(Sigmoid)图10 空间注意力机制结构图2.4 损失函数将真实世界的场景映射到卡通图像的过程视为一个映射模型,其中Sdata(p)=pi|i=1,2,3,.N为真实世界图片,Sdata(a)=ai|i=1,2,3,M为卡通图片,Sdata(e)=ei|i=1,2,3,M为和卡通图一一对应的卡通边缘模糊图,Sdata(z)=zi|i=1,2,3,N为和真实世界图一一对应的显著性参考图片。为了进一步对训练过程进行限制,文章包含了3个损失函数,分别是对抗损失Ladv,用来优化生成器和判别器,内容损失Lcon(G,D)用来保
19、存真实场景图片的内容,显著性损失Lsali(S),用来优化显著性网络。2.4.1 对抗损失该损失是用来驱使生成器实现所需要的流形变换,受到相关方法3,18的启发,由于CartoonGan网络模型参数较多,属于重量模型,在训练中会出现训练不稳定以及梯度消失等问题。为了缓解这一问题的出现,采用LsGan19中的最小二乘损失来替换原有的交叉熵损失。原有损失函数如式(6)所示,文章采用的最小二乘损失如式(7)、式(8)所示。36张文天,等:基于CartoonGan的改进卡通化图片生成方法Ladv(G,D)=EaSdata(a)log D(a)+EeSdata(e)log(1-D(e)+EpSdata(
20、p)log(1-D(G(p)(6)Ladv(G)=EpSdata(p)D(G(p)-1)2(7)Ladv(D)=EaSdata(a)(D(a)-1)2+EpSdata(p)D(G(p)2+EeSdata(e)D(e)2(8)2.4.2 内容损失该损失用来在图片卡通化过程中保留其图片内容。卡通风格迁移中,为了保留真实世界图片的内容信息,采用预训练好的VGG19网络来提取真实世界图片和生成卡通图片的高级语义内容,Lcon(G,D)的表示如式(9)所示。Lcon(G,D)=EpSdata(p)|VGGl(G(p)-VGGl(p)|1(9)其中,l表示VGG在第l层的特征图,在该方法中VGG网络的第l
21、层是“conv4_4”。为了避免VGG网络中高层的真实内容图和生成卡通图的特征图之间巨大风格差异带来的影响,尤其是在特征发生显著变化的区域,采用的L1稀疏正则化来计算Lcon(G,D).2.4.3 显著性损失显著性损失的目标是让显著性网络能够更好地检测出图片的显著性区域,该损失函数是最小化显著性网络的显著性输出和显著性参考之间的差异,其表示如式(10)所示。Lsali(S)=EpSdata(p),zSdata(z)|S(p)-z|1(10)2.4.4 总体损失总体的损失函数L(G,D,S)由上述的三个损失函数相加得到的,其表示如式(11)所示。L(G,D,S)=Ladv(G)+Ladv(D)+
22、conLcon(G,D)+saliLsali(S)(11)其中,con,Sali分别是内容损失权重参数和显著性损失权重参数,二者是权衡风格转换和内容保留的重要因素。根据Gatys等人的1论文中提到的内容和风格权重之间比值关系可知,过大的con会使图片在生成过程中保留更多原始图片的内容信息导致风格转换不明显,而过小的con又会导致学习风格化过度从而使得内容损失过多。为了权衡这一过程文章设置初始con-ori,并且设置权重变化参数con-decay,con的值会根据训练次数的增加而变化,变换方式如公式(12)所示,其中epoch为训练次数。con=con-ori*(con-decay)(epoch
23、/10)(12)3 实验与实验结果分析3.1 数据集介绍训练数据集包括真实世界图片以及卡通图,真实世界图片作为内容图,卡通图片作为风格图,大小均为256*256.真实世界图片包含6659张图片,卡通图片数据集共有两个,分别来自包含2000张宫崎骏(Hayao)画风的卡通数据集,以及从电影 追逐繁星的孩子 中截取和下载的包含1860张新海诚(Shinkai)画风的卡通数据集。3.2 实验配置该实验的实验平台为windows10操作系统,硬件设备包括12Gen Intel(R)Core(TM)i5-12490F;显卡为NVIDIA GeForce RTX 3070,显存8G;实验环境为python
24、3.9;pytorch1.12.1;cuda11.3,软件平台为pycharm.3.3 实验预处理3.3.1 图片模糊处理在训练之前需要对卡通图片进行模糊处理,首先采用Canny边缘检测,其次扩张边缘区域,最后在扩张的边缘区域使用高斯平滑得到卡通图对应的模糊卡通图。新海城风格的卡通图和对应的模糊图片如图11所示,宫崎骏风格的卡通图和对应的模糊图片如图12所示。(a)新海诚风格卡通图 (b)对应模糊图图11 新海诚风格的卡通图及其对应的模糊图37新疆师范大学学报(自然科学版)2024年 (a)宫崎骏风格卡通图 (b)对应模糊图图12 宫崎骏风格的卡通图及其对应的模糊图3.3.2 图片显著性处理因
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 CartoonGan 改进 卡通 图片 生成 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。