内容结构保持的图像风格迁移方法_王小明.pdf
《内容结构保持的图像风格迁移方法_王小明.pdf》由会员分享,可在线阅读,更多相关《内容结构保持的图像风格迁移方法_王小明.pdf(9页珍藏版)》请在咨信网上搜索。
1、Computer Engineering and Applications计算机工程与应用2023,59(6)随着计算机图形学的发展与计算机建模能力的提升,计算机可以仿照现实世界场景,建立与之对应的虚拟仿真模型。考虑到计算机建模系统中虚拟场景可编辑、图像标签能够自动生成等特点,这一技术的广泛应用一方面极大地扩充了可用数据量,另一方面减少了数据标注工作对人力资源的大量需求。然而,现阶段计算机对真实场景的仿真能力仍然受到种种因素的限制,其所生成的虚拟数据与真实数据相比往往有比较大的风格差异。为了使用大量的虚拟数据辅助算法模型训练,在实际应用中,需要首先将虚拟数据的图像风格转换为真实数据风格。这一图
2、像风格迁移任务的目的是将属于源域的图内容结构保持的图像风格迁移方法王小明1,毛语实2,徐斌1,王子磊21.国网安徽省电力有限公司 电力科学研究院,合肥 2306012.中国科学技术大学 先进技术研究院,合肥 230000摘要:现有的风格迁移算法大多是实现艺术作品到真实场景,如照片等的转换任务。在这种任务设定下,图像内容的边界等结构信息可能会出现一定程度的变化,然而这种变化不利于下游任务的完成,因而不适用于大部分工业场景。为此提出一种新的结构保持的风格迁移方法,该方法分为频域约束的图像生成模块和基于memory bank机制的语义匹配模块。前者用以保证转换前后图像的整体语义结构一致性,而后者保证
3、了图像的语义与风格匹配,从而物体内部结构一致。为了验证该方法在工业场景中的迁移效果,采用光伏板数据集,在虚拟到真实的迁移方向上,所提出的风格迁移算法能在完成风格转换的同时较好地解决图像结构形变问题,进而满足后续任务的需求。关键词:图像风格迁移;生成对抗网络;计算机视觉文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2110-0107Content Structure Preserved Image Style Transfer MethodWANG Xiaoming1,MAO Yushi2,XU Bin1,WANG Zilei21.Electric
4、 Power Research Institute,State Grid Anhui Electric Power Co.,Ltd.,Hefei 230601,China2.Institute of Advanced Technology,University of Science and Technology of China,Hefei 230000,ChinaAbstract:Most existing style transfer algorithms realize the conversion task from art works to real scenes,such as p
5、hotos.Under this experiment setting,the content structure of the image may change to a certain extent.However,this change isnot conducive to the completion of downstream tasks,so it is not available for most industrial scenes.Therefore,a newstructure preserving style transfer method is proposed,whic
6、h contains a frequency domain constrained image generationmodule and a semantic matching module based on memory bank.The former is used to ensure the consistency of the overallsemantic structure of the image before and after transfer,while the latter ensures the semantic and style matching,so thatth
7、e internal structure of the object is consistent.By comparing the frequency domain similarity between the original imageand the migrated image and the similarity between the generated image and the corresponding category in memory bank,the purpose of keeping the image structure unchanged is achieved
8、.In order to verify the effect this method produced inthe industrial scene,the photovoltaic panel dataset is used.The proposed style transfer algorithm can not only completethe style conversion,but also better resolve the problem of image structure deformation,so as to meet the needs of subse-quent
9、tasks.Key words:image style transfer;generative adversarial network;computer vision基金项目:国网安徽省电力有限公司科技项目(B31205200009)。作者简介:王小明(1987),男,高级工程师,研究领域为电力系统及其自动化;毛语实(1997),女,硕士研究生,研究领域为图像风格迁移;徐斌(1980),高级工程师,研究领域电力系统及其自动化;王子磊(1981),通信作者,男,副教授,CCF会员,研究领域为计算机视觉、深度学习,E-mail:。收稿日期:2021-10-10修回日期:2021-12-16文章编号
10、:1002-8331(2023)06-0146-091462023,59(6)像在保持内容信息的前提下转换到目标域,生成具有目标域风格和源域内容的图像1。风格迁移可以广泛应用在计算机视觉及图像处理的诸多领域,如图像分析2、图像分割3、3D姿态估计4和领域自适应5等。深度卷积神经网络诞生后,图像风格迁移方法逐渐开始转向使用参数化的模型,自动地从源域与目标域分别提取输入图像的内容特征与风格特征,再利用这两部分信息解码合成目标输出。其中,根据不同的数据集类型和应用场景,图像风格迁移可以分成有监督学习和无监督学习两类问题设定。有监督学习是指在训练阶段,源域与目标域使用包含配对关系的数据,即对于一张源域
11、图像,都有一张目标域图像与其对应;而无监督学习使用的是未配对的图像对,即任务目标是将目标图像转换成与整个目标域数据集相似的风格。针对无监督图像风格迁移问题,研究人员提出了一系列基于循环一致性的算法。然而,由于基于循环一致性的方法缺乏深层特征的约束,当域间差异较大时,往往出现内容缺失的问题。近年来,随着模式崩溃问题的解决,解耦表示6-7为无监督的风格迁移任务提供了解决方案。这些方案的模型结构大多相似,将图像通过内容编码器和属性编码器解耦到两个空间域特定的风格空间和域不变的内容空间,并通过交叉重建和对抗学习等约束完成生成对抗网络8(generative adversarialnetwork,GAN
12、)的训练。在无监督实验设置下,解耦质量难以充分保证,因此该类方法普遍存在内容泄露问题,导致生成的迁移图像中会存在风格域的内容信息。为了更好地解决跨域图像转换的内容缺失等问题,DSMAP方法9提出了一种域间相似的语义内容的匹配方法,进一步扩充内容空间。在共享的内容特征空间基础上,假设源域和目标域都存在各自域特定的内容特征空间,并试图寻找二者之间的映射关系,确保源图像和生成图像的对应内容匹配。但由于映射只保证了内容特征一致而缺乏边界约束,仍存在物体边界变形和模糊的情况。由此可见,现有方法难以在生成风格逼真的虚拟图像的同时,保持转换后的图像结构不发生明显形变。本文利用无监督学习的设定,充分挖掘大批量
13、训练数据对模型性能的提升潜力。针对无监督图像风格转换任务中内容缺失和形变的问题,与之前利用显著性等约束的方法10-11不同,提出一种新的图像结构保持的风格迁移方法。首先,在图像生成模块中通过约束傅里叶变换后的信号相位一致性,在频域空间中保证图像转换前后的整体语义结构不变;本文提出的语义匹配模块利用源域图像的实例级语义标签建立场景中各类别物体的特征memory bank,进而通过匹配迁移图像与memorybank中的对应类别特征向量,保证即使是视觉上相似的结构也能够分别对应到正确的语义内容。实验结果表明,结合以上两个模块,本文提出的模型能够有效地保持转换前后图像的内容结构不变,从而显著提升生成图
14、像的逼真程度。因此,本文方法能够广泛应用于对图像结构信息要求严格的工业场景之中。1相关工作1.1基于GAN的图像转换生成对抗网络(GAN)8是基于纳什均衡构建的结构化概率模型,在很多领域已经取得了显著的成果。GAN的模型结构包含一个生成器和一个判别器,判别器判断一张图像是来自于生成器的输出还是真实输入,算法的目标是希望经过对抗训练后,生成器生成的虚拟数据无法被判别器所区分,即能够产生与真实数据相近的输出。而为了生成多样化的虚拟数据,生成器需要引入随机噪声向量作为输入,但这也同时为生成结果引入了不稳定性。近年来,很多工作试图提高GAN的训练稳定性。CGAN12将附加的约束信息与噪声向量同时输入模
15、型,通过建模约束信息下的条件概率分布,生成目标图像;在此基础上,WGAN13基于Wasserstein距离提出新的损失函数作为约束,利用该距离可以在概率分布不重叠的情况下度量分布远近的特性,解决生成器与判别器的平衡难题;SNGAN14则提出了谱归一化,通过约束判别器的权重矩阵,保证了生成网络的稳定性。针对无监督图像转换问题,现有的方法大多包含以下步骤:将源域图像编码至低维隐空间、在隐空间中将域相关的图像信息由源域转换到目标域、利用转换后的图像信息重建目标域风格的图像。在此基础上,Zhu等人于2017年首次提出了CycleGAN15算法,该算法采用两对生成器与判别器,要求迁移到目标域的图像能够对
16、应地转换回源域。在此基础上,MUNIT16使用共享的隐空间编码不同域的图像,通过约束不同域中同一类别图像共享相同的隐空间表示,进而保证了图像转换前后的语义稳定性。兰天等人17则使用基于注意力机制的长距离依赖关系,将隐藏层的特征转换到两个特征空间内,再加回输入数据,对结构性强的图像进行更好地建模并保留图像细节。1.2基于解耦方法的图像转换为了改善上述方法中存在的不稳定与迁移性差的问题,研究人员使用解耦方法来完成转换任务。具体地,将源和目标域图像解耦为在转换过程中保持不变的域不变的内容特征和在转换过程中改变的域特定的风格特征,通过保留内容特征并替换风格特征达到转换的目的。文献18将两个域的特征分为
17、三部分:目标域风格特征、共享的内容特征、源域风格特征,将源域的内容特征与目标域的风格特征组合后,使用反卷积等操作由解码器生成目标图像。DRIT+19则在编码器的输出层和译码器的输入层上共享权重,保证编解码过程可逆。王小明,等:内容结构保持的图像风格迁移方法147Computer Engineering and Applications计算机工程与应用2023,59(6)通过组合源域图像的内容表示和目标域图像的风格表示来进行转换。通过为GAN模型引入特征解耦方法,模型有能力处理更具有挑战性的数据。然而大部分算法常常出现内容与风格不对应的情况,破坏了物体内部的结构一致性,因此对于需要语义匹配的数据
18、难以取得令人满意的结果。本文采用特征解耦方法作为风格迁移网络的基本框架,在此基础上加入相位一致性约束和语义匹配模块,提高生成图像的质量。2图像风格迁移方法现有的无监督风格迁移算法由于监督信息不足和网络结构等方面的限制,通常存在内容泄漏问题。同时,基于GAN的迁移算法往往是以随机噪声作为输入,这导致了生成图像出现边缘模糊或扭曲变形等问题。因此,在要求图像完整性以保证下游任务准确度的工业场景中,风格迁移很难得到有效应用。针对上述问题,本文提出一种结构保持的图像风格迁移算法,分别利用频域约束及语义匹配两种方式约束迁移后的图像内容与结构都不发生重大变化。本文模型分为图像生成模块和语义匹配模块,如图1所
19、示,前者使用相位一致性损失对基于特征解耦的图像转换网络进行约束,频域中相同的信号相位对应于空间中相近的语义结构;后者根据语义分割标签对转换前后图像上的位置进行匹配,进而保证生成图像上的物体具有正确的风格信息及内部结构。下面具体介绍这两个模块。2.1问题设定图像风格迁移的目的是将域XA中的图像xA转换到目标域XB,在保留内部源域内容的同时迁移获得外部的目标风格。因此需要训练一个映射模型AB,对于给定的输入图像xAXA,能够生成图像xABXB使其不能与目标域中的图像xBXB区分,即xABXB,xAB=AB()xA。实际上,图像风格迁移任务是在没有联合分布p()xA,xB的情况下,通过学习迁移模型的
20、分布p()xAB|xA,估计条件分布p()xB|xA。为此,应用文献16中的设定:假设域XA和域XB分别拥有域特定的风格空间SA和SB,同时它们共享域不变(domaininvariant)的内容空间CDI。这样,联合分布中一对对应的图像()xA,xB可以由生成器GA()c,sA及GB()c,sB得到,其中c、sA、sB是从先验分布中提取的,GA、GB分别为AB与BA。进一步地,假设存在逆映射EA=()GA-1及EB=()GB-1,在此基础上,神经网络可以拟合底层生成器和编码器,准确地估计条件分布,从而达到图像风格迁移的目的。2.2DSMAP方法回顾Chang等人9指出,在上述假设空间内,CDI
21、中可能包含域相关的信息,因此加入两个域特定的映射函数CCA及CCB来将CDI重映射到域特定(domain-specific)的内容空间,CDSA及CDSB。通过此种方式,内容编码能更好地表示域相关的信息,进而内容特征能够更好地与目标域对齐。图像生成网络包含如下部分:内容编码器EcA,EcB、风格编码器EsA,EsB、生成器GA,GB、判别器DA,DB及映射函数CCA,CCB。对于XAXB方向的迁移,内容图像xAXA首先被编码为域无关的内容特征cACDI,同时风格图像xBXB被编码为域特定的风格特征SB。随后,将cA映射到XB的内容空间中,通过对齐XB中的特征分布得到cAB。最后使用生成器GB合
22、成内容特征cAB和风格特征sB,译码得到输出图像xAB。为了生成高质量的迁移图像,以A域到B域方向的损失为例,使用的损失函数如下:(1)域特定内容损失:模型中生成器与MUNIT16中的结构相同,包含由若干跨步卷积层的EA和包含若干残差模块的Eres,其中后者在域间共享参数。为了找到重定向映射CCA和CCB,要求映射后的每个域的中间内容特征与原特征相似。编码器译码器内容编码风格编码高斯噪声相似度损失相位一致性损失源域图像迁移模块语义匹配模块Real imagesBanktreeBankgrassrealgenerated目标域图像图1结构保持的图像风格迁移模型Fig.1Structure pre
23、served image style transfer model1482023,59(6)LdscA1=ExAE()xAA-CCA()EcA()xA(1)(2)风格重建损失:为了确保样式编码器编码出有意义的样式特征,给定一个从高斯分布随机抽样的样式特征时,该损失保证其能够重构原始样式特征。LsA1=EsA,cBA|EsA()GA()CCA()EcB()xB,sA-sA(2)(3)域不变内容损失:EhcA编码的特定域特征投影到域不变空间与原特征之间的一致性约束损失。LdicA1=ExA,xABEcB()xAB-EcA()xA(3)(4)图像重建损失:确保生成器能够在一个域内重建原始图像。LxA
24、1=ExA|GA()CCA()EcA()xA,EsA()xA-xA(4)(5)对抗损失:最小化真实图像和生成图像的分布差异。LADadv=12ExA()DA()xA-12+12ExBA()DA()xBA2(5)LAGadv=12ExBA()DA()xBA-12(6)(6)循环一致损失:保持图像经过循环转换后,能够被完善地重建。LxAcc=ExAxABA-xA(7)2.3基于频域的约束方法如图2所示,在无监督风格迁移的设置下,由于源域和目标域图像无对应关系,模型虽然能完成风格转换的任务,但是在解耦过程中,一部分内容信息可能会丢失,从而出现内容缺失、物体变形、物体内部和边界结构不完整等问题。因此,
25、本文首先试图利用频域约束信息,保证生成图像与源图像的内容及结构一致,进而为工业场景中的下游任务提供更准确的结构保持的迁移图像。在认知心理学中有一条普遍性的结论:将图像从空间域转换到频域往往可以带来新的分析角度。傅里叶变换将图像的RGB分布映射到频域分布,而频域分布反应了图像变化的剧烈程度。观察发现,改变图像频域表示的信号幅度不会影响其语义解释,而改变相位则会产生不可理解的图像。换言之,图像的语义信息包含在了波谱的相位信息中。因此,在无监督的风格迁移设置下,使用相位约束来保持GAN的生成图像与源图像的内容结构一致。具体地,令F:RHWRHW2为傅里叶变换,对于输入图像x,可以通过最小化下述函数来
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 内容 结构 保持 图像 风格 迁移 方法 王小明
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。