多尺度特征和注意力融合的生成对抗壁画修复_陈永.pdf
《多尺度特征和注意力融合的生成对抗壁画修复_陈永.pdf》由会员分享,可在线阅读,更多相关《多尺度特征和注意力融合的生成对抗壁画修复_陈永.pdf(11页珍藏版)》请在咨信网上搜索。
1、http:/DOI:10.13700/j.bh.1001-5965.2021.0242多尺度特征和注意力融合的生成对抗壁画修复陈永1,2,*,陈锦1,陶美风1(1.兰州交通大学电子与信息工程学院,兰州730070;2.甘肃省人工智能与图形图像处理工程研究中心,兰州730070)摘要:针对现有深度学习图像修复算法修复壁画时,存在特征提取不足及细节重构丢失等问题,提出了一种多尺度特征和注意力融合的生成对抗壁画修复深度学习模型。设计多尺度特征金字塔网络提取壁画中不同尺度的特征信息,增强特征关联性;采用自注意力机制及特征融合模块构建多尺度特征生成器,以获取丰富的上下文信息,提升网络的修复能力;引入最小
2、化对抗损失与均方误差促进判别器的残差反馈,从而结合不同尺度的特征信息完成壁画修复。通过对真实敦煌壁画数字化修复的实验结果表明,所提算法能够有效保护壁画图像的边缘和纹理等重要特征信息,并且主观视觉效果及客观评价指标均优于比较算法。关键词:图像重构;壁画修复;生成对抗网络;多尺度特征融合;自注意力机制中图分类号:TN911.73文献标志码:A文章编号:1005-5965(2023)02-0254-11敦煌莫高窟是世界上现存规模最宏大、内容最丰富的佛教石窟壁画宝库,其内所存的壁画、经卷等具有珍贵的研究价值。然而,由于自然风化的破坏及人为因素的影响,窟内壁画出现了地仗脱落、划痕、褪色、裂纹等严重的灾害
3、,亟待保护。因此,研究病害敦煌壁画的修复极其重要。但是,人工修复存在风险大、不可逆等问题,将数字化虚拟修复应用于古代壁画的保护是目前的研究热点问题1。数字化图像修复(imageinpainting)是一种根据图像已知内容去推测并修复出破损或缺失区域内容,使修复后的图像尽可能满足人类视觉感知需求的技术手段2。图像修复算法主要分为传统图像修复算法和基于深度学习的图像修复算法。传统的图像修复算法主要包括基于扩散的图像修复方法3-4和基于样本块的图像修复方法5,传统图像修复算法利用纹理和结构等先验信息,可以完成小面积的图像修复。Li 等6提出一种基于压缩全变分(compr-essivetotalvar
4、iation)的模型来描述图像的稀疏性和低秩先验知识,以实现对图像的重构。Fan7在 Crim-inisi 算法的基础上引入邻域和结构信息对优先权和匹配策略进行改进,避免了错误匹配的问题。陈永等8提出了一种改进曲率驱动扩散的敦煌壁画修复算法,提高了对壁画裂纹的修复效果。Yang 等9在偏微分方程修复算法的基础上通过对结构张量进行改进,提高了对小尺度细粒纹理的处理能力。上述传统图像修复算法对小面积破损具有一定的修复能力,当破损面积过大时,修复效果较差。基于深度学习的图像修复算法相较于传统图像修复算法能够学习得到更高层的图像特征10。国内外学者相继开展了基于深度学习方法的图像修复研究。例如,Qin
5、 等11提出了基于多尺度注意力网络的修复模型,通过引入多尺度注意组来提高修复后图像的真实性。Zeng 等12提出了基于上下文编码(contextencoder)修复网络,通过对全分辨率输入的收稿日期:2021-05-08;录用日期:2021-06-25;网络出版时间:2021-07-1416:15网络出版地址: J.北京航空航天大学学报,2023,49(2):254-264.CHEN Y,CHEN J,TAO M F.Mural inpainting with generative adversarial networks based on multi-scale feature and at
6、tention fusionJ.Journal of Beijing University of Aeronautics and Astronautics,2023,49(2):254-264(in Chinese).2023年2月北京航空航天大学学报February2023第49卷第2期JournalofBeijingUniversityofAeronauticsandAstronauticsVol.49No.2上下文语义进行编码完成破损图像的修复。Iizuka等13通过引入全局判别器和局部判别器提高了修复后图像的局部清晰度。Yan 等14在 U-net 模型的基础上增加了 Shift 连接
7、层,并在解码器特征上引入引导损失,提高了修复后图像的精度。Zeng 等15利用深度卷积神经网络对破损图像产生粗略修复图,利用最邻近像素匹配进行可控制修复,使得修复的图像更具高频真实感。曹建芳等16针对古代壁画起甲、脱落等问题提出一种增强一致性生成对抗网络的图像修复算法,提高了修复后壁画全局与修补区域的一致性。Liu 等17提出了一种联合互编解码器和卷积神经网络(convolutionalneuralnetworks,CNN)的修复模型,将编码器的深层和浅层特征作为卷积神经网络的输入,使得修复后的图像结构和纹理更加一致。然而,敦煌壁画的破损呈现的形状是多种多样的,破损的壁画往往存在细节丢失、特征
8、不足等问题8。综上所述,现有的基于深度学习方法虽然能够修复较大面积破损的普通图像,但是对于特征多变、纹理密集壁画图像的修复仍存在较多缺陷,如存在特征提取不足及细节重构丢失等问题11,16。针对上述问题,本文提出了一种多尺度特征和注意力融合的生成对抗壁画修复算法。首先,设计多尺度特征金字塔网络提取壁画中不同尺度的特征信息,充分利用壁画特征多样性,增强了壁画图像之间的特征关联性,克服了现有深度修复模型特征提取单一的问题。然后,采用自注意力机制及特征融合编码器构建多尺度特征生成器,以获取丰富的上下文信息,提升网络的修复能力,克服了修复后细节重构丢失的问题。最后,引入最小化对抗损失与均方误差促进判别器
9、的残差反馈,从而结合不同尺度的特征信息完成壁画修复。通过对敦煌壁画的修复实验结果表明,本文算法较对比算法获得了较好的主客观评价效果。1相关理论生成对抗网络(generativeadversarialnetworks,GAN)主要由生成器和判别器组成,生成器一般由编码器和解码器组成,其基本构成如图 1 所示18。其中,生成器主要是将输入的随机噪声或样本图像利用已学习到的概率分布重新生成新的图像,而判别器用来判别输入数据的真假,其输出为一个概率值。xD(x;)如果 为真实数据,则判别器输出表示为p(y=1|x)=D(x;)(1)若 x 为生成数据,则判别器输出表示为p(y=0|x)=1D(x;)(
10、2)log2(D(x)log2(1D(G(z)log2(1D(G(z)模型通过最大化和训练判别器,通过最小化训练生成器,如下:minGmaxDV(D,G)=ExPdata(x)log2(D(x)+EzPz(z)log2(1D(G(z)(3)Pdata(x)Pz(z)式中:z 为随机噪声;V(G,D)为估值函数;为数据分布函数;为噪声分布函数。GAN 将图像修复问题转化为生成器与判别器相互博弈的问题,利用生成器和判别器的对抗学习达到图像修复的目的。2本文算法2.1网络总体框架壁画图像通常含有复杂的纹理结构等特征信息,并且特征之间具有较强的关联性。而现有 GAN等深度学习图像修复算法在修复壁画图像
11、时仅利用一系列卷积核提取壁画单一层特征,忽略了壁画特征信息的多样性,导致修复后的壁画存在特征提取不足及细节重构丢失等问题。基于此,本文提出了一种多尺度特征融合的生成对抗网络(multi-scalefeaturefusion generative adversarial network,MS-FFGAN)模型对破损敦煌壁画进行修复。本文 MS-FFGAN 网络整体结构如图 2 所示,主要由多尺度特征提取和自注意力机制融合的生成器和判别器构成。首先,对于输入破损壁画图像,利用本文 MS-FFGAN 网络生成器中的多尺度融合特征编码器和解码器,结合注意力机制将学习到的特征分布生成所需的壁画图像;然后
12、,将生成的壁画图像及真实样本图像作为判别器的输入进行判别,并将反馈信息反馈到生成器更新网络参数,通过两者对抗训练达到壁画修复的目的。判别器 反馈信息生成样本真实样本隐空间噪声生成器真/假?图1生成对抗网络基本结构框架18Fig.1BasicstructuralframeworkofGAN18第2期陈永,等:多尺度特征和注意力融合的生成对抗壁画修复2552.2多尺度特征融合生成器在 MS-FFGAN 网络模型中,生成器由多尺度特征金字塔、特征融合编码器和解码器 3 部分组成,如图 3 所示。本文算法设计了多尺度特征金字塔网络作为生成器的特征提取网络,用以提取壁画的不同尺度特征,再利用特征融合编码
13、器对提取到的特征进行融合,把低分辨率、高语义信息的壁画高层特征和高分辨率、低语义信息的壁画低层特征进行自上而下的侧边连接,使得所有尺度下的壁画特征都有丰富的语义信息,使网络可以学习到更加全面的壁画图像特征。在 MS-FFGAN 网络的生成器中,多尺度特征金字塔网络利用卷积等操作提取图像不同尺度的特征图。首先采用 77 卷积核对原图像进行特征提取得到首层特征图,然后通过最大池化得到次层特征图,最后分别通过 4 次下采样操作后得到不同尺度的特征图,计算如下:si,j=f(6m=06n=0wm,nxi+m,j+n+wb)(4)w0=wts+1h0=hts+1(5)m=n+2pls+1(6)si,jj
14、xi,jjwm,nwbfw0h0tsnplm式中:为特征图的第 i 行 列的元素;为原图中第 i 行 列的元素;为权重;为偏置;为 ReLU激活函数;和分别为池化后特征图的宽度和高度;为滤波器卷积核尺寸大小;为步长;为输入特征图大小;为边补充大小;为卷积核大小;为下采样后的特征图大小。特征融合编码器主要包括纵向和横向 2 个网络分支。纵向路径通过对空间上低分辨率、高语义信息的壁画高层特征图进行上采样,来获取高分辨率的特征;横向路径通过将多尺度特征金字塔网络特征图与相应的低层特征进行融合,得到所需的多尺度融合特征图,如图 4 所示。特征融合编码器采用上采样及加和操作将图像中不同尺度的特征进行融合
15、。以特征图 C3 与 P4融合为例,首先通过 11 卷积对特征图 C3 通道数生成器判别器输出反馈特征融合编码器解码器图像输入特征图真实样本图像生成的壁画图像跳跃连接最大池化2倍上采样加和SASASASA输入破损壁画图像多尺度特征金字塔77卷积图2本文总体模型框架Fig.2Overallframeworkoftheproposedmodel跳跃连接多尺度特征金字塔特征融合编码器解码器底层图像高层特征图输出SASASASA生成图像输入图像C2C3C5C4F4F3F22倍上采样卷积/最大池化下采样21卷积/最大池化图3多尺度特征融合的生成器结构Fig.3Structureofgeneratorba
16、sedonmulti-scalefeaturefusion256北 京 航 空 航 天 大 学 学 报2023年降维得到 C3,然后为使特征图 P4 大小与 C3保持一致,对 P4 进行 2 倍上采样,最后将 C3与上采样后的 P4 进行加和得到融合后的特征图 P3。为减少计算量且保持加和后特征图通道数不变,利用式(7)对特征图进行加和,之后再进行卷积。Z=mi=1xiki+mi=1yiki(7)xiyiki式中:和 分别表示进行加和操作的双方的通道;为第 i 个通道卷积核;“”表示卷积。在图 4 中,网络特征融合时,对于输入原始壁画图像,通过卷积及最大池化得到特征图 C0C5,在 C2C5
17、的基础上,通过 11 卷积在特征图尺寸大小不变且通道数保持一致的情况下得到待融合特征图 C2C4,通过加和操作分别与最邻近上采样后的 P5P3 进行融合,最终得到特征图 P2。图 5为融合部分结构原理。此外,为了消除上采样产生的混叠效应11,对融合后的特征图 P4P2 采用 33 卷积进行处理,得到最终的特征图 F4F2,计算公式如下:Fi=f331(S2up(Pi+1)f111(Ci+1)(8)Fif331式中:为最终生成的特征图;为卷积核尺寸S2upPi+1 Ci+133、步长1 的卷积层;为2 倍上采样操作;“”表示融合操作;、分别为待融合的两路输入。在深度学习模型中,采用跳跃连接结构可
18、以较好地解决训练过程中梯度爆炸和梯度消失的问题,提升网络的表征能力19。借鉴这一思想,在特征融合编码器和解码器之间采用跳跃连接结构,将最终的特征图作为解码器的输入,通过跳跃连接和解码功能将潜在的特征解码回图像,达到生成图像的目的。特征融合编码器与解码器工作原理如图 6 所示。xCgCy1,y2,yi1yi在图 6 中,特征融合编码器通过式(9)中转换函数 f 对输入图像 进行编码,将其转换为中间语义。解码器通过式(10)中的函数 及中间语义、历史生成信息生成所需图像。C0C1C2C3C4P2C5F4F2P3F3多尺度特征金字塔网络特征图特征融合编码器3232,2 0486464,1 02412
19、8128,512256256256256256,64最大池化33,s=2256256,25633卷积 256,s=12倍上采样256256,256128128,256输入图像1 0241 0243C2256256,256C3128128,25611卷积 256,s=111卷积 256,s=111卷积 256,s=16464,256C411卷积 256,s=1P52倍上采样3232,25633卷积 256,s=1P46464,2562倍上采样33卷积 256,s=16464,256512512,6477卷积64,s=2128128,256图4特征融合过程示意图Fig.4Schematicdiag
20、ramoffeaturefusionprocess2倍上采样P5P4P3P2图5融合结构原理Fig.5Schematicoffusionstructure第2期陈永,等:多尺度特征和注意力融合的生成对抗壁画修复257C=f(x1,x2,xn)(9)yi=g(C,y1,y2,yi1)(10)2.3自注意力机制在 MS-FFGAN 特征融合网络中,通过多尺度特征融合的方法增强了壁画图像局部特征与全局特征的关联性,克服了单一尺度壁画图像修复算法特征提取不足的问题。但由于卷积操作是卷积核对局部感受野邻域内的信息进行处理的过程,无法对关联全局信息建立长距离的依赖关系,而注意力机制能够捕获全局的依赖关系2
21、0。自注意力机制通过捕捉全局的信息来获得更大的感受野和上下文信息,因此,本文提出将自注意力机制结合到壁画修复GAN 网络结构中,克服了特征提取不足及信息利用率低等问题,使 MS-FFGAN 网络能够学到更加精细的壁画特征,从而克服细节重构丢失等问题。在特征融合时引入自注意力机制,其结构如图 7 所示。转置Softmax注意力映射fqhCHW多尺度特征金字塔网络特征图11卷积11卷积11卷积f(x)g(x)h(x)(HW)(HW)CHW自注意力特征图图7自注意力模型结构Fig.7Structureofself-attentionmodelX RCHWLC1 C2 C3fq hf,q,h RCHW
22、fRCNN=HWfTqNNP RNN在图 7 中,输入为壁画多尺度金字塔相应层的特征图,通过大小为 11、通道数为 的卷积层、得到特征、,其中,;将、q 重构为,其中,表示像素点的个数。为了保证自注意力特征图与输入特征图大小一致,需要将与 矩阵相乘得到大小的特征图,经过 Softmax 层得到注意力映射图,公式如下:Pij=exp(aij)ni=1exp(aij)(11)aij=f(xi)Tq(xj)Pijfiqj式中:;表示特征 中第 维元素对特征 中第 维元素的作用。PhXCNY将注意力映射图 与特征、权重因子 相乘后并与特征相加,从而得到大小为的自注意力特征图,公式如下:Y=Ph+X(1
23、2)2.4损失函数采用 MS-FFGAN 网络对壁画进行修复训练时,通过壁画不同尺度的特征及自注意力机制,并结合对抗损失对生成器和判别器进行优化,从而完成壁画的修复。其中,损失函数采用对抗损失函数与均方误差(meansquareerror,MSE)来优化网络模型。首先,对生成器的最终预测进行定义:z=G(x(1m),m)m+x(1m)(13)xm式中:为像素真实值;“”为逐元素相乘;代表掩码;1 为破损区域。判别器的损失表示为LossD=ExPdatamax(0,1D(x)+EzPzmax(1+D(z)(14)D(x)D(z)式中:和为判别器输出的归一化概率。生成器的损失表示为LossG=Ez
24、PzD(z)(15)采用均方误差 MSE 作为本文算法的损失函数,公式如下:LossP=1mmi=1(Pdata(xi)Pz(xi)2(16)m式中:为训练数据集数量。通过最小化对抗损失和 MSE 的残差反馈实现本文模型的优化,MS-FFGAN 损失函数定义如下:Loss=LossG+LossP(17)解码器语义编码C编码器x1x2xny1y2yi1图6编码器与解码器示意图Fig.6Diagramofencoderanddecoder258北 京 航 空 航 天 大 学 学 报2023年3实验结果与分析为了验证本文算法的有效性,通过对敦煌壁画人为添加破损和真实破损壁画分别进行修复实验,并与 C
25、riminisi 算法5及文献 14,17 的修复结果进行对比。评价指标采用峰值信噪比(peaksignal-to-noiseratio,PSNR)及结构相似性(structuralsimilarity,SSIM)2 种客观评价指标和人眼主观视觉对修复结果进行分析。实验在Windows10 下进行,使用Python3.6及 Tensorflow1.14 搭建深度学习环境。硬件环境为Intel(R)Core i7-10700K CPU 3.80 GHz,32.0 GBRAM,NVIDIAGeForceRTX2060SUPER,对比实验均在相同配置环境下进行。3.1数据集选取以唐代壁画为主的 29
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 尺度 特征 注意力 融合 生成 对抗 壁画 修复 陈永
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。