基于边缘先验的人脸去手势遮挡修复方法研究_欧静.pdf
《基于边缘先验的人脸去手势遮挡修复方法研究_欧静.pdf》由会员分享,可在线阅读,更多相关《基于边缘先验的人脸去手势遮挡修复方法研究_欧静.pdf(5页珍藏版)》请在咨信网上搜索。
1、2023 年 6 月 10 日第 7 卷 第 11 期现代信息科技Modern Information TechnologyJun.2023 Vol.7 No.1197972023.062023.06收稿日期:2023-04-07基于边缘先验的人脸去手势遮挡修复方法研究欧静,文志诚(湖南工业大学,湖南 株洲 412007)摘 要:针对当下人脸去手势遮挡任务中常出现的结构缺失和纹理模糊等问题,文章提出一种基于边缘条件和注意力机制的两阶段修复网络EmmNet。第一阶段网络为第二阶段细节修复提供边缘指导信息,以避免出现过度平滑等问题。第二阶段网络中的并行多扩张卷积模块可在有效扩大网络感受野的同时提高
2、对有效像素的利用率。此外,注意力模块可促使网络生成具有全局一致性,使研究者获得符合原图特征的修复图像。实验结果表明,EmmNet 在去手势遮挡任务中可以生成轮廓结构更加完整流畅,细节纹理更加清晰自然的人脸图像。关键词:卷积神经网络;生成对抗网络;人脸修复;注意力机制中图分类号:TP18;TP391.4 文献标识码:A 文章编号:2096-4706(2023)11-0097-05Research on Face Removal and Removing Gesture Occlusion Restoration Method Based on Edge PriorOU Jing,WEN Zhic
3、heng(Hunan University of Technology,Zhuzhou 412007,China)Abstract:Aiming at the problems of lack of structure and blurred texture that often appear in the current face removing gesture occlusion task,this paper proposes a two-stage inpainting network based on edge conditions and attention mechanismE
4、mmNet.The one-stage network provides edge guidance information for the second-stage detail restoration to avoid problems such as over-smoothing.The parallel multi-expansion convolution module in the second-stage network can effectively expand the network receptive field and improve the utilization o
5、f effective pixels.In addition,the attention module can promote global consistency in network generation,enabling researchers to obtain repaired images that match the original image features.The experimental results show that EmmNet can generate a face image with a more complete and smooth outline s
6、tructure and clear and natural detail texture in the removing gesture occlusion task.Keywords:Convolutional Neural Network;Generative Adversarial Network;face restoration;attention mechanism0 引 言人脸图像去遮挡及修复作为图像修复领域的重要研究课题,具有广阔的应用空间。在安保监控领域,监控图像中的人脸信息因受帽子、口罩、手势等遮挡物影响而造成人脸识别1失败的情况屡见不鲜。通过人脸修复技术对被遮挡的人脸图像
7、进行恢复可以有效提高人脸识别系统在处理被遮挡人脸图像时的准确率,因此,人脸修复结果更需要尊重原始图像中人脸的五官特征、肤色发色以及皮肤生长状态和纹理。这就要求所生成的人脸图像要更加贴合原图的五官结构和纹理特征,要尽可能地减少色彩误差和纹理扭曲,提高生成结果的准确度。为此,在图像生成过程中如何引入必要的先验知识或特定的假设,以帮助网络生成完整合理的人脸面部结构信息成为亟需解决的问题之一。鉴于此,本文提出一种基于边缘条件和注意力机制的人脸图像修复方法EmmNet。整体而言,EmmNet 是一个两阶段修复网络,第一阶段主要完成的任务是引入修补的边缘图像为修复任务提供先验DOI:10.19850/ki
8、.2096-4706.2023.11.023信息以避免结构缺失以及生成图像过渡平滑的问题,第二阶段则进行细节和纹理层面的修复。在网络的设计中,我们在第二阶段增加了门控卷积以减少修复过程中无效像素对特征提取的影响。与此同时,我们使用在不同扩张率下并行工作的多扩张卷积结构来代替传统的残差卷积块,这样可以在有效扩大感受野的同时进一步提高网络对有效像素的利用率。在判别器的选择上,我们采用可在两个尺度下同时工作的马尔可夫判别器,该设计结构可以保证生成图像结构的一致性,有利于实现稳定训练。经过试验训练,EmmNet 在实现手势遮挡方面取得了较好的效果,在 PSNR、SSIM 等指标上都取得了优良的实验结果
9、,且在不规则遮挡实验测试中也表现出优秀的修复能力。1 近期相关工作图像修复方法一般分为基于传统数学推理思想的方法和基于深度学习的方法。就修复原理而言,修复网络需要充分挖掘和利用不完整图像中显式存在的像素信息从而进一步推理丢失的图像内容2。对于生成的图像则要求语义连贯,结构完整且局部纹理信息清晰明确。传统方法在大面积修复效果上具有较大的局限性且修复结构中往往存在明显的结构缺98982023.062023.06第 11期现代信息科技失和纹理模糊等问题,因此,相较于传统修复方法,编解码器结构3和生成对抗网络4的提出为图像修复工作提供了全新的思路和方法。一方面,深度学习方法中的各种编码器解码器变体结构
10、等建模方法可以在无监督模式下通过对高维数据进行压缩编码来提取图像中的有效特征信息,进而从海量数据库语料中不断学习以拟合训练数据集中图像数据在潜在空间中的真实分布。同时,凭借自身优秀的“泛化”能力,这些网络结构可以以此重构出与原始图像具有相似特征分布的图像数据。然而,基于自编码器变体的方法本质上是一种可以生成新样本的概率框架,但其生成的图像结果往往较为模糊,质量较低。另一方面,基于生成对抗网络思想而生的网络变体结构设计一系列损失函数,采用对抗博弈的方式对生成器和鉴别器进行联合训练,使生成器可以改写噪声分布并使其可以无限接近于目标分布。2 提出方法2.1 网络结构如图 1 所示,EmmNet 网络
11、由两阶段组成,包括边缘生成网络和纹理生成网络。两个网络生成器的两层下采样层及两层上采样层结构一致,边缘生成网络的特征提取部分由 8个堆叠排放的残差卷积块组成,纹理生成网络的特征提取部分则由8个多扩张卷积块5和1个注意力模块堆叠排列而成。注意力模块可对经过特征提取和推理的特征图像进行进一步的特征匹配,促进生成图像的全局一致性。在鉴别器的设计上,边缘生成网络的鉴别器选用传统的谱归一化马尔可夫鉴别器。纹理生成网络则由两层鉴别器构成,第一层鉴别器在原图尺寸上进行判定,第二层鉴别器则在下采样后的输出图像上进行判定。多扩张卷积块由四个并行工作扩张率分别为(1、2、4、8)的子内核构成,四个子内核的通过数均
12、为64。随后将来自四个子内核的输出特征在通道维度上进行拼接及特征融合,最后还需与门控值相乘,以此减轻 mask 中无效元素对特征提取过程的影响。值得注意的是,实验在确定扩张率的组合值时发现扩张率别为(1、3、6、9)的扩张卷积在处理 256256 的原始图像时输出效果略低于(1、2、4、8)。细节生成网络的鉴别器由于在两个尺度的输出图像中进行判定并传递损失值,因此可将其看作一个多任务学习过程,可由式(1)来表示:(1)2.2 注意力模块在细节纹理生成网络中具有多种扩张率融合的局部卷积核逐层处理图像特征,虽然可以在一定程度上扩大局部空间的感受野,但是对于从较远空间位置借用特征仍存在局限性。因此引
13、入了注意力机制,在网络特征提取后引入一个新的上下文注意层对经过修复的特征图谱进行注意力计算,使之能够利用全局信息进一步帮助解码器结构提高图像的视觉质量,特别是在进行大结构和长距离纹理模式图像计算时,效果尤为明显。注意力的计算原理为从已知的背景图块中找寻与当前位置关联度较高的图像特征信息以帮助生成缺失面片。并使用归一化内积(即余弦相似度)来度量二者(可表示为 Fi和 Fj)之间的相似关系,假设 表示以(ix,iy)和(jx,jy)为中心的特征块相似性,用于计算二者之间的亲和度。随后通过矩阵乘法计算 F 的加权平均形式为。最后,将 F 和 进行拼接并应用 11卷积层保持 F 的原始通道数。计算过程
14、如式(2)所示:(2)经实验验证,该注意力层可以放置在任何一层特征图输出层之后并对其进行匹配。然而,注意力计算量与输入特征图的尺寸关系密切且对 GPU 显存占用较大,因此本文只在编码器和特征提取的最后阶段使用注意力模块进行处理,该层的特征输出大小为 6464。我们在试验中也尝试在各解码层后对输出进行特征提取,但均发生 GPU 显存溢出的现象。2.3 损失函数设置EmmNet 网络中边缘网络的联合损失函数由平均绝对误差、特征匹配损失及对抗损失组成,如式(3)所示。纹理生成网络的联合损失函数则由平均绝对误差、风格损失、感知损失及对抗重建损失构成,如式(4)所示,其中 x表示损失函数对应的权重超参数
15、。二进制掩码边缘信息图灰度图 扩张卷积8Real/rake感知损失 边缘生成网络多扩张卷积块8Real/rakeReal/rakeL1损失风格损失重建损失 纹理生成网络DedgDim_2Dim_1完整边缘信息待修复图像边缘生成器纹理生成器 Attentionblock输入:HWH/2W/2H/4W/4HWH/4W/4H/2W/2H/2W/2HWH/2W/2HWH/2W/2输入:图 1 整体网络结构流程图99992023.062023.06第 11期 (3)(4)其中,特征匹配损失通过对比修复结果的特征图与原图特征图之间的差异返回损失值,以此提升边缘生成的准确度。感知损失的作用原理是对于生成的图
16、像不仅要关注像素层级上的重建效果,更要立足于图像的高层语义特征。风格损失函数计算生成图像和原图二者在预训练网络中第 i 层特征图谱对应的风格矩阵间(Gram 矩阵)的 l1 距离,并以此为依据约束生成图像的风格特征使之获得向原图靠近的效果。联合损失函数的设计既保证了生成内容的像素级精度,也在结构语义层级上给予约束。经过实验验证,超参数设置为 adv=0.1,fm=10,l1=1,perc=0.1,style=250。3 实验设置为了更有针对性地处理人脸去手势遮挡任务,我们在训练时采用了由 Voo 等人6提出的手势遮挡合成方法,用于生成符合日常生活场景下的手势遮挡效果。CelebA-HQ7数据集
17、中包含 3104 张高清人脸图像,也是实验训练中主要使用的人脸数据,11K Hands 数据集由 Afifi等人8提出,其中包含 11 076 张取自不同性别、不同年龄采集者的正反面手部照片,该数据集也是本文实验中的主要遮挡来源。在测试网络性能时我们进一步采用了由 Liu 等人9贡献的不规则掩码数据集。该数据集中包含 1.2104 张不规则掩码图像,其掩码区域占比从 10%扩大到 60%,以 10%的增量递增。为了实现数据增强,所有图像在进入网络参与训练前在垂直或水平方向进行随机翻转。本文实验均在大小为256256 的图像上进行。硬件设施为一块 RTX 3090 显卡及12 核 CPU,实验环
18、境为 Ubuntu 操作系统,Python 3.8.10,搭配 PyTorch 1.8.1 深度学习框架及 11.7 版本 CUDA。网络初始训练学习率为 10-4趋于收敛后调整为 10-5,批处理大小为 4,Adam 优化动量分别设置为 0 和 0.9。4 结果与分析4.1 定量分析为了更加公平地评价对比网络与本文网络的修复性能,我们采用普及面最广的 PSNR(峰值信噪比)、SSIM(结构相似性指数)、L1 误差以及 LPIPS(图像感知相似度)对各网络的生成结果进行测试。测试图像尺寸均为 256256,为了保证测试的公平性,实验使用在 Celeba_HQ 测试集中随机抽样的1 000张图片
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 边缘 先验 人脸去 手势 遮挡 修复 方法 研究 欧静
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。