基于生成对抗网络的半监督语义分割方法研究.pdf
《基于生成对抗网络的半监督语义分割方法研究.pdf》由会员分享,可在线阅读,更多相关《基于生成对抗网络的半监督语义分割方法研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、信息通信基于生成对抗网络的半监督语义分割方法研究吕阳阳2(1.三峡大学,计算机与信息学院,湖北宜昌4430 0 2;2.湖北省建筑质量检测装备工程技术研究中心,湖北宜昌4430 0 2)摘要:作为计算机视觉领域的一大热点和重要技术,图像语义分割在实现图像分割的基础上,增加了对图像的高层次语义理解。我们注意到,已有的基于生成对抗网络和半监督学习的图像语义分割中,对于处理场景复杂,具有多个对象等特殊图片时效果不佳。针对以上问题,文章提出一种新的基于生成对抗网络和半监督学习的图像语义分割模型,使用GAN作为网络主干,并在生成器引入双流注意力机制,使得模型能够辨别更深层次的语义信息,提高生成器分割精度
2、。实验结果表明我们的模型,在7 5%、50%、2 5%、12.5%四种不同的标签占比数据集上,都有了明显的性能提升。关键词:生成对抗网络;语义分割;双流注意力模型中图分类号:T391Semi-Supervised Semantic Segmentation Method Based on Generation Countermeasure Network(1.College of Computer and Information,Three Gorges University,Yichang,Hubei 443000,China;2.Hubei Construction Quality Tes
3、ting Equipment Engineering Technology Research Center,Yichang,Hubei 443000,China)Abstract:As a hotspot and important technology in the field of computer vision,image semantics segmentation increases thehigh-level semantic understanding of images on the basis of image segmentation.We have noticed tha
4、t the existing semanticssegmentation based on generation of antagonistic networks and semi-supervised learning does not work well with special pic-tures such as complex scenes,multiple objects,etc.To solve the above problems,this paper presents a new image semantics seg-mentation model based on the
5、generation of antagonistic network and semi-supervised learning.GAN is used as the backboneof the network,and a dual-stream attention mechanism is added to the generator to enable the model to distinguish deeper sem-antic information and improve the segmentation accuracy of the generator.The experim
6、ental results show that our model has asignificant performance improvement on datasets with 75%,50%,25%,12.5%different labels.Key words:Generative adversarial network,Semantic segmentation,Dual-stream attention mechanism0引言图像语义分割是计算机视觉领域的重大课题之一,图像语义分割和传统的分割任务不同,通常分割任务主要目的在于找出主体目标对象及其区域,类似于“抠图”。而语义分割
7、技术相比复杂很多,通常语义分割任务需要处理多个对象或者处理多个具有相同语义的对象其主要目的是为图像中每一个像素指定一个像素类。对于多数语义分割模型来说,输入一张需要分割的图像,会得到一张掩码图。每个掩码代表着不同的对象,为直观表现分割结果,通常把每个掩码对应不同颜色。经过多年发展,图像语义分割有着非常广阔的应用前景(自动驾驶2 7 、医学图像处理36 8.、卫星图像处理5,12 等)。如今基于深度学习的全监督学习语义分割方法中FCN4是最受欢迎的研究之一。虽然FCN模型在许多语义分割任务中表现良好,但多数任务需要大量像素级标注数据进行训练。为减轻数据标注的任务量,我们引入了以GAN(Gener
8、ativeAdver-sarialNetwork)为框架的半监督图像语义分割方法,从而通过从不同尺度的特征图中学习判别模式,来实现语义分割的效果。同时,为了在保证模型对于特征关键部分的提取和强调能力的前提下获得更强的灵活性,我们对于网络结构也进行了一定的调整。具体来说,我们选用Deeplabv3+4作为模型GAN的生成器,在其编码器和解码器之间,增加了一个双流注意力机制,即基于位置的注意力模块和基于通道的注意力模块。其中,基于位置的注意力模块可以捕获特征图的任意两个位置之间的空间依赖,基于通道的注意力模块可以利用所收稿日期:2 0 2 3-0 2-2 6作者简介:吕阳阳(198 8-),男,山
9、东聊城人,研究生,硕士,主要研究方向:深度学习与图像处理。732023年第0 5期(总第2 45期)文献标识码:A文章编号:2 0 9 6-9 7 59(2 0 2 3)0 5-0 0 7 3-0 5LV Yangyang?有相关位置的空间信息,来建模通道的相关性,维持不同通道之间的映射关系。1相关工作作为计算机视觉领域的一大热点和重要技术,图像语义分割在实现图像分割的基础上,增加了对图像的高层次语音理解。根据是否需要标签以及标签的数量,语义分割可以分为全监督学习、半监督学习和弱监督学习等类别。1.1基于全监督学习的语义分割基于全监督学习的语义分割的代表研究包括全卷积网络族(Fully Con
10、volution Networks、FCNs)1314.1,U-Ne t l 7 等。其中,FCNs一般采用编码器-解码器结构,前者通常是某一个预训练的网络框架(VGG、Re s Ne t 等),而解码器则负责将编码器学习到的特征从高维度空间映射到图像像素上。通过用卷积层替换CNN中的全连接层,FCNs不仅可以处理任意维度的输入图像,同时由于其使用了反卷积进行上采样,使其在处理中间数据时,可以将维度对齐到输入维度,不会因为一步步卷积而减小分辨率,从而导致细粒度信息的缺失。SegNet创造性地在解码器的结构上引入了池化索引来实现上采样,使得高频的细节特征得到了更好的保留。而U-Net正如他的名字
11、一样,整体的网络结构是一个U型的,由一个捕获上下文信息的收缩路径,和一个对称的拓展路径组成。得益于少量的参数和网络深度,U-Net的计算速度非常快。1.2基于半监督学习的语义分割文献18 使用CNN对分类和分割两个任务做了解耦,以Changjiang Information&Communications便利用图像级和像素级标注信息对分类和分割分别进行训练。自我监督118,19 是较早被提出的半监督学习方法之一,文献2 0 即提出了一中新的混合匹配(mix-and-match)的方法进行数据增强并实现预训练。在CNN的基础上,R-CNN12创造性地结合了区域投票和CNN框架,同时实现了目标检测和
12、语义分割。其核心在于引入了一个支持向量机(SVM),来对CNN的输出进行分类,然后对每个区域进行投票,这样的缺点在于非常费时间。因此,更多基于R-CNN的半监督模型也相继被提出,其中不乏FasterR-CNN22和MaskR-CNN23这样著名的模型。1.3基于弱监督学习的语义分割弱监督方法存在多种不同级别的监督,其中基于图像级别的标注是监督力度最弱的一种方法。虽然弱监督训练出来的模型与全监督,半监督训练的模型存在不小的差距,不过其泛化能力会更强。文献2 4 使用了一个从简单到复杂的三层网络框架,第一层是初试DCNN,第二层是增强 DCNN,第三层是更强的DCNN。随着网络深度的增加,模型的分
13、割性能也得到了提升,但响应的,消耗了大量的时间和资源。文献2 5 同样也是在 DCNN上进行的改进,使用 Hypotheses-Cnn-Pooling(HCP)来评估分类得分,同时使用了一种新的交又熵损失。1.4 对抗性学习文献2 6 等提出了一种学习生层生成模型的对抗性方法,他们的GAN从固定的(高斯)分布中获取样本,并通过确定性可微深度网络将该样本转换为训练样本的分布。对抗性网络用语定义一个损失函数,以巧妙避开了明确评估或近似函数的需要。该模型被训练成最佳地区分来自经验数据分布的样本和来自深度生成模型的样本。同时,生成模型也被训练,以最小化判别器的准确性。在后续工作中,文献2 7 提出了许
14、多能够稳定地合成真实图像的生成模型,他们使用了深度反卷积网络,通过上采样逐步地构建图像。文献2 8 也使用拉普拉斯金字塔训练一系列GAN模型,能够生成细节更加精细的图像。文献2 9 考虑了图像修复的问题,其中图像的缺失部分必须从观察部分预测,与语义分割密切相关。其以输入图像为条件确定地产生标签概率,结合回归损失和对抗性损失两项,以解决逐像素回归可能导致的模糊问题(因为逐像素回归不适用于输出中的高阶正则性)。一些作者已经表明,卷积分类网络产生的图像,可以通过人类无法察觉的方式,操纵自然图像或非自然图像来合成。这与GAN有关,因为他们试图通过干扰CNN的输入来降低CNN性能。在GAN中,这些干扰通
15、过生成网络进一步被反向传播,以提高生成器性能。2研究方法本研究采用生成对抗网络进行半监督语义分割,网络模型主要由生成器和判别器组成,生成器为分割网络,判别器评估生成的分割图与原图的差异性。2.1生成器生成器部分,我们使用了wide-dropout结构,以减少网络深度,同时增大网络宽度,这样可以避免梯度消失的问题,同时由于网络更宽,模型能够学习更多维度的特征,一定程度上增加了表征能力。同时,生成器部分引入了Deeplabv3+网络,该网络将空间金字塔池化模块引入到深度神经网络中。以往的研究多是通过对输入的特征图使用多尺度的卷积核或池化,以及多种感受吕阳阳:基于生成对抗网络的半监督语义分割方法研究
16、野,才能够编码出多尺度的环境信息。但Deeplabv3+能够将多尺度特征和恢复空间信息相结合,虽然仅仅是在Deeplabv3的基础上加入了解码器模块去细化分割效果,但进一步探索了Xception模型并且将深度可分离卷积应用在空洞空间金字塔池化以及解码器模块中,从而构造出了更快和更强的encoder-de-coder网络。相比传统卷积,空洞卷积扩大了感受野,使其能够检测分割更大的实例目标,另一方更高的分辨率也提高了目标定位的精准性。同时,空洞卷积可以捕获多尺度的上下文信息。空洞卷积是一个能够有效控制深度神经网络输出特征图分辨率的工具,同时能够调整卷积核的感受野从而捕获多尺度信息,是标准卷积的一个
17、拓展。在一个二维卷积中,对于卷积输出的特征y上的每一个位置i以及对应的卷积核,输入x,空洞卷积的计算如下:K-1xi+r wKk=0Deeplabv3+的编码器主体是一个DCNN,输出层利用一个11卷积替换全连接层,这样一来,能够融合多通道的特征知识,增强特征的非线性表达。在解码器上,对压缩两次的初步有效特征层利用11卷积调整通道数,再和编码器的输出上采样结果进行堆叠,完成后,进行两次深度可分离卷积,得到整个输入的特征浓缩,再经过一个11卷积后,经上采样得到最后与输入同样分辨率的结果。Deeplabv3+使用了空洞卷积去对深度神经网络输出的任意分辨率进行特征提取。这里使用输出步长(output
18、 stride)表示模型输入图像和输出的特征图(在全局池化或全连接层之前)的空间分辨率的比值。对于分类任务,最终特征图的空间分辨率往往是模型输入图像的1/32,因此输出步长为32。对于语义分割任务来说,通过移除网络最后1到2 个模块的步长以及相应地使用空洞卷积(例如对最后两个网络模块采用空洞率为2 和4的空洞卷积,从而实现输出步长为8)从而减小整个模型的输出步长从而达到输出步长为8 或16,这样就能够提取到更稠密的特征。此外,Deeplabv3+增加了带有图像级别特征的空洞空间金字塔模块(ASPP),空间金字塔模块(A SPP)能够通过不同的空洞率获取多尺度卷积特征。原始Deeplabv3+的
19、logits模块之前最后输出的特征图作为本文编码器部分的输出。需要注意的是,编码器输出的特征图包含256个通道以及丰富的语义信息。除此之外,根据计算能力可以采用空洞卷积在任意分辨率的输入上提取特征。Deeplabv3+作为编码器输出的features通常输出步长为16,在之前的研究工作中,特征图通过双线性插值上采样16 倍来将输出特征图恢复为模型输入尺寸,可以将其看作是一个简单的解码器模块。然而,这种简单的解码器模块可能并不能够很好地恢复物体分割细节。因此提出了一个简单但是有效的解码器模块,编码器输出的特征首先进行4倍的双线性插值上采样,然后和编码器中backbone中拥有相同尺寸的低级别(浅
20、层)特征(例如Resnet-101的Conv2模块的输出)进行通道维度的拼接,在拼接之前首先对低级别特征进行11卷积,目的是为了减小低级别特征的通道数目,因为低级别特征通常含有大量的通道数目(例如2 56 或512),这样低级别特征的重要性可能会超过编码器输出的富有语义信息的特征(在本文模型中只有2 56 个通道),并且使得训练更加困难。在将编码器输出特征和低级别特征拼接之后,对拼接结果进行了几个33卷积操作去细化特征,并随后又接了一个4倍的双线性插值上采样。74(1)Changjiang Information&Communications之后的实验证明,当编码器的输出步长为16 时可以达到
21、速度和精度的最好的权衡。当编码器的输出步长为8 时模型效果略有提升,但也相应增加了额外的计算复杂度代价。在Deeplabv3+原有的基础上,我们将其backbone替换为wrn38,其中wrn38的bottleneck为Wide-dropout结构。此前研究表明,一味地增加网络结构深度,并不能总是带来明显的性能提升。因此不少研究将注意力放在了模型网络的宽度(维度)上,希望通过捕捉不同通道,不同尺度的特征信息,提高模型性能。WideResNet(WRN)在BasicResNet的基础上增加了数据宽度,wide-dropout在WideResNet的基础上增加了Dropout,因为WRN会带来更多
22、的参数,因此需要Dropout起到一个正则化的作用。具体用到的层包括Dropout和BN。为进一步提升生成器捕捉不同维度特征的能力,我们在Deeplabv3+的编码器和解码器之间,增加了一个并行的双流注意力结构,基于位置的注意力模块和基于通道的注意力模块。基于位置的注意力模块,首先对输入的特征图ACH*W进行3次卷积,得到三个特征图BcHW,ccHwW,DcHW,并将其转换到CxN的维度,其中N为像素的数量。在将特征图B和C的转置相乘后,通过Softmax得到空间注意力图sNN,其每个元素Sj.公式(2),表示位置i对位置j的影响。其通过一个Softmax直接将参数概率化,其输出越大,则更加可
23、信,两个位置之间的依赖也更强,具备很高的可解释性。exp(B,c,)Sit=ZA-1exp(B,c,)基于通道的注意力机制则使用自注意力机制来捕获任意两个通道图之间的通道依赖关系,并使用所有通道图的加权和来更新每个通道图。每个高维度特征的通道图都可以看作是一个特定于某一类的响应,通过挖掘通道图之间的相互依赖关系,可以突出相互依赖的特征图,提高特定语义的特征表示。具体来讲,首先对输入的通道图分别做Reshape和Trans-pose 处理,得到CxN和NxC的两个特征图,经过相乘后,再通过一个Softmax得到通道注意力图XERc。将X与A做乘积再乘以尺度系数再转换到原来输入的维度CxHW,最后
24、加上输入A得到最终输出E。其中被初始化为0,逐渐从学习中分配更大的权重。X中每个元素X,如公式(3),表示通道i对通道j的影响。E中的每一个元素E,如公式(4)所示,其中为尺度因子,x为x的元素(权重),A,为A的元素。Xiu=ZF-1exp(AvA,)E,=Z(iuA.)+A,=12.2判别器在GAN的判别器部分,我们对PatchGAN进行改造,结合Skip-connection结构,融合高低语义特征,提高判别器网络对真假语义分割图的判别能力。原始GAN的判别器的设计是仅输出一个评价值,该值是对生成器生成的整幅图像的一个评价。而PatchGAN的设计成全卷积的形式,图像经过各种卷积层后,并不
25、会输入到全连接层或者激活函数中,而是使用卷积将输入映射为NxN矩阵,该矩阵等同于原始GAN中的最后的评价值用以评价生成器的生成图像。NxN矩阵中每个点(trueorfalse)即代表原始图像中的一块小区域(这也就是patch含义)评价值,这也就是感受野的应用。原来用一个值衡量整幅图,现在使用NxN的矩阵来评价整幅图,75吕阳阳:基于生成对抗网络的半监督语义分割方法研究显然后者可以关注更多的区域,这也就是PatchGAN的优势。3实验结果与分析本章节中,我们在Cityscapes数据集上,将本模型与已有的优秀模型15 进行了对比实验。实验按照带标签样本占总样本数的比例分为四组,分别是7 5%、5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 生成 对抗 网络 监督 语义 分割 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。