结合注意力机制的HRNet图像语义分割算法.pdf
《结合注意力机制的HRNet图像语义分割算法.pdf》由会员分享,可在线阅读,更多相关《结合注意力机制的HRNet图像语义分割算法.pdf(5页珍藏版)》请在咨信网上搜索。
1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第10期总第338期文章编号:1006-2475(2023)10-0065-05收稿日期:2022-11-20;修回日期:2022-12-09基金项目:重庆市技术创新与应用发展重点项目(cstc2019jscx-mbdxX0061)作者简介:叶思佳(1998),女,重庆忠县人,硕士研究生,研究方向:图像语义分割,E-mail:;通信作者:魏延(1970),男,四川泸县人,教授,硕士生导师,研究方向:教育大数据,E-mail:;杜韩宇(1997),男,安徽宿州人,硕士研究生,研究方向:图像暗光增强,E-mail:;邓金枝(199
2、5),女,四川南充人,硕士研究生,研究方向:文本生成图像,E-mail:。0引 言语义分割1-2是计算机视觉领域中常见的任务之一,让计算机理解图像的信息,根据图像的信息来为每一个像素点进行分类,不同类别信息的像素点用不同的颜色区分开,语义分割本质是一种像素级的空间密集型预测任务。语义分割在地理信息系统3-4、无人车驾驶5-6、医疗影像分析7-8等领域都有着广泛的应用。目前语义分割领域依旧面临许多挑战,如分割精度不够、小尺度目标丢失、分割不连续等问题。传统的语义分割方法通常是根据图像自身的低阶视觉信息来提取特征图,这种提取的方式特征图辨别性低从而影响分割精度。传统的语义分割算法主要包括阈值分割9
3、、边缘分割10、聚类分割11-12等。目前语义分割领域中主流的是基于深度学习的方法。和传统方法相比,基于深度学习的图像语义分割能更好地提取图像的特征。基于深度学习的图像语义分割网络结构主要包括 3 种,即基于编解码的网络结构、基于空间金字塔的网络结构和基于多分支的网络结构。在编解码网络结构中,通过编码器取得低分辨率图像,得到图像的抽象的语义信息,通过解码器取得高分辨率图像,得到像素级预测结果。典型编码器-解码器结构的网络主要有全卷积神经网络FCN13、U型网络U-Net14以及SegNet15网络。空间金字塔网络结构就是在图片特征提取过程当中形成多个不同分辨率的特征图,再将不同分辨率的特征图进
4、行融合,提高模型表征特征的能力。空间金字塔结构的实现目前主要分为2种:一种是通过改变各分支结合注意力机制的HRNet图像语义分割算法叶思佳,魏延,杜韩宇,邓金枝(重庆师范大学计算机与信息科学学院,重庆 401331)摘要:目前主流的语义分割算法中依然存在小尺寸目标丢失、分割不精确等问题,针对这些问题本文基于HRNet网络模型进行改进,融入注意力机制生成更有效的特征图,对于原模型中低分辨率图像直接向高分辨率图像融合而产生的特征图细节不足的问题,提出多级上采样机制,让不同分辨率图像之间的融合方式更平滑从而得到更好的融合效果,同时使用深度可分离卷积减少模型的参数。本文模型全程保持了图像较高的分辨率,
5、保留了特征图的空间信息,提升了对小尺寸目标的分割效果。在PASCAL VOC2012增强版数据集上的mIoU值达到80.87%,和原模型相比,精度提升了1.54个百分点。关键词:图像语义分割;注意力机制;高分辨率;深度可分离卷积中图分类号:TP391文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.10.010HRNet Image Semantic Segmentation Algorithm Combined with Attention MechanismYE Si-jia,WEI Yan,DU Han-yu,DENG Jin-zhi(College of
6、 Computer and Information Science,Chongqing Normal University,Chongqing 401331,China)Abstract:The current mainstream semantic segmentation algorithms still have problems such as loss of small-sized objects andinaccurate segmentation.In response to these problems,this paper improves the HRNet network
7、 model and integrates the attention mechanism to generate more effective feature maps.To address the problem of insufficient detail of the feature map caused bythe direct fusion of the low resolution images to the high-resolution images in the original model,a multi-level upsamplingmechanism is prop
8、osed to make the fusion between images of different resolutions smoother to achieve better fusion results,andthe depth separable convolution is used to reduce the parameters of the model.The model in this article maintains a high resolution of the image throughout the entire process.The spatial info
9、rmation of the feature map is improved,and the segmentation effect of small-sized objects is improved.The mIoU value on the PASCAL VOC2012 enhanced dataset reaches 80.87%,and theaccuracy is improved by 1.54 percentage points compared with the original model.Key words:image semantic segmentation;atte
10、ntion mechanism;high resolution;depthwise separable convolution计算机与现代化2023年第10期的输入分辨率来捕获多尺度语义信息,如PSPNet16、PANet17;另外一种是改变各分支卷积层的方式来提取多尺度语义信息,如DeepLab18-21系列。以上2种网络结构在进行特征提取时都会经过一系列的下采样过程,大量的下采样和池化操作会使特征图由原先的输入图像大小(H,W)慢慢变成(H/16,W/16)甚至更小,这就会丢失掉原有分辨率的空间位置信息,导致空间和细节信息丢失。这个问题对于图像语义分割这种基于像素点的分类任务来说影响很大,
11、因为特征图难以单独学习到下采样过程中丢失了的像素信息。基于多分支的网络结构能缓解下采样过程中像素信息丢失这一问题。多分支网络结构是将输入图像分别送入多个分支,每个分支具有不同的输出分辨率,由于网络过程中全程保持了图片分辨率比较高的分支,即保留了图片的空间信息和细节信息。HRNet22是一个典型的多分支网络结构,网络全程保持了较高分辨率的特征图,这也让其在像素级分类领域中有着更好的效果。为了改善目前分割算法中小目标丢失、精度不够等问题,本文基于HRNet网络模型进行改进。首先,针对不同分辨率的特征图,本文引入不同的注意力机制23-25(Attention Mechanism),得到更多有效的图像
12、特征信息。其次,本文通过使用深度可分离卷积26的方式减少参数、加速模型的训练。同时,本文提出用多级上采样机制替代原模型的上采样方式,得到更好的融合结果,提高了分割的准确度。1相关研究1.1HRNet网络模型HRNet是中科大和微软研究院提出的针对人体姿态检测的一个网络模型。不同于特征提取过程中常会用的下采样再上采样的方法,HRNet让网络在学习过程中全程保持了一个高分辨率,HRNet的结构如图1所示。从图1中可以看出HRNet网络的2个关键特点:1)高分辨率和低分辨率并行连接,同步推进;2)高低分辨率图之间不断地交换信息。高分辨率图的存在使得空间上更加精准,低分辨率图的存在使得语义上更充分。该
13、网络由4个阶段组成,通过反复的交换平行流中的信息来进行多分辨率的融合。HRNet是在低分辨率的帮助下,多次融合高分辨率。图1HRNet模型结构1.2注意力机制2014年注意力机制提出后在深度学习中得到了广泛的使用。注意力机制其本身是符合人类的感知机制的,人们在观察一个新事物的时候,会自然地对该事物重要的区域给予更多的关注,再将其他区域的信息进行一个整合从而得到一个整体的印象。在深度学习中,模型的参数越多表示其存储的信息越丰富,通常来说模型的效果也就越好,但会占用更多的内存空间,可能会使得模型难以训练。所以本文引入注意力机制,这样模型会在大量的信息中找出对于当前这个任务更为关键的信息并且给予这些
14、信息更高的权重,减少无关信息的权重,有利于提高处理任务的速度,加快模型的训练。普通模式的注意力机制总的可以分为2种,软性注意力和硬性注意力。由于硬性注意力机制选择信息的方式不能进行求导,无法在深度学习中利用反向传播来进行训练,所以在深度学习中为了能够训练模型一般使用软性注意力。软性注意力是像素级的,目的是找出对于当前任务重要的像素点并给其赋予更高的权重。1.3深度可分离卷积对于常规卷积来说,原始图像大小是1212,有3个通道,即 shape 为 12123,经过 55 卷积核,输入图像有3个通道,所以卷积核也应该有3个通道。每经过一个这样的卷积核会产生一个通道的特征图,假设最后需要三通道的特征
15、图,则需要3个这样的卷积核,这时普通卷积的参数量是 5533=225,如图 2(a)所示。与常规卷积不同,深度可分离卷积分为2步,首先进行通道分离,然后再进行通道的上升。用3个551的卷积对3个通道分别做卷积使其图像的通道分离,再用113的卷积对3个通道再次进行卷积就得到了一个881的特征图,最后的特征图是三通道的,所以需要3个这样的卷积核,此时参数量是553+1133=84,如图2(b)所示。深度可分离卷积的使用减少了模型的参数量,缩短了模型训练的时间。(a)普通卷积(b)深度可分离卷积图2普通卷积和深度可分离卷积2结合注意力机制的图像语义分割算法2.1总体框架本文在 HRNet22网络模型
16、的基础上,使用深度可分离卷积,减少模型的参数,提高训练的速度。其次对经过HRNet所产生的4个不同分辨率的特征图都让其经过了一个空间注意力机制(Spatial Attention mechanism,SA)。SA的使用让模型在进行特征提取时对图像空间尺度上重要的特征给予更多的关注。在上采样阶段,受多尺度认知机制的启发,本文提出一种多级上采样机制的方法,从最低分辨率特征55312312383812312383883883815115131662023年第10期图开始,两两进行融合,直到融合到最高分辨率特征图为止。并且在上采样过程当中,使用了BiCubic插值算法,该算法能生成边缘更平滑的特征图,
17、有利于后续提高分割的精确度。本文将上采样后得到的特征图经过一个高效的通道注意力机制(EfficientChannel Attention,ECA)。ECA 的使用让模型在进行特征提取时对重要的通道信息赋予更高的权重。本文改进的网络模型如图3所示。图3本文改进的网络模型2.2结合注意力机制的HRNet算法2.2.1SA空间注意力在神经网络中,通常来说浅层网络的图像特征会存在图像的背景特征信息,若这时直接将图像特征进行上采样,会影响图像分割的效果。针对这一问题,本文采用空间注意力机制,空间注意力是在图像的空间尺度上关注哪里的特征是有意义的,对空间上重要的图像特征给予更高的权重。如图4所示,首先对特
18、征图在通道上进行压缩,特征图的长度和宽度不变,通道数压缩为1,再让其分别经过最大池化和平均池化,将这2个池化结果拼接在一起后让其经过卷积层和激活函数。图4空间注意力机制Ms(F)=(f7 7(AvgPool(F);MaxPool(F)=(f7 7(Fsavg;Fsmax)(1)式中,Fsavg和Fsmax大小为1 H W,表示sigmoid函数,f77表示一个大小为77的卷积运算。最后将Ms与输入的特征F相乘,将该权重应用到原来的每个特征空间上,便得到经过空间注意力机制的新特征。2.2.2ECA通道注意力对于特征图来说,有2个方面的特征表示,一个是图像的空间尺度,另一个是图像的通道尺度。图像特
19、征的每一个通道都代表着一个专门的检测器,通道注意力机制会对当前任务重要的通道分配更高的权重,简单并且有效。不同分辨率特征图融合之后,本文让其通过一个ECA通道注意力机制,其结构如图5所示。首先在空间尺度上进行特征压缩,平均池化后空间大小变成11,特征图的通道数不变,然后再让其经过一个自适应大小为55的卷积和一个激活函数,就可以得到通道维度上注意力的权重MC。图5通道注意力机制MC(F)=(f5 5(AvgPool(F)=(f5 5(Fsavg)(2)k=(C)=|log2(C)+b(3)式中,Fsavg大小为1 1 H,表示sigmoid函数,k代表计算出的自适应卷积核的大小,和b分别设为2和
20、1,f55表示一个大小为55的卷积运算。最后将得到的权重MC与输入的特征图F相乘,便得到经过通道注意力机制的新特征。2.2.3多级上采样机制上采样是语义分割领域中一个重要的环节,原HRNet使用的是bilinear算法进行上采样,该算法会使特征图的高频分量受损,这会影响特征图像轮廓的清晰度,所以本文使用BiCubic双三次插值算法来进行上采样。原HRNet网络中不同分辨率的特征图进行融合的方式是将低分辨率的图像直接上采样到最高的分辨率,然后再进行融合。但这种简单、直接的融合方式会影响特征图的质量,所以本文提出一种多级上采样机制的方法,按照特征图分辨率从低到高的顺序,两两依次进行融合,如图6所示
21、。这种更加平滑的上采样方式改善了融合结果,提高了特征图质量,并且可以产生更加清晰的特征图边缘,有利于提高分割精确度。图6多级上采样机制3实验结果与分析3.1数据集及实验参数配置本文实验采用的是PASCAL VOC2012增强版数据集,由 PASCAL VOC201227数据集和 SBD数据集合并而成,包括人、飞机、船、摩托车、沙发等20个类别,加上1个背景类别,总共21个类别,不同类别的像concatconcatconcatSA输入输出ECASASASAHRNet+DSConv?MaxPool,AvgPool?sigmoidconv layerSpatial AttentionWHCGAPAd
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结合 注意力 机制 HRNet 图像 语义 分割 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。