深度卷积神经网络语义分割综述.pdf
《深度卷积神经网络语义分割综述.pdf》由会员分享,可在线阅读,更多相关《深度卷积神经网络语义分割综述.pdf(10页珍藏版)》请在咨信网上搜索。
1、引用格式:马文琪,石颉,吴宏杰深度卷积神经网络语义分割综述 J.微电子学与计算机,2023,40(9):55-64MA W Q,SHI J,WU H J.Survey on semantic segmentation using deep convolutional neural networksJ.Microelectronics&Computer,2023,40(9):55-64.DOI:10.19304/J.ISSN1000-7180.2022.0825深度卷积神经网络语义分割综述马文琪1,石颉1,吴宏杰2(1 苏州科技大学 电子与信息工程学院,江苏 苏州 215009;2 江苏省建筑智
2、慧节能重点实验室,江苏 苏州 215009)摘要:得益于深度卷积神经网络在特征提取和语义理解的强大能力,基于深度神经网络的语义分割技术逐渐成为计算机视觉研究的热点课题.在无人驾驶、医学图像,甚至是虚拟交互、增强现实等领域都需要精确高效的语义分割技术.语义分割从图像像素级理解出发,为每个像素分配单独的类别标签.针对基于深度神经网络的语义分割技术,根据技术特性的差异,从编码-解码架构、多尺度目标融合、卷积优化、注意力机制、传统-深度结合、策略融合方面展开,对现有模型的优缺点进行梳理和分析,并当前主流语义分割方法在公共数据集实验结果进行对比,总结了该领域当前面临的挑战以及对未来研究方向的展望.关键词
3、:深度学习;语义分割;卷积神经网络;计算机视觉中图分类号:TP391.41 文献标识码:A 文章编号:1000-7180(2023)09-0055-10Survey on semantic segmentation using deep convolutionalneural networksMA Wenqi1,SHI Jie1,WU Hongjie2(1 Suzhou University of Science and Technology,Suzhou 215009,China;2 Jiangsu Provincial Key Laboratory of Building Intellig
4、ent Energy Conservation,Suzhou 215009,China)Abstract:Benefiting from the powerful ability of deep convolutional neural network in feature extraction and semanticunderstanding,semantic segmentation technology based on deep neural network has gradually become a hot topic incomputer vision research.Acc
5、urate and efficient semantic segmentation techniques are needed in the fields of unmanneddriving,medical images,virtual interaction,augmented reality and so on.Semantic segmentation starts from pixel-levelunderstanding of the image and assigns a separate category label to each pixel.Aiming at the se
6、mantic segmentationtechnology based on deep neural network,according to the differences in technical characteristics,the advantages anddisadvantages of existing models are sorted out and analyzed from the aspects of encoder-decoder architecture,multi-scaletarget fusion,convolution optimization,atten
7、tion mechanism,traditional-deep combination,and strategy fusion.The currentmainstream semantic segmentation methods are compared in the experimental results of public datasets.Finally,the currentchallenges and future research directions in this field were summarized.Key words:Deep learning;Semantic
8、segmentation;Convolutional neural network;Computer vision 收稿日期:2022-12-07;修回日期:2023-01-08基金项目:国家自然科学基金项目(62073231)40 卷 第 9 期微 电 子 学 与 计 算 机http:/Vol.40No.92023 年 9 月MICROELECTRONICS&COMPUTERSeptember 2023 1引言图像语义分割技术是指根据图像的灰度、色彩、纹理等特征,为图像中的每个像素分配单独的类别标签,使图像被分割成若干视觉意义上的特定的、具有独特性质的区域1.随着智能化生活的推进,语义分割技
9、术在无人驾驶、医学图像处理、视频监控,甚至是虚拟交互、增强现实等领域都发挥着日益重要的作用.传统语义分割方法包括基于阈值1-3、候选区域4-6、边缘检测7-9、聚类10-12、图论13-15等利用数学理论,以及使用纹理基元森林16或者随机森林17等机器学习方法来构建像素分类器.但由于硬件设备的计算能力有限,传统方法在分割图像的颜色、形状、纹理等低级语义特征时效率较低、分割时间较长,并且难以识别相互遮挡的物体,导致分割精度较低.随着硬件性能的升级和深度学习的兴起,深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)18强大的分析与处理能力日益突出.2
10、015年 Long 等人提出全卷积网络(Fully ConvolutionalNetworks,FCN)19,将 DCNN 应用于语义分割,从此语义分割正式进入以 DCNN 为主的发展时代,能够以端到端的训练方式在图像语义层面提取并学习图像特征,使网络主动推理每个像素的语义信息并分类,获得更高的分割精度和计算效率.现有的语义分割相关的综述文献 20-22,对整个语义分割领域进行了全面的概述性介绍,涵盖了早期几乎所有流行的语义分割方法和多维的数据模式;文献 23-24,针对语义分割模型训练数据集质量参差不齐的问题,从全监督和弱监督的训练方式进行分析.为了更好的分析当前深度神经网络语义分割的发展情
11、况,本文基于技术特性的不同对该领域的发展情况进行补充和丰富,并分析了每类技术的优缺点,并在常用数据集上对比各模型的实验结果.最后讨论了该领域当前及未来发展亟待解决的问题.2深度卷积神经网络的语义分割技术深度卷积神经网络语义分割是指利用 DCNN 学习预先标注好的图像数据集,并利用学习到的语义特征进行像素级的分类.常用的 DCNN 包括首次尝试分组卷积的 AlexNet25、利用小卷积核替代大卷积核的 VGGNet26、使用多个不同尺寸卷积核的GoogleNet27、利于更深层网络训练的残差网络ResNet28、卷积同时考虑图像特征区域和通道的Xception29.由于 DCNN 中最大池化和下
12、采样操作使得图像尺寸随网络加深而减小,导致细粒度信息的丢失.为此研究者们针对以上问题提出了不同的解决方法.本文依据技术特性将其分为:编码-解码架构、多尺度目标融合、卷积优化、注意力机制、传统-深度结合、策略融合,分析并总结了每类方法的优缺点,具体如表 1 所示.2.1编码-解码架构为了解决池化操作造成的特征细节丢失的问题,研究者们引入由编码器和解码器组成编码-解码架构.编码器利用多个卷积和池化操作,提取浅层的位置特征和深层的语义特征;解码器利用上采样操作恢复图像的细节和空间信息.2015 年 Noh 等人30提出对称的编码-解码架构的语义分割模型 DeconvNet 学习图像的语义特征,但该模
13、型中参数过多的全连接层会增加模型训练难度.为此,Badinara 等人31提出架构相似且去除全连接层的 SegNet 网络,在获得更高精度的同时节省训练内存.为了解决深层级像素的位置信息易丢失的问题,提高分类边界置信度,Ronneberger 等人32提出架构对称的网络 U-Net,利用跳层连接将对应层级的特征相连,充分融合浅层细节与深层语义.但 U-Net 的卷积过程中没有 padding 操作,使输入与输出大小不同,且只能处理 2D 图像.为此 Milletari 等人33在适当使用 padding 操作,提出可用于 3D 图像分割的网络 V-Net.U-Net+34和 U-Net3+35
14、同样优化 U-Net,可以更充分的捕获全尺度细粒度语义和粗粒度语义的特征.由于对称结构参数较多,实时性较差的问题,Arani 等人36设计了非对称架构的实时语义分割网络 RGPNet,简化解码器规模,并结合适配器保存和细化多级信息,兼顾实时性和精度.Wang 等人37提出编码器较大、解码器较小的轻量级模型 LEDNet,编码器使用 ResNet 提取特征,利用新的残差模块,减小网络规模;解码器中引入注意力金字塔提取更加丰富的特征,降低网络的复杂度.Romera 等人38提出架构更简化的 ERFNet,编码器交错使用空洞卷积获取更多的语义信息;解码器包含上采样操作和大量的深度可分离卷积,极大的减
15、少网络的参数.56微电子学与计算机2023 年 表 1 图像语义分割代表方法分析与总结Tab.1 Analysis and Summary of Image Semantic Segmentation methods技术特性代表算法时间主要特征优点缺点编码-解码架构DeconvNet302015对称架构;最大池化激活值;转置卷积层稠密特征避免深度神经网络因池化造成的特征细节丢失的情况;解码网络能有效恢复目标的特征维度和空间信息目标边界信息提取不清晰;计算参数量较多;分割精度欠佳,不满足实际工程SegNet312016对称架构;去除全连接层U-Net322015对称架构;跳跃连接LEDNet37
16、2019非对称架构;通道分离和混洗操作RGPNet362022轻量级解码器;适配器融合编码器和解码器信息ERFNet382018非对称架构;残差链接多尺度目标融合PSPNet402017特征金字塔结构,多尺度特征融合充分利用图像的多尺度特征,改善特征提取的粗糙结果;融合全局上下文语义特征部分边界信息丢失;需要辅助模块做处理ForkNet412022孪生特征金字塔网络文献422021纹理增强模块;金字塔纹理特征提取模块RefineNet432016多路径细化不同尺度特征BiSeNet442018细节分支和语义分支两路分支结构卷积优化DeepLabv1462016空洞卷积;完全连接的条件随机场作为
17、后处理扩大特征提取感受野;保护特征位置语义信息性能较普通卷积欠佳;局部信息连续性略差DeepLabv2472017不同速率的空洞卷积;空洞空间金字塔池化DeepLabv3482017可级联和并行使用的空洞卷积模块DeepLabv3+492018深度可分离卷积模块文献502018分解卷积;平滑空洞卷积文献512018密集上采样卷积;混合扩展卷积注意力机制PSANet532018自适应注意力掩码机制突出主体目标特征,使模型有效提取上下文重要特征不易捕获特征位置信息;计算量较大DANet542019双向注意力机制文献552020交叉路径注意力模块文献562022注意力聚合模块OCNet572021自
18、注意力机制传统-深度结合文献582015结合马尔科夫随机场充分利用全局上下文特征语义信息和位置信息计算量大,内存消耗大,实时性差CRFasRNN602016结合条件随机场Graph-FCN612020结合图网络模型文献622021结合区域感知学习CEU-Net632022结合聚类算法文献642022结合边缘检测多策略融合文献652020编码-解码架构;可变注意力金字塔捕获上下文有利特征,减少计算量和内存消耗主要目标部分边界信息丢失文献662022编码-解码架构;空间金字塔;通道注意力;边缘检测ReSTR682022自注意力机制;多模态融合编码器PCANet692020金字塔卷积注意力网络第 9
19、 期马文琪,等:深度卷积神经网络语义分割综述57 2.2多尺度目标融合深层语义特征预测效果好,但分辨率低、细节丢失严重;浅层语义特征分辨率高、细节丰富,但语义类别预测效果差.因此许多研究者利用不同层的信息差异性,融合多尺度信息补充分割细节.最常见的多尺度目标融合方式是特征金字塔结构(Feature Pyramid Network,FPN)39,通过多次采样使不同大小的目标在不同尺度有相应的特征表示,再融合不同尺度信息预测不同大小的目标.Zhao 等人40提出金字塔场景解析网络 PSPNet,能够融合四个不同尺度的特征信息,在捕获上下文语义信息的同时保持全局特征的权重,并能够在不增加计算量的情况
20、下与局部 FCN 特征同时训练.He 等人41提出孪生特征金字塔网络 ForkNet,将 FPN 应用于特征提取阶段,在每个层次生成具有强大语义的特征表示.Zhu等人42提出特征金字塔纹理特征提取模块,丰富特征的纹理细节,并且利用量化和技术算子,捕捉和描述低层级纹理信息,将连续纹理量化为多级强度.另一种多尺度目标融合是多路分支结构,即在不同的支路中处理感受野各异的特征图,再互相融合补充出空间轮廓信息.2017 年 Lin 等人43等人提出两通路实时语义网络 RenfineNet,利用上通路和下通路聚合多级别特征,形成利于梯度传播和模型训练的长、短射程,解决了浅层特征利用率较低的问题,强化了高级
21、语义特征.Yu 等人44为了平衡模型的分割精度和推理速度,提出两分支架构网络双边分割网络 BiSeNet,同时解决特征提取的空间信息缺失和感受野缩小的问题.2.3优化卷积操作卷积操作利用像素值的加权平均代替,提取出抽象化、符号化的语义特征信息.但由于卷积步长的存在,图像的特征信息会随着网络加深而丢失.因此许多研究者通过优化卷积操作,提高语义分割的性能.空洞卷积45(Atrous Convolution)在标准卷积中注入空洞,以此扩大卷积核的感受野,使得每个卷积核的输出都包含较大范围的特征信息,并且保持输出时特征映射的尺寸.Chen 等人提出的 Deeplab 系列的 v146和 v247,利用
22、空洞卷积增加特征提取的感受野,缓解因重复池化和卷积造成图像的位置信息无法修复的情况.随后在 v348中优化空洞卷积,使之够级联或并行使用,利用不同膨胀率的空洞卷积在串行模块中获取更大的感受野49.由于堆叠的空洞卷积会受网格会产生伪影效应,即卷积后的特征图像出现不存在于输入图像的伪特征,文献 50 提出分解卷积,使用交互层平滑空洞卷积,或者在空洞卷积之前插入可分离和共享的卷积平滑空洞卷积,解决了网格伪影效应;Wang 等人51则设计混合卷积,利用密集上采样卷积取代解码器的双线性上采样,捕获更多的细节;利用混合扩展卷积,减轻编码器的空洞卷积的伪影效应,扩大感受野聚合全局信息.受 Inception
23、 模块27的启发,Chollet 等人29利用深度可分离卷积(Depthwise Separable Convolution,DSP)训练 DCNN.DSP 包含逐通道卷积和逐点卷积,同时捕获空间信息和通道信息.Deeplabv3+49中广泛使用 DSP 提高模型的边界特征表达能力,并减少计算量;Cao 等人52则使用 DSP 作为基础组件应用于轻量级的语义分割网络,以实现盲道和人行横道图像的高效语义识别,帮助盲人感知周围环境.2.4注意力机制注意力机制能够增强分割的主体信息,抑制不相关信息,从而提高网络分割精度.DeepLabv146针对全卷积语义分割网络感知区域小的问题,将多尺度注意力模块
24、与多尺度结构进行联合训练,使得网络能够更好的学习多尺度特征在图像像素位置的软权重.针对卷积核的物理结构容易导致神经网络信息流被约束在一定的范围内,从而造成复杂场景难以理解的问题,Zhao 等人53提出 PSANet 语义分割网络,使用点状空间注意力(Point-wise Spatial Attention)来解决局部区域限制问题,使得每个像素都可以与其他位置的像素建立联系,从而丰富上下文信息.为了能够充分捕捉图像的上下文语义特征,增加特征空间语义信息和特征维度语义信息的相关性,Fu 等人54提出双注意网络 DANet,结合位置注意力模块和通道注意力模块在局部特征上建模丰富的上下文关系,进一步改
25、进特征表示,从而获取更精确的分割效果.此外还有 Huang 等人55利用交叉注意力模块,探索交叉路经周围像素的上下文信息;Li 等人56提出了注意力聚合模块,通过注意力引到的特征聚合来增强网络对语义特征的学习;Yuan 等人57受自注意力机制影响设计了 OCNet,通过提高特征图的分辨率来提高特征空间准确性,并且聚焦于物体上下文估计和物体上下文聚合,来优化最终的预测结果.2.5传统-深度结合传统语义分割方法,计算简单、对均匀的联通目标有较好的分割结果,但对于多个物体需要多次运行.DCNN 能够端到端训练模型主动提取图像各层58微电子学与计算机2023 年级的特征,却缺乏上下文建模的长范围依赖关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 卷积 神经网络 语义 分割 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。