基于改进的DeepLabv3 图像语义分割算法研究.pdf
《基于改进的DeepLabv3 图像语义分割算法研究.pdf》由会员分享,可在线阅读,更多相关《基于改进的DeepLabv3 图像语义分割算法研究.pdf(12页珍藏版)》请在咨信网上搜索。
1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 11 期2023 年 11 月Vol.35 No.11Nov.2023基于改进的基于改进的DeepLabv3+图像语义分割算法研究图像语义分割算法研究赵为平1,2,陈雨2*,项松1,刘远强1,王超越1(1.沈阳航空航天大学 辽宁通航研究院,辽宁 沈阳 110034;2.沈阳航空航天大学 电子信息工程学院,辽宁 沈阳 110034)摘要摘要:目前主流图像语义分割网络往往存在误分割、分割不连续和模型复杂度高的问题,不能灵活高效地部署于实际场景中。针对这一现象,通过综合考虑网络的参数量、预测时间和准确度,
2、设计出一种优化DeepLabv3+模型的图像语义分割网络。骨干网络改用轻量级EfficientNetv2网络提取特征,提高参数利用率;在空洞空间金字塔池化模块中使用混合条带池化模块代替全局平均池化,引入深度可分离膨胀卷积,减少参数量和提高学习多尺度信息的能力;使用注意力机制增强模型表征力,提取骨干网络多条浅层特征,丰富图像的几何细节信息。实验表明,本文算法可达到mIoU为81.19%,参数量为55.51106,有效优化了分割精度和模型复杂度,同时也提高了模型泛化性。关键词关键词:DeepLabv3+;图像语义分割;空洞空间金字塔池化;注意力机制;深度可分离膨胀卷积中图分类号:TP391 文献标
3、志码:A 文章编号:1004-731X(2023)11-2333-12DOI:10.16182/j.issn1004731x.joss.22-0690引用格式引用格式:赵为平,陈雨,项松,等.基于改进的DeepLabv3+图像语义分割算法研究J.系统仿真学报,2023,35(11):2333-2344.Reference format:Zhao Weiping,Chen Yu,Xiang Song,et al.Image Semantic Segmentation Algorithm Based on Improved DeepLabv3+J.Journal of System Simulat
4、ion,2023,35(11):2333-2344.Image Semantic Segmentation Algorithm Based on Improved DeepLabv3+Zhao Weiping1,2,Chen Yu2*,Xiang Song1,Liu Yuanqiang1,Wang Chaoyue1(1.Liaoning General Aviation Academy,Shenyang Aerospace University,Shenyang 110034,China;2.College of Electronic Information Engineering,Sheny
5、ang Aerospace University,Shenyang 110034,China)Abstract:Mainstream image semantic segmentation networks currently face problems such as incorrect segmentation,discontinuous segmentation,and high model complexity,which cannot be flexibly and efficiently deployed in practical scenarios.To this end,an
6、image semantic segmentation network that optimizes the DeepLabv3+model is designed by comprehensively considering the network parameters,prediction time,and accuracy.The lightweight EfficientNetv2 is adopted to extract backbone network features and improve parameter utilization.In the atrous spatial
7、 pyramid pooling module,the mixed strip pooling is utilized to replace the global average pooling,and a depthwise separable dilated convolution is introduced to reduce parameters and improve the ability to learn multi-scale information.The attention mechanism is employed to enhance the models repres
8、entation power,and the multiple shallow features of the backbone network are extracted to enrich the images geometric details.The experiment shows that the algorithm achieves 81.19%mIoU with a parameter size of 55.51106,which optimizes the segmentation accuracy and model complexity and improves mode
9、l generalization.收稿日期:2022-06-17 修回日期:2022-08-16基金项目:辽宁省教育厅重点公关项目(JYT2020162);电动水上飞机可靠性设计技术研究(JYT2020162)第一作者:赵为平(1968-),男,副教授,博士,研究方向为飞行器设计、图像处理。E-mail:通讯作者:陈雨(1996-),男,硕士生,研究方向为深度学习、图像分割。E-mail:第 35 卷第 11 期2023 年 11 月Vol.35 No.11Nov.2023系统仿真学报Journal of System Simulationhttp:/www.china-Keywords:De
10、epLabv3+;image semantic segmentation;atrous spatial pyramid pooling;attention mechanism;depthwise separable dilated convolution0 引言引言在计算机视觉领域,语义分割工作占据着举足轻重的地位1-2。微观来看,语义分割任务是针对各像素对应的类别进行解析,通俗的说就是将图像中某一像素识别出是汽车、建筑、树木还是地面等,并为不同标签的像素设定不同色彩。宏观解释,语义分割任务就是从底层语义向高层语义推理的过程,获取到逐像素分割的图像。目前语义分割算法在智能医学图像分析、遥感图像
11、技术、无人驾驶等众多领域均成为了热点研究内容3-6。在图像处理研究早期,传统图像分割方法有结构化随机森林、Normalized-cut和SVM(support vector machine)等7-10。单独使用这些方法,分割效果和泛化能力较差,很难应用于实际复杂场景中。近年来,随着计算机硬件的支持和深度学习的兴起11-13,学术界设计出大量新的高效语义分割算法,获得了不菲的效果14-18。其中文献19开创性把卷积神经网络(convolutional nerual networks,CNN)的全连接改为卷积操作,得到全卷积神经网络(full convolutional networks,FCN)
12、。FCN作为第一个端到端、像素到像素的分割网络,也被誉为使用深度学习进行语义分割任务的首创佳作20,给后续研究者提供了不容小觑的灵感启发。剑桥大学提出的SegNet网络21由编码器、解码器以及softmax分类层组成,在FCN的基础上微调VGG-16用于特征的提取,且利用编码器中对应的池化索引做非线性上采样,降低网络计算量和模型参数量,改善了计算效率。U-Net模型22结构酷似英文字母U,使用编码-解码结构融合低维特征,有效处理了由下采样导致的细节损失(如边界信息),从而帮助网络完成更精确的定位,在医疗影像分析中颇受欢迎23-24。对于网络模型忽略了全局信息和像素空间一致性的问题,人们把目光转
13、向了基于空洞卷积的分割算法。文献25的DeepLabv1模型,在深层卷积神经网络 VGG26(visual geometry group)基础上引入空洞卷积来扩大卷积感受野,感知更多的坐标信息和位置信息。同时通过全连接CRF概率图模型做后处理,进而得到相对精确的轮廓。DeepLabv227对DeepLabv1进行了改进,通过空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)模块,进行多个分支异扩张率的膨胀卷积,来 抽 取 不 同 大 小 感 受 野 的 多 尺 度 特 征。DeepLabv328在 DeepLabv2 基础上,使用级联模块,去除CRF模
14、块,并且在ASPP模块中引入批量归一化(batch normalization,BN),利用全局平均池化缓解了远距离下重要权重损失的情况。DeepLabv3+29仿照编码器-解码器结构,同时充分考虑浅层和深层的语义信息,来优化物体边缘细节。为了进一步满足模型能够应用于各种嵌入式设备,更灵活高效地完成社会生活中各方面需求。本文提出一种基于改进的DeepLabv3+语义分割网络,将 轻 量 级 EfficientNetv2 网 络30作 为DeepLabv3+模型的主干网络,在ASPP模块中使用混合条带池化模块和深度可分离膨胀卷积,降低模型参数量、提高推理速度的同时,学习丰富的全局语义和局部纹理、
15、边缘等细节信息。并将融合的多条浅层特征和N-ASPP输出的高级特征进行注意力机制操作,使融合后的特征图追踪到更丰富的特征信息,从而使模型更好地兼顾分割精度和模型复杂度。1优化的语义分割算法优化的语义分割算法1.1 总体框架设计总体框架设计本文基于DeepLabv3+网络在编码区和解码区 2334第 35 卷第 11 期2023 年 11 月Vol.35 No.11Nov.2023赵为平,等:基于改进的DeepLabv3+图像语义分割算法研究http:/www.china-均做了一些改进,总体模型结构如图1所示。(1)编码区。首先将原DeepLabv3+网络模型的骨干网络换为 Efficient
16、v2 网络进行提取特征,然后对ASPP模块进行了改进,引入深度可分离膨胀 卷 积(depthwise separable dilated convolution,DSDConv),来综合标准扩张卷积和深度可分离卷积的优势,同时使用混合条带池化模块(mixed strip pooling module,MSPM)代替全局平均池化,帮助模型进一步捕获全局和本地上下文信息,从而形成新的N-ASPP模块,经过N-ASPP模块5个分支不同程度的特征提取,使语义特征有效聚合多尺度的上下文信息。然后再利用基于归一化的注意力模块(normalization-based attention module,NAM
17、),通过稀疏的权重惩罚判断各通道的显著程度,并在空间注意力子模块中对像素进行归一化,最终在编码区得到一个包含更加详细的语义信息的高级特征图。(2)解码区。为了丰富图像局部细节信息,首先提取骨干网络EfficientNetv2中的2条浅层特征,并分别经过NAM的空间注意力子模块,然后对2个初级特征进行通道维度的拼接,完成浅层特征融合(shallow feature fusion,SFF),获得更详细的图像几何信息,细化模型分割精度。接着将编码区得到的高级特征图做4倍双线性插值上采样,将特征尺寸大小调整为和浅层特征一样。然后将高级特征和融合后的浅层特征图进行拼接,最后再进行一次33的卷积和4倍上采
18、样,将分割结果恢复到原图像尺寸大小。图1 优化的DeepLabv3+网络结构Fig.1 Optimized DeepLabv3+network structure 2335第 35 卷第 11 期2023 年 11 月Vol.35 No.11Nov.2023系统仿真学报Journal of System Simulationhttp:/www.china-1.2 骨干网络骨干网络EfficientNet31是谷歌提出的一种新的轻量级卷 积 网 络,本 文 采 用 EfficientNetv230作 为DeepLabv3+的特征提取骨干网络,其网络结构参数如表1所示。EfficientNetv2
19、 在 MBConv 的基础上引入了Fused-MBConv,如图 2 展示了 Fused-MBConv 和常规MBConv的具体结构。通过训练感知神经架构搜索(nerual architecture search,NAS)和缩放技术,大幅度改善模型参数的利用率。NAS是一种搜索最优网络结构的算法,可动态设计Fused-MBConv和普通MBConv的最优策略,可改善模型精度、参数利用率和硬件GPU/CPU效率。并且通过去除非必要的搜索选项,来减小模型的搜索空间,提高训练效率。EfficientNetv2搜索奖励函数为r=ASP(1)式中:A为模型准确率;S为每个训练 step 的时长;P为参数
20、量;和为控制奖励比例的两个超参,=0.07,=-0.05。EfficientNetv2采用新的渐进式学习方法对正则化因子进行自适应调节,有效缓解了极度正则化造成的模型欠拟合和过拟合的情况,主要有两步:训练处于前期时,选择分辨率较小的输入和较弱的正则化;逐步扩大输入的尺寸大小和更强的正则化尺度。这一方法可以很好地提高训练速度,同时优化了模型精度和泛化性能。1.3 N-ASPP模块模块通过在ASPP模块的基础上引入混合条带池化和深度可分离膨胀卷积,构建出 N-ASPP 模块。将骨干网络提取出来的特征输入到N-ASPP模块中,分别经过1个11卷积、膨胀率为6,12,18的3个深度可分离膨胀卷积、混合
21、条带池化模块等5条支路,能更加丰富高效地提取深层语义特征。下面将对混合条带池化模块和深度可分离膨胀卷积分别介绍。1.3.1 混合条带池化模块混合条带池化模块传统空间平均池化是正方形池化窗口,在提取空间位置较复杂的特征时,往往不能收集到各向空间尺度的相关性信息,从而包含许多不相关的像素区域。为有效捕获空间长程依赖关系的同时,学习到丰富的物体几何细节,本模型在 N-ASPP 中将全局平均池化换为 MSPM,如图 3所示。假设输入特征为xRCHW,首先对其进行池 化 核 为 H1 的 垂 直 池 化(vertical pooling,V_pooling),即对特征图x中每一列像素值进行相加再求均值,
22、输出yv为C1W的行向量,其元素表1EfficientNetv2 网络结构参数Table 1Network structure parameters of EfficientNetv2网络结构形式33Conv33Fused-MBConv133Fused-MBConv433Fused-MBConv433MBConv433MBConv633MBConv6Conv2D&Pooling&FC图像尺寸224224112112112112565628281414141477通道数242448641281602721 792层数124469151图2 MBConv和Fused-MBConv结构对比图Fig.
23、2 Structure comparison diagram of MBConv and Fused-MBConv 2336第 35 卷第 11 期2023 年 11 月Vol.35 No.11Nov.2023赵为平,等:基于改进的DeepLabv3+图像语义分割算法研究http:/www.china-表示为yvcj=1H0iHxcij(2)同 样 地,在 水 平 池 化(horizontal pooling,H_pooling)过程中,即对特征图x中每一行像素值进行相加再求均值。进行池化核为1W的水平池化后,输出yh为CH1的列向量,其元素表示为yhci=1W0jWxcij(3)式中:c 为
24、通道数;H,W分别为特征图的高和宽;i,j分别为特征图的第i行和第j列。为了获得包含更有用的全局先验的输出z,分别对垂直池化和水平池化的结果进行expand操作得到yh和yv,并分别与输入特征图结合,最后再相加。输出z为y1=Scale(x(f(yh)(4)y2=Scale(x(f(yv)(5)z=y1+y2(6)式中:Scale()为元素之间相乘;为Sigmoid激活函数;f为11卷积。条带池化32核呈长条姿态,能有效创建水平或垂直远程关系,进一步帮助搜索全局信息。而且由于条带池化另一个维度较窄,还有助物体细节的捕获。因此MSPM可以收集图像中不同维度的远程上下文,同时兼顾全局和局部信息,使
25、特征更具代表性,更有利后续图像的分割。1.3.2 深度可分离膨胀卷积深度可分离膨胀卷积标准空洞卷积能够在保持特征分辨率和像素相对空间不变的前提下,增大卷积感受野。ASPP模块通过多个并行异膨胀系数的扩张卷积,获得不同大小的卷积视野,来追踪多尺度的上下文特征。从图4可见,深度可分离膨胀卷积(DSDConv)首 先 进 行 逐 通 道 膨 胀 卷 积(depthwise dDilated convolution,DWDConv),特征的每个通道只被对应的膨胀卷积核卷积,获取空间维度相关性和局部信息一致性。然后再进行逐点卷积(pointwise convolution,PWConv),使用n个大小为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于改进的DeepLabv3 图像语义分割算法研究 基于 改进 DeepLabv3 图像 语义 分割 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。