基于注意力机制的U%5E%282%29-Net图像语义分割.pdf
《基于注意力机制的U%5E%282%29-Net图像语义分割.pdf》由会员分享,可在线阅读,更多相关《基于注意力机制的U%5E%282%29-Net图像语义分割.pdf(8页珍藏版)》请在咨信网上搜索。
1、Journal of Shenzhen Institute of Information TechnologyOct.20232023年10 月Vol.21 No.5深圳信息职业技术学院学报第2 1卷第5期基于注意力机制的U-Net图像语义分割刘帅1-2,邓晓冰1.3,杨火祥1.4,柳伟1(1.深圳信息职业技术学院计算机学院,广东深圳518 17 2;2.深圳大学应用技术学院,广东深圳518 118;3.广东技术师范大学电子与信息学院,广东广州510 6 6 5;4.深圳大学电子与信息工程学院,广东深圳518 0 6 0)摘要:图像语义分割是计算机视觉领域中的一项重要技术,在自动驾驶、医学影像
2、分析、智能家居和安防监控等领域都有广泛的应用。近年,利用深度学习模型进行图像语义分割的方法得到了广泛关注和研究。然而,深度学习模型很容易出现过拟合问题,并且面对一些存在遮挡、噪声的图像时容易预测出错,从而导致模型分割精度下降。针对这个问题,提出了一种联合注意力机制的U-Net图像语义分割优化方法,在以VGG为主干网络的U?-Net模型中,增加CBAM注意力模块,使网络模型能够更加关注与分割任务相关的区域,忽略掉一些无关或噪声干扰的区域,增强特征图的表征,进而能够有效地提高模型的性能和泛化能力。实验结果表明,在增加CBAM模块后,U?-Net模型的MIoU及准确率分别提高了8.2 1%和4%。关
3、键词:图像语义分割;注意力机制:U?-Net;深度学习中图分类号:G124;G 7 12文献标志码:A文章编号:16 7 2-6 332(2 0 2 3)0 5-0 0 0 1-0 8随着深度学习的不断发展,卷积神经网络(Co n v o l u t i o n a l Ne u r a l Ne t w o r k,CNN)以其优秀的特征提取能力,被广泛应用于图像分类、目标检测以及语义分割等任务中。其中,全卷积神经网络(FullyConvolutionalNetwork,FCN)的提出标志着图像语义分割技术迈向了新的阶段。Long等在2015年提出全卷积神经网络FCN,实现了端到端的图像语义
4、分割。此后,越来越多的研究人员开始利用CNN模型进行图像语义分割,并取得了较好的分割效果。虽然CNN能够有效地提取图像特征,但是其卷积和池化等操作会导致感受野和分辨率受到限制,进而影响了语义分割的准确性。因此,越来越多的改进模型应运而生。自编码器(Autoencoder,A E)因其简单且有效的网络结构受到研究者们的关注。其主要思路是将输人数据通过多个卷积层提取特征后进行降采样,再通过反卷积层将特征图上采样至原始尺寸。Ronneberger等2 基于FCN和自编码结构提出了一种改进的图像语义分割模型U-Net。它的主要特点是网络结构完全对称,并且在解码器部分加人了更多的卷积操作和跳跃连接,以此
5、将局部细节的损失降到最小,从而提高图像分割的效果。随后,Qin等3在2 0 2 0 年提出了U-Net的改进版本U-Net模型。该模型不仅可以用于显著目标检测(SOD),还可用于图像分割等其他任务除了上述利用自编码结构进行模型改进的方法外,还有一些研究者通过在卷积神经网络中添加注意力机制来进行模型优化4-。注意力机制7 的思想源于人类头脑的思考过程,即通过专注于自己关注的事物,来提高对这些事物的认知和理解。在图像语义分割任务中,使用注意力机制可以根据图像的特征自适应地选择感兴趣的区域,突出重要特征,抑制不重要信息,从而提高图像语义分割的精度。因此,为了解决现有深度学习模型面对一些存在遮挡、噪声
6、的图像容易预测出错的问题,本文在U?-Net模型的基础上,通过引人注意力机制对U-收稿日期 2 0 2 3-0 5-0 6【作者简介】刘帅(1998-),男(汉),湖北人,在读博士,主要研究方向:图像视频编码及质量评价。第2 1卷深圳信息职业技术学院学报Net模型进行改进和优化。通过在U?-Net模型中插人同时包含空间注意力和通道注意力的CBAMI8模块,自适应的调整每一个通道的权重,捕捉特征图中的空间相关性,有效地减少信息丢失和穴余。改进后的模型能对不同通道和空间位置的特征图进行更细致的加权融合,以提高特征图的质量和准确性,进而提高模型分割结果的精度和准确性。在增广后的VOC2012数据集上
7、的实验结果表明,在增加CBAM模块后,U?-Net模型的MIoU及准确率分别提高了8.2 1%和4%。1相关工作1.1图像语义分割图像语义分割技术按照技术方法的不同,可以分为传统的图像语义分割和基于深度学习的图像语义分割。传统的图像分割算法包括基于阈值、边缘检测、区域、主动轮廓以及图论等。这类方法通过手工方式根据颜色、形状、纹理、灰度等特征对图像进行划分,以完成对物体的分割9。然而,传统方法需要花费大量人力,并且在图像信息处理和实时场景理解方面的效率和精度都难以达到要求。相比之下,基于深度学习的图像语义分割技术具有更高的效率和精度基于深度学习的图像语义分割方法无需手动设计特征,而是利用大量的原
8、始图像数据,通过卷积神经网络模型自动学习并提取高层次的特征,最终生成带有像素类别标签的分割图像。2 0 15年,Long等人提出全卷积神经网络模型FCN,该模型可以适应各种尺寸的输人图像,是首个支持端到端训练的语义分割模型。2 0 16 年,Ronneberger等人提出经典的医学图像分割模型U-Net,U-Ne t 采用U型自编码结构,并在对称的编解码阶段引人了跳跃连接,有效地避免了信息丢失的问题。该网络因其简单有效的结构,不仅在医学领域有着广泛应用,通过不断改进也可应用于其他场景10-1。同同年,Google基于DeepLabv112提出了DeeplabV2113模型,使用空洞卷积代替部分
9、池化操作进行下采样,并引人空洞卷积金字塔模块进行多尺度特征提取。2 0 17 年,DeepLabV3l14对空洞卷积金字塔模块进行了改进,引人轻量卷积结构,避免模型的参数量过大。2 0 18年,DeepLabV3+15将整个DeepLabV3作为编码器进行特征提取,以获得更好的分割效果。2 0 2 0 年Qin等提出的一种既简单又强大的深度网络架构U-Net。U?-Ne t 在U-Net的基础上增加了U型残缺块(RSU 模块),该模块的结构如图1所示。RSU模块由三个部分构成,包括输人卷积层、U型结构和残差连接层。其中,输人卷积层是对输人图进行通道转换,U型结构可以提取多尺度上下文信息,而残差
10、连接层则将输人层和中间层通过残差块进行连接。H*W*CinH*W*CoutCin,3*3,CoutAdditionCout,3*3,M2*M,3*3,MM,3*3,M2*M,3*3,MM,3*3,M2*M,3*3,MM,3*3,M2*M,3*3,ML=7M,3*3,M2*M,3*3,MM,3*3,M2*M,3*3,MM,3*3,d-2,M输入层下采样+卷积+BN+激活函数ReLu输出层上采样+卷积+BN+激活函数ReLu卷积+BN+激活函数ReLu图1RSU结构图U?-Net整体结构如图2 所示,主要由三个主要组成部分构成,包括6 个编码模块,5个解码模块以及特征融合输出模块。每个模块都由RS
11、U模块组成,以逐步地实现特征提取和上下采样处理刘帅,邓晓冰,杨火祥,柳伟:基于注意力机制的图像语义分割第5期SupoSuplEn_1De_1誉积+BN+激活函数Relu下采样*1/2+卷积+BN+Relu上采样*2+卷积+BN+ReluSup2En_2De_2空洞卷积(膨账率为2)+BN+Relu空洞卷积(影账率为4)+BN+ReluSup3空洞卷积(膨胀En_3De_3率为8)+BN+Relu下采样*1/2En_4上采样*2DeSup4激活函数+上采样至输入图像大小级联En_5De_5Sup5相加Bn_6Sup6图2 U-Net模型结构在编码模块En_1至En_4中,分别包含了7 至4个RS
12、U模块,每个编码模块中RSU模块的个数根据输入特征图的空间分辨率进行逐层减少。但在En_5与En_6中,特征图的分辨率相对较低,进一步下采样会导致上下文信息严重丢失。因此,在En_5与En_6使用RSU-4F模块,其中F表示对RSU模块的扩展,即使用膨胀卷积来代替上采样和下采样操作,使得RSU-4F模块中所有特征图的分辨率相同。U?-Net模型可以实现多尺度特征提取和高效率计算,具有较好的分割准确性和高效率,在多个场景中都有改进和应用16.17 1.2CBAM注意力模块CBAM(Convolutional Block Attention Module)注意力模块是通道和空间注意力机制的组合。通
13、过通道注意力机制,网络可以学习到各个通道的重要性,并强制模型关注较重要的通道,同时抑制不重要的通道的影响,从而提高网络的性能。而空间注意力机制能够学习到每个空间位置的上下文信息,使得网络能够更好地提取图像中的语义信息,CBAM结构如图3所示。CBAM注意力机制利用了特征通道和空间上两个维度的信息,可以更加准确地学习到特征图的各个通道和位置的权重信息,从而提高了卷积神经网络的性能还有泛化能力。空间注意力SAM通道注意力CAM输入特征图输出特征图表示逐元素相乘图3CBAM结构图1.2.1通道注意力模块CAMCAM模块主要用于获取通道注意力特征,将输入的特征图F分别进行全局最大池化与全局平均池化操作
14、,在空间上对其进行压缩,生成两个大小为11C的特征图,然后,将这两个特征图输人到一个包含两层ReLU激活函数的多次感知机(M LP)中进行处理。接着,将得到的输出特征逐元素相加,并通过Sigmoid函数生成通道注意力特征图FC。最后,将FC和输人的特征图F逐元素相乘,得到SAM模块的输出特征图F*。CA M 结构如图4所示。最大池化共享MLP输入特征图通道注意力特征图P表示逐元素相加平均池化表示sigmoid激活图4CAM结构图1.2.2空间注意力模块SAM空间注意力模块通过对特征的空间相关性进行处理来提取注意力信息,它与通道注意力模块有所区别却也可互补。空间注意力模块的输人特征图F*是通道注
15、意力图FC和通道注意模块的特征输人逐元素相乘的结果,对其做最大池化操作和平均池化操作,得到两个HW1的特征图并将它们在通道上进行拼接,然后通过卷积核和Sigmoid激活函数来生成空间注意力特征图FS。最后将其与上一步获得的特征图F*逐元素相乘,得到最终的特4第2 1卷深圳信息职业技术学院学报征图F*SAM结构如图5所示:卷积操作经过CAM的空间注意力特征图Fc特征图Fs图5SAM结构图2基于CBAM的U?-Net图像分割2.1基于CBAM的U?-Net模型设计尽管U?-Net模型在图像语义分割领域中表现很出色,但该模型在面对一些存在遮挡、噪声的图像时,依然容易出现分割不准确的情况,导致模型整体
16、的分割性能下降。CBAM注意力机制能够在空间和通道维度上对特征图进行加权,提取图像的全局信息和局部信息,能更好地适应不同尺度和形状的目标,也能使模型更好地聚焦于感兴趣的区域。此外,CBAM还能够更好地指导模型从图像中提取到有关目标的更多信息,并减少噪声的干扰。因此,为解决U?-Net模型分割目标物体形状复杂时模型性能下降的问题,本文在U-Net模型的基础上,通过引人注意力机制对U-Net模型进行改进和优化。通过在U?-Net模型中插人同时包含空间注意力和通道注意力的CBAM模块,自适应地调整每一个通道的权重,捕捉特征图中的空间相关性,有效地减少信息丢失和穴余。本文提出的基于CBAM的U?-Ne
17、t图像分割模型的结构如图6 所示,本文模型能对不同通道和空间位置的特征图进行更细致的加权融合,以提高特征图的质量和准确性,进而提高模型分割结果的精度和准确性。2.2基于CBAM的U?-Net模型性能分析为了验证提出的基于CBAM的U?-Net模型的有效性,本文将通过对比改进模型与原始模型的训练结果和在公共数据集上的测试结果。在训练模型前,先对实验所用到的数据集及实验环境进行介绍。2.2.1数据集本文先使用数据集SBDl18对VOC201219进行扩充,然后去除两个数据集中的重复部分,得到增CBAMSup1SuboE1De_1CBAMSup2En2De_2CBAMSu3Em_3DeCBAMEL4
18、De_4CRAMESup5CBLME_6Suo6图6 基于CBAM的U?-Net模型设计广后的VOC2012数据集,共包含12 0 31张图片。此外,本文还对增广后的VOC2012数据集进行了划分,将其中90%(共10 8 2 7 张)作为训练集,剩下10%(共12 0 4张)作为验证集。2.2.2训练参数设置本文所有实验均基于深度学习框架Pytorchl20l进行实现,训练过程中batch统一设置为32,最大学习率设置为1e-4,模型使用Adam优化器/2 1l进行训练,并设置优化器内部动量参数为0.9,权重衰减因子为0。模型总共进行10 0 个epoch的训练,每5个epoch保存一次权值
19、,并使用cos学习率下降策略对学习率进行调整。为了公平比较,本文模型和原U?-Net模型统一采用预训练的VGG模型作为主干网络,并基于预训练权重对模型进行训练。2.2.3训练结果对比深度学习模型的损失函数是衡量模型性能的关键指标之一,损失函数值越小,则代表模型的预测值和真实值的差异越小,即模型性能越优因此,本文通过对比U?-Net模型在增加CBAM注意力模块前后损失函数值的变化来评估模型的性能改善程度。图7、图8 分别展示了原始U?-Net模型和基刘帅,邓晓冰,杨火祥,柳伟:基于注意力机制的t图像语义分割第5期于CBAM的U?-Net模型在增广VOC2012数据集上的训练过程和损失变化。对比图
20、7 和图8,可以发现,基于CBAM的U?-Net模型的损失值下降速度更快,即收敛速度更快。具体而言,优化前的U?-Net模型需要经过6 0 次迭代,损失函数值才会下降到0.3左右,而优化后的模型只需要经过40 次迭代。表明优化后的模型更快地学习到数据集的特征,且优化后的模型的损失值比原模型的损失值小,证明了优化后模型的收敛速度和性能均有所提升。trainloss0.9vallosssmoothtrainloss0.8smoothval loss0.70.6SSOT0.50.40.30.2020406080100Epoch图7 U2-Net模型的训练过程和损失变化0.9trainlossval
21、loss0.8smoothtrainlosssmoothvalloss0.70.655OT0.50.40.30.220406080100Epoch图8 基于CBAM的U?-Net模型的训练过程损失变化3实验与结果分析3.1实验评价指标本文采用语义分割领域常用的两个评价指标一平均交并比MIoU和准确率Precision,来衡量模型性能和预测结果的准确性。平均交并比MIoU是指真实分割结果与预测分割结果的平均交集占真实分割结果和预测分割结果的平均并集的比例。它首先计算每个类别的交并比IoU,然后将所有结果求平均值。IoU的计算方式如公式(1)所示:TPIoU=(1)TP+FP+FN上式中TP(Tr
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 注意力 机制 282 29 Net 图像 语义 分割
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。