基于双分支交互的实时语义分割算法.pdf
《基于双分支交互的实时语义分割算法.pdf》由会员分享,可在线阅读,更多相关《基于双分支交互的实时语义分割算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、DOI:10.11991/yykj.202301006网络出版地址:https:/ Cityscapes 数据集上进行消融实验并与现有实时语义分割网络进行对比,验证了各模块的有效性,以 124.5f/s 达到了 77.9%的平均交并比(meanintersectionoverunion,MIoU);在 CamVid 数据集上以 211.1f/s 达到了 75.1%的 MIoU。相比现有的实时语义分割网络,本文算法更好地权衡了分割的精度和速度。关键词:实时语义分割;空间分支;上下文分支;特征融合;注意力机制;多尺度特征提取;池化金字塔;深度监督中图分类号:TP391.4文献标志码:A文章编号:1
2、009671X(2024)02004808Real-time semantic segmentation algorithm based on two-branch interactionYANGDi,CHENChunyuCollegeofInformationandCommunicationEngineering,HarbinEngineeringUniversity,Harbin150001,ChinaAbstract:Inresponsetocurrentissuesofthedual-branchreal-timesemanticsegmentationalgorithm,suchas
3、poorinteraction between the two branches and incomplete extraction of multi-scale contextual information,this paperproposesthedual-branchinteractivemulti-scalefusionnetworkforreal-timesemanticsegmentation(DIMFNet).Thealgorithmisbasedonthedual-branchstructureofthebilateralnetworkwithguidedaggregation
4、forreal-timesemanticsegmentation(BiseNetV2),withthespatialbranchextractingspatialdetailfeaturesandthecontextbranchextractingdeepcontextualfeatures.Anattentionguidedhigh-levelsemanticsfusionmodule(AGHSM)isproposedtoachieveinteractive fusion of the dual branches using the attention mechanism,so as to
5、obtain better spatial featurerepresentation.Furthermore,the algorithm improves the pyramid pooling module and introduces the multi-layeraggregationpyramidpoolingmodule(MAPPM)toextractmulti-scalecontextualfeatures,obtainingbettercontextualfeaturerepresentation.Thealgorithmconductsablationexperimentso
6、ntheCityscapesdatasetandiscomparedwithexisting real-time semantic segmentation networks,verifying effectiveness of each module.It achieves an averageintersectionoverunion(MIoU)of77.9%ataspeedof124.5framespersecond(f/s)ontheCityscapesdataset,and75.1%MIoUat211.1f/sontheCamViddataset.Comparedwithexisti
7、ngreal-timesemanticsegmentationnetworks,theproposedalgorithmcanbetterbalancesegmentationaccuracyandspeed.Keywords:real-timesemanticsegmentation;spatialbranch;contextbranch;featurefusion;attentionmechanism;multi-scalefeatureextraction;poolingpyramidsmodule;deepsupervision语义分割是图像处理中的一项基本任务,是对图像进行像素级的分
8、类,其作为场景理解的基础,广泛应用于自动驾驶1、医学诊断2、机器人视觉3以及场景解析4等领域。近年来,随着深度学习技术的快速发展以及计算机硬件计算能力的收稿日期:20230108.网络出版日期:20240205.基金项目:国家自然科学基金项目(61871142);中央高校基本科研业务费项目(3072020CFT0803).作者简介:杨迪,男,硕士研究生.陈春雨,男,副教授,博士.通信作者:陈春雨,E-mail:.第51卷第2期应用科技Vol.51No.22024年3月AppliedScienceandTechnologyMar.2024不断提高,基于卷积神经网络的语义分割方法大大提高了分割精度
9、,成为主流技术5。Shelhamer 等6提出的全卷积网络(fullyconvolutionalnetworks,FCN)将分类网络改为全卷积网络并连接局部信息和全局信息,实现了任意图片尺寸输入的语义分割任务;Ronneberger 等7提出的 U-net 网络采用了对称编码解码结构,使用跳跃连接融合深层细节 信 息 和 浅 层 空 间 信 息,指 导 特 征 上 采 样;Chen 等810提出的 DeepLab 系列算法从增大感受野和获取多尺度上下文信息入手,将空洞卷积和空间金字塔池化方法相结合,提出了空洞空间金字 塔 池 化 模 块(atrous spatial pyramid pooli
10、ng,ASPP)来提升语义分割效果。但由于语义分割实际应用于自动驾驶等场景中时,需要网络在保持可靠精度的前提下获得实时响应,上述这些网络结构复杂、参数量大、计算成本高,不适合实际应用;因此,实时语义分割技术应运而生。目前,实时语义分割的网络模型主要有编码器解码器架构和分支架构。编码器解码器架构首先通过下采样对输入特征图编码得到低分辨率的特征图,再通过上采样对低分辨率特征 图 解 码,得 到 与 输 入 相 同 维 度 的 输 出。Paszke 等11提出了实时语义分割网络 ENet,其采用较大的编码器和较小的解码器,在减少模型参数量的同时使用 PReLUs 激活函数确保分割精度;Romera
11、等12提出了 ERFNett,在 ENet 的基础上引入高效残差卷积,以略慢的速度得到了更精确的输出;Mehta 等1314提出了 ESPNet 系列,并行使用不同扩张率的空洞卷积增大感受野,提出了高效空间金字塔模块;这类方法主要思路是降低模块的复杂度,从而减少参数量。编码器解码器架构的实时语义分割模型主要思路就是轻量化设计解码器,但会出现模型在解码过程中不能很好地通过浅层网络恢复空间信息,导致分割精度不够。多分支架构旨在通过独立提取不同尺度的特征来解决轻量化模型空间特征恢复差的问题。Zhao 等15提出了 ICNet,其包括了 3 个分支,分别对 1/4、1/2 和原尺寸输入图像进行操作,输
12、出使用级联特征融合单元(cascadefeaturefusion,CFF)组合输出;Yu 等16提出了双边分割网络(bilateralsegmentationnetwork,BiseN-et),包含空间分支和上下文分支,分别用于保留空间细节特征以及有效提取语义信息,最后融合 2 分支实现局部信息和 全 局 信 息 的 有 效 融 合;Yu 等17提 出 了BiseNetV2,将残差连接和深度可分离卷积相结合用于骨干网络中,网络包括空间分支、上下文分支和聚合层 3 个部分,其将影响语义分割网络性能的低层次细节和高层次上下文分开处理,空间分支用于维护高分辨率特征图,从而保存每个单独像素的语义和位置
13、信息,故该分支具有宽通道和浅层的特点,因此网络只采用了残差单元搭建浅层网络进行特征提取,以获取丰富的空间信息,上下文分支用于捕获高层次的上下文信息,故 该 分 支 应 具 有 窄 通 道 和 深 层 的 特,但 是BiSeNetV2 仍存在浅层特征提取结构冗余、上下文信息提取不充分以及双分支信息交互不充分等问题;Fan 等18提出了 STDC,其提出了细节引导模块替代空间分支,将细节预测建模成二值分割任务;Pan 等19提出了 DDRNet,提出了深度双分辨率网络结构,对双分辨率进行简单相加融合,并提出了级联特征提取结构,优化特征表示,提升分割性能;Peng等20提出了 PP-LiteSeg,
14、其采用跳层连接结构,提出了统一注意力融合模块和简化金字塔模块来聚合上下文。多分支架构解决了编码器解码器架构不能很好地恢复空间信息的问题,但仍然存在一些不足,具体如下:1)多分支在提取特征时是独立的,缺少语义特征导致对于细节特征的解析不完善;2)上下文分支采用精简的轻量化网络,存在网络提取多尺度上下文特征能力弱的问题;3)多分支架构在最后阶段通常直接融合高维特征与低维特征,忽略了其特征错位,极大地影响分割精度。为此,本文针对多分支架构网络中存在的问题,在 BiseNetV2 网络设计的基础上,提出了双分支交互多尺度融合实时语义分割网络(dual-branchinteractive multi-s
15、cale fusion network for real-timesemanticsegmentation,DIMFNet)。网 络 结 构 如下:1)提出了注意力引导高级语义融合模块(attentionguidehigh-levelsemanticsfusionmodule,AGHSM),通过注意力机制来引导空间分支选择性学习上下文分支的高级语义特征,实现上下文分支与空间分支的融合,提升空间分支细节特征的表征能力,聚合得到更优的空间细节特征表示;2)提出了多层聚合金字塔池化模块(multi-layeraggregationpyramidpoolingmodule,MAPPM),第2期杨迪,等
16、:基于双分支交互的实时语义分割算法49增强上下文分支多尺度特征的提取与表征能力。总的来说,网络的设计采用了多分支思想,实现了推理速度及精度的良好权衡。1网络结构为了更好地权衡语义分割模型的速度及精度,本文提出的 DIMFNet 网络结构如图 1 所示,网络以 BiSeNetV2 的双分支结构为基准进行网络改进。为降低网络复杂度,首先用 3 层卷积对图像下采样 8 倍,其输出特征被空间分支和上下文分支共享。后续空间分支一直保持高分辨率特征图用于获取空间细节特征,在空间分支每一阶段引入 AGHSM,以此来融合上下文分支中的上下文特征,获取更好的空间细节特征表示;上下文分支每阶段 2 倍下采样,用于
17、提取局部和全局的上下文信息以得到丰富的语义特征,在上下文分支的末尾引入 MAPPM,以此来更好地获取多尺度上下文特征表示。1/21/41/81/8AGHSMAGHSMSeg-head1/81/8LossSeg-headAGHSMMAPPM1/641/321/16图1DIMFNet 结构1.1注意力引导高级语义学习融合模块双分支网络中的空间分支用于提取保存图像中的细节特征,而现有的双分支网络对于空间分支都只是独立采样或者与上下文分支简单交互,其提取的特征由于缺乏上下文语义特征,导致细节解析不完善。针对这个问题,本文结合注意力机制2122计算 2 个分支的特征图的相似度,从而引导空间分支的特征图有
18、选择性地学习上下文分支中重要的上下文特征,完善细节特征,实现了空间分支与上下文分支的有效融合。1.1.1注意力机制xx注意力机制的思想就是重点关注感兴趣的区域,滤除不重要的信息,提升信息处理速度,这一 思 想 应 用 在 了 很 多 领 域。卷 积 神 经 网 络(convolutionalneuralnetworks,CNN)中注意力机制的本质就是学习 2 个特征图的相关度,并利用相关度来更新其中一个特征图。例如对于特征图x 和 y,计算 2 个特征图学习得到相关度,再根据相关度更新特征图,从而得到更新后的结果:x=fatten(x,y)本文提出的 AGHSM 模块,就是利用注意力机制计算相
19、关性,实现空间分支有选择性地学习语义分支中的上下文特征。详细计算过程如下:xq=fQ(x)=XWQWk=fK(y)=YWKyv=fV(y)=YWVwatten=xqy1kx=wattenyv首先对输入特征图进行线性变换,然后进行点乘计算得到相关度矩阵,后续对相关度矩阵进行 Softmax 处理,最后将待变化的特征图与相关度矩阵点乘,得到根据相关度改变后的结果。网络实现如图 2 所示。MatMulSoftmaxMask(opt.)ScaleMatMul查询值键值属性值图2注意力机制模块基础实现50应用科技第51卷1.1.2模块实现注意力机制思想中最重要的就是通过计算得到特征图之间的相关性,因此结
20、合注意力机制设计了 AGHSM,实现利用特征图的相关度来引导空间分支特征图选择性学习上下文分支特征图的高级语义特征,网络中两分支输出的特征图处理过程为F1=BN(conv(Fsp)F2=U(BN(conv(Fcp)=Sigmoid(mean(F1F2)Fsp=Fsp(1)FcpFspFcpF1F2FspconvBNUmeanSigmoid式中:为空间分支输入特征图,为上下文分支输入特征图,为经处理的空间分支特征图,为经处理的上下文分支特征图,为相关度结果,为输出空间分支特征图,为卷积操作,为批标准化操作(bacthnormalization),为线性上采样操作,为沿通道求均值操作,为使用 Si
21、gmoid 激活函数生成权重系数。CHWCHW1HW模块详细结构如图 3 所示。首先对两分支特征图进行处理,得到尺寸均为的特征图,进 行 点 乘 运 算 将 2 个 特 征 图 对 应 位 置 的元素相乘,融合 2 个特征图特征,得到尺寸为的特征图,对特征图沿通道进行求均值运算,得到尺寸为相关度矩阵,并进行Sigmoid 操作。对两特征图对应位置元素的相似度成功建模,得到的结果 可以表征两分支特征图同一相对位置的像素相关性,如果某位置 较大,则表明此位置上下文分支与空间分支特征图相关度大,因此更信任上下文分支的信息,反之更信任空间分支,从而实现了空间分支选择性融合上下文分支中高级语义的目的,得
22、到了更好的空间特征图表示。11Conv11ConvBN+F1(CHW)F2(CHW)CHW1HWUpSampleBN1-Fsp(CHW)FspFcp(C1H1W1)MeanSigmoid图3AGHSM 结构1.2多层聚合金字塔池化模块在语义分割的应用场景中,其物体视觉常表现为多尺度,例如城市自动驾驶场景,其一张图片中存在多种尺寸的物体,同一物体在不同图片中也具有不同尺寸。因此,不同尺寸的感知信息对于语义分割的精度十分重要,网络的上下文分支需要更好地提取多尺度上下文特征,而现有的提取多尺度全局上下文的方法通常为金字塔池化模块(pyramidpoolingmodule,PPM)23,其对于不同尺度
23、的全局上下文特征聚合能力较差。针对此问题并综合考虑实时性,本文提出了 MAPPM,进一步挖掘上下文分支中低分辨率特征图的多尺度全局上下文信息,模块结构如图 4 所示。X1/64Conv11Conv 33Conv 33Conv 33Conv 11Y1/64ConcatConv 33Conv 11UpSampling+Conv 11UpSamplingConv 11UpSamplingConv 11UpSampling1/1281/2561/512AvgPoolKernel=5,stride=2,padding=2AvgPoolKernel=5,stride=2,padding=2AvgPoolK
24、ernel=5,stride=2,padding=2Global AvgPoolf1f2f3f4f5图4MAPPM 结构11f1f2f3f4f5借鉴 PPM 并考虑网络实时性,以上下文分支中分辨率为 1/64 的特征图作为输入,用串联的平均池化操作代替并联池化,降低多次池化操作的特征图尺寸,从而提升速度,分别生成分辨率像素值大小为 1/128、1/256、1/512 的特征图,并使用全局平均池化生成单像素输出。为保持全局特征的权重,得到每个层级的特征图后使用的卷积调整通道数并上采样至输入特征图尺寸。由于多次粗暴的池化操作会导致信息丢失,串联池化得到的特征图信息表征差,因此借鉴 Res2Net
25、网络中的分层残差连接24,将各个层级的特征图逐层相加融合,优化深层特征表示,最后得到、和这 5 个具有相同通道数的特征图,将这5 个层级的特征图拼接,从而聚合得到含有更丰富的多尺度上下文的特征图,拼接情况如图 5 所示。第2期杨迪,等:基于双分支交互的实时语义分割算法51f1f2f3f4f5图5特征图拼接1.3损失函数语义分割任务有多种常用的损失函数,包括交叉熵损失(crossentorpy,CE)、FocalLoss、DiceLoss 等,其中 CE 平等对待各样本,FocalLoss 着重关注困难样本,DiceLoss 适用于样本不均的情况。为了便于网络的训练优化,除网络正常损失的计算之外
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分支 交互 实时 语义 分割 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。