结合通道交互空间组注意力与金字塔池化的高分影像语义分割网络.pdf
《结合通道交互空间组注意力与金字塔池化的高分影像语义分割网络.pdf》由会员分享,可在线阅读,更多相关《结合通道交互空间组注意力与金字塔池化的高分影像语义分割网络.pdf(13页珍藏版)》请在咨信网上搜索。
1、浙江大学学报(理学版)Journal of Zhejiang University(Science Edition)http:/ 51 卷第 2 期2024 年 3月Vol.51 No.2Mar.2024 结合通道交互空间组注意力与金字塔池化的高分影像语义分割网络汪超宇1,2,杜震洪1,2*,汪愿愿2,3(1.浙江大学 地球科学学院 地理信息科学研究所,浙江 杭州 310058;2.浙江大学 浙江省资源与环境信息系统重点实验室,浙江 杭州 310028;3.浙江大学 海洋研究院,浙江 舟山 316021)摘要:高空间分辨率(高分)遥感影像中存在海量信息,因此对高分影像的语义分割研究十分重要。传
2、统机器学习方法的语义分割精度和效率均不高,近年来,深度学习方法迅速发展,逐渐成为影像语义分割领域的常用方法,已有研究将 SegNet、Deeplabv3+、U-Net等神经网络引入遥感影像语义分割,但效果有限。考虑高分影像的特性,对用于遥感影像语义分割的 U-Net网络进行了改进。首先,在 U-Net网络特征提取过程中使用通道交互空间组注意力模块(channel interaction and spatial group attention module,CISGAM),使得网络能够获取更多有效特征。其次,在编码过程中将普通卷积层变换为残差模块,并在 U-Net 的编码器和解码器之间用加入了C
3、ISGAM 的注意力金字塔池化模块(attention pyramid pooling module,APPM)连接,以加强网络对多尺度特征的提取。最后,在 0.3 m 分辨率的 UC Merced 数据集和 1 m 分辨率的 GID 数据集上进行实验,与 U-Net、Deeplabv3+等原始网络相比,在 UC Merced数据集上的平均交并比(mean intersection over union,MIoU)分别提升了 14.56%和 8.72%,平均像素准确率(mean pixel accuracy,MPA)分别提升了 12.71%和 8.24%。在 GID数据集的分割结果中,水体、建
4、筑物等地物的综合分割精度大幅提升,在平均分割精度上,CISGAM 和 APPM较常用的 CBAM 和 PPM 有一定提升。实验结果表明,加入 CISGAM 和 APPM 的网络可行性与鲁棒性均较传统网络强,其较强的特征提取能力有利于提升高分辨率遥感影像语义分割的精度,为高分辨率遥感影像智能解译提供新方案。关键词:高分辨率遥感影像;深度学习;语义分割;注意力机制;金字塔池化中图分类号:P 208 文献标志码:A 文章编号:10089497(2024)0213112WANG Chaoyu1,2,DU Zhenhong1,2,WANG Yuanyuan2,3(1.Department of Geog
5、raphic Information Science,Zhejiang University,Hangzhou 310058,China;2.Zhejiang Provincial Key Lab of Geographic Information Science,Zhejiang University,Hangzhou 310028,China;3.Ocean Academy,Zhejiang University,Zhoushan 316021,Zhejiang Province,China)High-resolution image semantic segmentation netwo
6、rk combining channel interaction spatial group attention and pyramid pooling.Journal of Zhejiang University(Science Edition),2024,51(2):131142,152Abstract:High spatial resolution remote sensing images contain rich information,it is therefore very important to study their semantic segmentation.Tradit
7、ional machine learning methods appear low accuracy and efficiency when used for segmenting high-resolution remote sensing images.In recent years,the deep learning method has developed rapidly and has become the mainstream method of image semantic segmentation.Some scholars have introduced SegNet,Dee
8、plabv3+,U-Net and other neural networks into remote sensing image semantic segmentation,but these networks have only limited effect in remote sensing image semantic segmentation.This paper improves the U-Net network for semantic segmentation of remote sensing images.Firstly,an improved convolutional
9、 attention module channel DOI:10.3785/j.issn.1008-9497.2024.02.001收稿日期:20220921;修回日期:20230426;接受日期:20230510;出版日期:20240325.基金项目:高分综合交通遥感应用示范系统(二期)(07-Y30B30-9001-19/21);浙江省重点研发计划项目(2021C01031).作者简介:汪超宇(1998),ORCID:https:/orcid.org/0000-0002-4286-3379,男,硕士研究生,主要从事高分辨率遥感图像处理研究。*通信作者,ORCID:https:/orcid.
10、org/0000-0001-9449-0415,E-mail:.浙 江 大 学 学 报(理学版)第 51 卷interaction and spatial group attention module(CISGAM)is embedded in the feature extraction stage of the U-Net network,so that the network can obtain more effective features;secondly,a residual module is used in the decoding layer to replace the
11、ordinary convolutional layer to avoid the degradation of the model.In addition,we use an attention pyramid pooling module(APPM)with CISGAM to connect the encoder and decoder of U-Net to enhance the networks extraction of multi-scale features.Finally,experiments are carried out on the UC Merced datas
12、et with 0.3m resolution and the GID dataset with 1m resolution.Compared with the original networks such as U-Net and Deeplabv3+,the mean intersection over union(MIoU)of our method on the UCM dataset has increased by 14.56%and 8.72%,and the mean pixel accuracy(MPA)has increased by 12.71%and 8.24%,res
13、pectively.In the classification results on the GID dataset,the classification accuracy of waters,buildings and other objects has also been greatly improved.Compared with the original CBAM and PPM,the CISGAM and APPM also achieve certain performance improvement.The experimental results show that the
14、feasibility and robustness of the model is stronger than traditional networks,and it can improve the accuracy of semantic segmentation of high-resolution remote sensing images through stronger feature extraction capabilities,hence providing a new approach for intelligent interpretation of high-resol
15、ution remote sensing images.Key Words:high-resolution remote sensing images;deep learning;semantic segmentation;attention mechanism;pyramid pooling0引 言近年来,随着对地观测技术的不断发展,由遥感传感器拍摄的高空间分辨率(高分)遥感影像具有大量的几何特征、纹理特征及更复杂的地表信息1。并且,由于高分遥感影像蕴含如此巨大的信息量,被逐渐应用于各个领域,如国土资源、城市规划、农业、自然灾害和危机管理等部门均需要高分辨率遥感影像2。因此,结合遥感影像的解
16、译方法对高分影像信息进行快速提取、分析尤为重要,而遥感影像的语义分割技术是影像解译的关键方法之一。传统的语义分割方法主要基于影像的低级特征,比如 RGB、纹理、边缘和形状等对影像进行分割,如随机森林或支持向量机等机器学习方法。张万福3用随机森林方法对街道场景进行语义分割;潘欣欣4通过马尔可夫随机场法生成无向图模型分割影像的像素;袁正午等5用支持向量机方法对视频中的单帧影像进行语义分割。然而,用传统机器学习算法进行高分辨率遥感影像语义分割精度和计算效率均较低。为解决传统机器学习方法在语义分割中精度和效率低等问题,引入了深度学习方案。LONG等6用卷积层替换 CNN 中最后的全连接层,提出了全卷积
17、神经网络(fully convolution network,FCN),首次在语义分割中采用端到端输出流程,在一定程度上解决了语义分割精度低、效率不高的问题。然而,由于没有保留像素点间的上下文关系,也没有合理地进行上采样,在分割结果中易失去影像细节和空间关系。为解决此问题,RONNEBERGER 等7提出了 U-Net,用左右对称的编码-解码结构分别提取底层特征和上层特征,有别于FCN的逐元素加和,U-Net用跳跃连接的方式将编码层中获取的特征与解码层中获取的特征拼接,尽可能多地保留影像中的细节特征。但由于 U-Net的网络结构较简单,像素分类精度和准确度存在上限,因此,须通过改进网络结构提升
18、 U-Net网络的性能。ZHOU 等8通过改进 U-Net的跳跃连接方式,提高了不同尺度对象的分割质量,使模型的训练速度更快,但性能略有损失。李传林等9将 U-Net中的卷积模块替换为残差模块,并在网络中添加注意力机制,实现了对建筑物的高分遥感影像的提取。王振庆等10以 U-Net为基础,通过替换其中的损失函数,降低了边缘特征不足对分割性能的影响,实现了对建筑物的有效提取。董子意等11用残差模块和卷积注意力机制模块(CBAM)改进U-Net,检测了海洋遥感影像中的尺度涡。李鑫伟等12将 U-Net与弱监督学习相结合,实现了高分辨率遥感影像的水体检测。QI等13用替换残差模块的 U-Net,提取
19、咸水湖中卤虫的卵块分布。杨佳林等14在 U-Net网络结构中加入注意力机制模块和残差模块,并用空洞卷积模块获取像素邻域信息,成功实现了更高精度的道路提取。在众多研究中,基于改进网络结构的U-Net在高分辨率遥感影像语义分割中应用广泛,在不同场景中均取得了较好的效果,但在影像多类别语义分割的整体准确率上仍有很大的提升空间。综合考虑高分辨率遥感影像的特点及已有的研132汪超宇,等:结合通道交互空间组注意力与金字塔池化的高分影像语义分割网络第 2期究基础,本文基于 U-Net网络提出了一种高分影像语义分割网络。首先,在网络编码器中加入通道交互空间组注意力模块(channel interaction
20、and spatial group attention module,CISGAM),相比于常用的卷 积 注 意 力 模 块(convolutional block attention module,CBAM),CISGAM 在通道交互能力和空间域分组能力上均有增强,使得网络能在通道域和空间域获取更多有效特征,并且减少了模型的参数量;同时,使用残差模块保证了深度网络的训练效果。此外,在网络的编码器与解码器之间,原始 U-Net用卷积层进行连接,而本文用加入了 CISGAM 的注意 力 金 字 塔 池 化 模 块(attention pyramid pooling module,APPM)进行连
21、接,加强了模型对多尺度特征 的 感 知 能 力。结 合 了 CISGAM 和 APPM 的U-Net网络具有更强的特征提取能力,提升了高分辨率遥感影像语义分割的精度,为高分辨率遥感影像智能解译提供了新方案。1研究方法1.1结合 CISGAM 和 APPM 的 U-Net网络模型由于高分辨率遥感影像具有较高的空间分辨率,其中蕴含大量多尺度特征,而通道交互空间组注意力机制可有效增强网络在通道域和空间域中对此类特征的提取能力,防止冗余特征造成的网络计算量增加,影响分割结果。此外,为避免深度神经网络经常出现的退化现象,本文将网络解码层中的卷积模块替换为残差模块15。模型结构如图 1所示。本文设计的模型
22、是一个以 U-Net 为基础的 U型网络,左半部分为编码器,其作用是提取图像特征信息、降低空间维度,即下采样;右半部分为解码器,其作用是逐步恢复图像的特征信息和空间维度,即上采样。在编码器中,每次下采样过程,特征图的高和宽减半,通道数翻倍;在解码器中,每次上采样过程,特征图的高和宽翻倍,通道数减半。特征图尺寸在编解码过程中发生的变化如图 1 所示。并且,位于同一层级的编码器和解码器之间会建立跳跃连接,使解码器更好地还原目标的细节信息,提升分割精度。另外,残差学习模块仅使用较小的参数量实现深层梯度在反向传播上以跳跃连接的方式传递到浅层,避免出现梯度消失现象,使在训练过程中能正常 收 敛16。最
23、后,网 络 中 还 添 加 了 Dropout 层。Dropout17是指在网络训练过程中以某一比例舍弃神经元,以避免出现过拟合现象。本文在网络编码层 的 第 4 和 第 5 层 后 均 加 入 了 比 率 为 50%的Dropout层。在网络底层,即在编码器和解码器之间,本文用改进的金字塔池化模块进行连接。金字塔池化模块是一种特殊的池化模型,通过由多到少的池化,有效增大感受野,增大全局信息的利用效率18。本文采用金字塔池化的原因:第 1,高分辨率遥感影像场景复杂且存在尺度效应。例如小型居民楼与大型写字楼都属于建筑物这一类别,如果物体尺度过大或过小,超出了网络的感受野,则无法发现目标,造成不连
24、续分割,而金字塔池化模块可防止这一问题发生。第 2,改进了金字塔池化模块,在池化层之后加图 1模型结构示意Fig.1Model structure diagram133浙 江 大 学 学 报(理学版)第 51 卷入了注意力机制,在增大模型感受野的同时还能获取更细粒度的多尺度特征以及更合理的通道交互与像素空间关系。1.2CISGAM在 U-Net网络模型中,编码层的作用是提取特征19,由于大多数遥感影像的场景较为复杂,在提取特征时往往效果不佳,而注意力机制可帮助模型突出影像的重要特征,抑制不重要的特征,提升模型的特征提取能力,优化地物分割的结果。本文模型在U-Net跳跃连接和金字塔池化过程中加入
25、了注意力机制,使得在编码层中用于拼接的特征层具有更多有效特征信息和上下文信息。卷积注意力20是一种常 用 的 注 意 力 模 块,由 通 道 注 意 力(channel attention)和空间注意力(spatial attention)2个子模块构成,分别关注特征图的通道间关系和空间关系。本 文 改 进 了 CBAM 的 这 2 个 子 模 块,建 立 了CISGAM 模块,在通道上以一维卷积获取跨通道交互信息,在空间上以分组的方式增强特征信息,能在参数量更少的情况下得到更好的特征提取效果。CBAM 的通道注意力模块如图 2 所示。首先,对输入特征图F分别用最大池化和平均池化生成 2组特征
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结合 通道 交互 空间 注意力 金字塔 高分 影像 语义 分割 网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。