利用注意力机制融合的YOLOv5遥感图像目标检测.pdf
《利用注意力机制融合的YOLOv5遥感图像目标检测.pdf》由会员分享,可在线阅读,更多相关《利用注意力机制融合的YOLOv5遥感图像目标检测.pdf(9页珍藏版)》请在咨信网上搜索。
1、Aug.2023Journal of InformationEngineeringUniversity2023年8 月Vol.24 No.4第2 4卷第4期信息工程大学学报D0I:10.3969/j.issn.1671-0673.2023.04.008利用注意力机制融合的YOLOv5遥感图像目标检测王龙博,刘建辉,张贝贝,魏祥坡(信息工程大学,河南郑州450 0 0 1)摘要:遥感图像目检测与识别是近年来国内外研究的热点之一。针对检测任务中因目标密集分布、目标尺度不一所导致的精度不高等问题,提出了一种改进YOLOv5的融合注意力机制目标检测算法。首先,将坐标注意力机制(Coordinate A
2、ttention,CA)分别融合到YOLOv5的骨干网络、颈部和输出端3个位置,以提高模型的特征提取能力。其次,进行训练和测试,实验结果表明,骨干网络位置最适合融合注意力,能够有效增强模型的检测性能。再次,采用CIoU_loss作为损失函数,以改善目标检测框的定位精度。最后,进行消融、对比实验,结果表明,提出的改进算法相较于原始YOLOv5算法具有更好的检测性能,mAP50提高了2.9 个百分点,有效提高了遥感图像的目标检测精度。关键词:目标检测;YOLOv5;注意力机制;遥感图像中图分类号:TP391.4文献标识码:A文章编号:16 7 1-0 6 7 3(2 0 2 3)0 4-0 438
3、-0 9Object Detection in YOLOv5 Remote Sensing ImageUsing Attention Mechanism FusionWANG Longbo,LIU Jianhui,ZHANG Beibei,WEI Xiangpo(Information Engineering University,Zhengzhou 450001,China)Abstract:Object detection and recognition of remote sensing images is a hot topic in recent years.Toaddress th
4、e low accuracy caused by dense distribution and different scales of targets in detectiontasks,an improved YOLOv5 fusion attention mechanism target detection algorithm is proposed.First,CA attention mechanism is integrated into the backbone network,neck and output of YOLOv5respectively to improve the
5、 feature extraction ability of the model.Second,training and testing arecarried out.The experimental results show that the backbone network location is most suitable for at-tention fusion and can effectively enhance the detection performance of the model.Third,CloU_Loss is used as a loss function to
6、 improve the positioning accuracy of the target detection frame.Fi-nally,ablation and contrast experiments are carried out.The results show that the improved algo-rithm proposed in this paper has better detection performance than the original YOLOv5 algorithm.The mAP50 is improved by 2.9 percentage
7、point,which effectively improves the target detection ac-curacy of remote sensing images.Key words:target detection;YOLOv5;attention mechanism;remote sensing image目标检测是获取军事情报信息的重要技术手段之一,利用目标检测技术对遥感图像进行目标的检测与识别已成为当前研究热点。随着我国空间科学技术的快速发展,尤其是资源、高分系列卫星收稿日期:2 0 2 2-11-2 5;修回日期:2 0 2 2-12-12基金项目:河南省自然科学基金资
8、助项目(2 2 2 30 0 42 0 38 6)作者简介:王龙博(2 0 0 1-),男,学士,主要研究方向为目标智能处理。王龙博,等:利用注意力机制融合的YOLOv5遥感图像目标检测439第4期相继升空,获取的遥感图像呈现指数级增长,并逐渐成为目标检测的重要数据来源。不同于现有的自然场景图像,遥感图像往往具有成像目标相互遮挡、分布密集、背景复杂等特点,导致模型检测的速度与精度降低,给目标检测任务带来了较大的难度和挑战。同时由于成像距离较远,待检测目标通常在遥感图像中呈现出较小的占比;而且同一遥感图像往往含有不同尺度的目标。因此,如何利用目标检测技术对海量遥感图像数据实现高效且精确的目标识别
9、,对军事情报研究具有重要意义。在海量数据的挑战之下,同时满足目标检测准确性和时效性的难度越来越大。传统的遥感图像目标检测算法依赖人工,存在检测实时性不高以及检测精度较低等问题,难以满足实际应用需求。因此,随着深度学习技术的深人研究,目标检测技术已经从依赖大量人工的常规技术,逐步与深度学习技术相结合。从算法处理的流程来看,基于深度学习的目标检测算法主要包括两类:两阶段和单阶段检测算法。前者先建立待检测区域,然后再对目标进行检测判断,因此算法检测精度较高,适用于高精度检测等场景,但算法模型参数过多且构建过程复杂,导致算法时效性较差。典型算法有区域卷积神经网络(Regin based Convolu
10、tional Neural Net-work,R-CNN)【1)、快速区域卷积神经网络(Fast Re-gion based Convolutional Neural Network,Fast R-CNN)2 和更快速区域卷积神经网络(FasterRe-gion based Convolutional Neural Network,Faster R-CNN)3 等。单阶段目标检测算法一步完成待检测区域的生成、分类与回归,因而算法实时性高,适用于实时目标检测等场景,代表算法有单次多边框检测算法(Single Shot MultiBox Detector,SSD)4 和阶段目标检测算法(YouOn
11、lyLookOnce,YO LO)等。YOLOv15作为YOLO系列算法的开创之作,采用网格划分的方法减少了大量重复操作,从而实现了检测速度的大幅提升。YOLOv26的提出解决了YOLOv1在召回效率和定位精度方面的缺陷。YOLOv37在YOLOv2算法的基础上,使用了更为完善的骨干网络以及多尺度特征融合结构,用来提高检测精度与速度。YOLOv48采用CSPDarknet53作为骨干网络,利用空间金字塔池化(FeaturePyra-midNetwork,FPN)以及路径聚合网络(PathAggre-gation Network,PAN)进行特征融合,达到了更高的检测性能。YOLOv5借鉴了YO
12、LOv4的设计方法,采用更加轻量化的网络设计、自适应锚定方法和GIoU损失函数进行优化,是目前比较完善的单阶段检测算法,兼顾检测效率以及准确性。但在现有的检测任务中,该算法仍然面临许多问题。例如,由于遥感图像目标背景复杂、尺度不一、相互遮挡等问题的存在,大大增加了检测任务的难度,导致算法检测精度受限,因此许多学者对YOLOv5算法进行了改进。例如,文献 9 提出了一种轻量化的改进模型YOLO-G,通过改进YOLOv5的特征金字塔结构,将并行模式的注意力机制融人骨干网络,提高了模型的检测性能。文献 10 使用DenseBlock模块替换YOLOv5骨干网络中的切片结构,并在颈部增加了SE-Net
13、通道注意力模块,提高了算法对于目标密集分布场景下的检测能力。文献 11 提出了一种改进的YOLOv5算法,通过在骨干网络中融合坐标注意力机制,结合加权双向特征金字塔(Bi-direc-tionalFeature Pyramid Network,BiFPN)网络结构,提高了小目标安全帽佩戴情况的检测精度。文献12 引人了一种即插即用的轻量级通道注意力结构,用来抑制遥感图像中复杂背景信息的干扰,并且采用多尺度的特征融合网络以减少语义信息的丢失,实现了小尺度目标检测精度的提升。文献 13通过引人卷积注意力,使得网络更加集中于有益信息,抑制无益信息,从而提升了小目标的检测精度。文献 14 使用频率通道
14、注意力,引导模型更加关注有益特征,并且优化网络的输人尺寸,采用平滑标签的方式,进一步提高了算法的检测精度。上述学者均对YOLOv5算法进行了添加注意力机制的改进,有效提高了部分场景下的检测精度,但仍难以满足目标检测领域快速且准确的需求,核心问题在于忽略了网络结构不同位置对于融合注意力机制的影响。基于此,本文对YOLOv5网络结构中不同位置融合注意力机制有效性方面进行研究,并对现有的注意力机制融合结构进行优化和改进本文以YOLOv5为基础模型,选取RSOD遥感数据集,通过将注意力机制(CoordinateAttention,CA)融合到YOLOv5网络结构的骨干网络、颈部和输出端3个不同位置,对
15、融合后的算法有效性进行对比实验、选择。针对YOLOv5预测框回归效果不佳这一问题,采用CIoU_LOSS替换原有的GloU_LOSS。实验结果表明,本文提出的改进算法检测效果良好,在时效性和准确性方面均有提高2023年信息工程大学学报4401相关理论1.1YOLOv5算法YOLOv5共包括4个版本,本文采用基础的YOLOv5s进行改进。YOLOv5s主要包括输人端、骨干网络(Backbone)、颈部(Neck)及输出端(Predic-tion)4个部分。输人端主要对图像进行输人以及预处理等操作。骨干网络则包括Focus结构和跨阶段局部网络(Cross Stage Partial Network
16、,CSP)结构,负责对输人的图像进行特征提取,CSP15结构用来增大模型的特征学习范围。颈部则采用特征金字塔(FPN)16 以及路径聚合网络(PAN)17 进行多尺度的特征融合,从而增强网络的特征学习能力。输出端主要包括损失函数、预测边界框和非极大值抑制(No n-M a x i mu m Su p p r e s s i o n,NM S)18 3个部分。YOLOv5s的模型结构如图1所示。输人端骨干网络颈部160*160*6480*80*12840*40*25620*50*512输出端CBSCSPCBSCSPI_2CRSCSPT3CBSCSPLSPPFCBS上采样40*40*512输入6
17、40*6 40*340*40*25620*20*256320*320*32CSP21CBS上采样80*80*25680*80*12880*80*25540*40*12880*80*128CBSCoovBNSiLUReunitCRSCBS1CBS40*40*25640*40*128Cn(Sp2Cony1140*40*255140*40*256CBSCBSMaxPootMaxPoolMaxPoalCBS20*20*25620*20*512SPPFConcat20*20*2.5620*20*255MaxprntCSPILXCEBSReniCSP2.XCRSCESMaxpoolCBSSPPCBSC.B
18、SCBSslice图1YOLOv5s网络结构图1.2注意力机制注意力机制源于人类的视觉注意机制,即从大量信息中提取得到感兴趣的目标信息,通过突出有益信息、抑制低价值信息,从而实现有效特征的提取。因此,在网络中的合适位置融合注意力能够有效降低目标的复杂背景信息干扰,获得更加准确的目标特征信息,进而提高算法的检测精度。目前已有较多注意力机制,例如,压缩和激励(Squeeze andExcitation,SE)注意力19 通过将计算资源合理地投人不同通道上,能够大大增强模型的检测效果,但由于渠道的压缩,同时也对学习渠道之间的依赖关系产生了影响。有效通道注意力(EfficientChannelAtte
19、ntion,ECA)【2 0 由SE注意力改进得到,利用一维卷积层对跨通道信息进行汇总,从而获得更加准确的注意力信息,但由于ECA忽视了图像特征的位置信息,因此效果有限。基于卷积块的注意力机制(Convolutional Block Attention Module,CBAM)21作为包含通道域和空间域的混合型注意力,加强了通道特征与空间维度之间的关系,缺点是无法获取目标周围的依赖信息,以上通道域的轻量级注意力模型仅考虑了单一的通道信息,没有考虑图像中的位置信息。而对于混合型CBAM,即使综合考虑了通道信息与位置信息,但却缺乏长距离关系的提取能力。而CA22作为一种轻量级通道注意力,简单快速、
20、即插即用,兼顾通道以及长距离位置信息之间的关系,大大增强了移动网络学习特征的表达能力,使得移动网络能在避免大量计算开销的前提下参与较大的区域,性能优于SE、ECA、CBA M 等注意力。因此本文选用CA注意力进行融合实验,CA注意力的实现如图2 所示,ResidualCXHxWX Avg PoolXAvg PoolWxCX1Concat+Con2d(W+H)xC/rx1BatchNorm+Non-linear(W+H)xC/rx1Conv2dConv2dWxCx1SigmoidSigmoidWxCx1Re-weightCxHxW图2CA注意力机制模块示意图王龙博,等:利用注意力机制融合的YOL
21、Ov5遥感图像目标检测第4期441CA为了获取图像在宽度和高度方向上的注意力,并对准确位置信息进行编码,首先将输人的特征信息按照宽度和高度两个方向进行划分,分别获得宽度和高度的特征信息,如式(1)(2)所示。12(h)x.(h,i)(1)hiW1z(w)x.(i,w)(2)H0jH其次对全局感受野在宽度和高度两个方向的特征图进行拼接,利用11卷积、批归一化算法(Ba t c h No r ma l i z a t i o n,BN)和非线性激活进行特征转化,如式(3)所示f=8(F,(zh,z)(3)再次将具有横向和纵向空间信息的中间特征f划分成两个独立的特征 和f,通过11卷积、Sigmoi
22、d激活函数实现特征转换,使其维数与输入的X向量相同,然后计算得到输入特征图在高度方向的注意力权重g和宽度方向的注意力权重g,如式(4)(5)所示。g*=(F,()(4)g=g(F.(f)(5)最后在原始特征图上通过加权乘法计算将输出的gh和g合并成权重矩阵,如式(6)所示。y(i,j)=x(i,j)g(i)gG)(6)2YOLOv5算法改进由于遥感图像的复杂多样性,将YOLOv5s算法直接应用于目标检测任务中,将会出现密集目标难以检测、多尺度目标定位精度不高、小目标易漏检误检等情况,导致目标检测模型的有效性大幅下降,因此需要对YOLOv5s网络做进一步的结构优化和调整。为了提高算法的检测精度,
23、本文根据现有的改进思路,在YOLOv5s的网络结构基础上,从骨干网络位置融合CA注意力以及更改损失函数两个方面进行改进2.1注意力机制融合设计注意力机制主要作用于特征图,因此通过在网络的合适位置融合注意力机制,能够有效提高网络的特征提取能力。但是由于YOLOv5s的骨干层、颈部层以及输出端分别对特征进行了不同的操作处理,因此将注意力融合在YOLOv5s网络的不同位置时,所带来的改进效果也会有所差异。为研究这一问题,本文结合YOLOv5s网络结构3个位置的不同特点:YOLOv5s的骨干层使用卷积网络生成样本特征,颈部层负责融合特征,输出端则进行特征的预测和输出,分别在YOLO5s的骨干层、颈部层
24、以及输出端融合CA注意力,设计了YOLOv5s_BackBone_CA,YOLOv5s_Neck_CA、YO LO v 5s _Pr e-diction_CA3个注意力融合模型进行实验。而YOLOv5s的输人端主要进行数据预处理等操作,与目标特征的提取或融合无关,因此不进行注意力机制的融合设计。CA注意力机制的融合设计如图3所示,其中图3(a)为YOLOv5s_BackBone_CA模型,对应将3个CA注意力模块融合在骨干层的CSP结构之后;图3(b)表示YOLOv5s_Neck_CA模型,对应将3个CA注意力模块融合在颈部层的Concat结构之后;图3(c)则表示YOLOv5s_Predic
25、tion_CA模型,对应将3个CA注意力模块融合在输出端的Conv层之后。骨干网络Focus骨干网络CSP(1)FocusCSP(1)CSP(2)CPS(2)CSP(3)CSP(3)SPPCASPP(a)YOLOv5s_BackBone_CA颈部颈部CSP(6)CSP(6)ConcatConcatConcatConcatCSP(5)CSP(5)CSP(7)CSP(7)ConcatConcatConcatConcatCSP(4)CSP(8)CSP(4)CSP(8)(b)YOLOv5s_Neck_CA2023年442信息工程大学学报输出端输出端ConvCAConvConvCAConvConvCon
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 利用 注意力 机制 融合 YOLOv5 遥感 图像 目标 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。