特征平衡的无人机航拍图像目标检测算法_徐坚.pdf
《特征平衡的无人机航拍图像目标检测算法_徐坚.pdf》由会员分享,可在线阅读,更多相关《特征平衡的无人机航拍图像目标检测算法_徐坚.pdf(8页珍藏版)》请在咨信网上搜索。
1、Computer Engineering and Applications计算机工程与应用2023,59(6)无人机具备高机动性,不受地面交通条件的限制,拥有广阔的监控视野,被广泛应用于测绘、安全巡检、搜救以及军事等多个领域1-3。计算机视觉技术与无人机相结合使得无人机能够感知周围环境,降低了人工控制的依赖,进一步拓宽了无人机的应用范围。目标检测是计算机视觉的基础任务。基于深度学习的目标检测算法相比传统算法性能更佳,因而被广泛使用。但是在无人机低空航拍的场景下,基于深度学习的检测算法仍然存在诸多问题:(1)无人机低空拍摄的图像小目标居多,而小目标检测一直是目标检测领域的难点;(2)无人机拍摄的
2、图像易受天气、场景影响,导致目标存在模糊、遮挡的情况;(3)由于无人机姿态变化,图像的拍摄视角变特征平衡的无人机航拍图像目标检测算法徐坚1,谢正光1,李洪均1,21.南通大学 信息科学技术学院,江苏 南通 2260192.南京大学 计算机软件新技术国家重点实验室,南京 210023摘要:无人机航拍图像目标较小、图像视角变化大,导致目标检测效果不佳。针对此问题,设计了一种适用于无人机小目标检测的网络。该网络中的可变形卷积模块可以提高多视角目标的特征提取能力,以解决航拍图像目标视角变化剧烈致使目标特征难以提取的问题;特征平衡金字塔模块可以增强网络中底层小目标特征,以解决航拍图像中的小目标因特征易丢
3、失而造成其检测效果差的问题;同时利用像素重组构建底层大尺度特征以解决特征平衡金字塔模块的底层特征卷积运算量大的问题;交叉自注意力机制获取目标上下文信息,改善严苛条件下的漏检错检问题。公开数据集上的仿真结果表明,在保证实时检测的情况下所提算法的平均准确度优于主流检测算法。关键词:无人机目标检测;特征平衡金字塔;交叉自注意力;像素重组文献标志码:A中图分类号:TP391.4doi:10.3778/j.issn.1002-8331.2111-0075Feature-Balanced UAVAerial Image Target Detection AlgorithmXU Jian1,XIE Zhen
4、gguang1,LI Hongjun1,21.School of Information Science and Technology,Nantong University,Nantong,Jiangsu 226019,China2.State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210023,ChinaAbstract:Small target and large change of image angle in UAV aerial image result in poor obje
5、ct detection effect.Tosolve this problem,a network for UAV small target detection is designed.The problem that the target feature is difficult toextract due to the sharp change of the aerial image target s perspective can be solved by the deformable convolution mod-ule in the network which improve t
6、he feature extraction ability for multi-view targets.The features of the low-level smalltargets in the network can be enhanced by the feature balance pyramid module,so as to solve the problem of poor detec-tion effects of small targets in aerial images on account of their easy loss of features.At th
7、e same time,pixel un-shuffle isused to construct the bottom-level large-scale features to solve the problem of the large-scale convolution of the bottom-level features of the feature balance pyramid module.Cross self-attention mechanism is used for obtaining the object con-text information so that t
8、he problem of missed detection and error detection under severe conditions can be solved.Simu-lation results on public data sets show that the average accuracy of the proposed algorithm is better than that of the main-stream detection algorithms under the condition of real-time detectionKey words:un
9、manned aerial vehicle(UAV)object detection;feature balance pyramid;cross self-attention;pixel un-shuffle基金项目:国家自然科学基金(61871241,61971245,61976120);南京大学计算机软件新技术国家重点实验室基金(KFKT2019B015);南通市科技计划资助项目(JC2021131)。作者简介:徐坚(1997),男,硕士研究生,CCF会员,研究方向为深度学习、目标检测,E-mail:;谢正光(1967),男,博士,教授,研究方向为数字图像处理、智能信号处理;李洪均(198
10、1),男,博士,副教授,CCF会员,研究方向为机器视觉、人工智能。收稿日期:2021-11-04修回日期:2022-01-10文章编号:1002-8331(2023)06-0196-081962023,59(6)化大,目标特征提取困难;(4)部分应用场景下需要实时检测,而基于深度学习的算法在拥有高性能的同时对硬件要求也较高,不能满足实时性。目前已有许多国内外相关研究,主要方法可分为多尺度特征融合、基于上下信息以及基于生成对抗网络。卷积网络浅层特征图中有丰富的纹理特征,有利于小目标检测。通过多尺度特征融合充分利用深层特征图语义信息和浅层特征图的纹理信息,可缓解卷积网络尺度结构上的矛盾。Lin等4
11、提出的FPN通过自顶向下和侧向连接的方式融合了多尺度特征,使得浅层特征传递到高层特征,达到增强小目标特征的目的。FPN网络结构简洁,以极小的代价提升了小目标的检测效果,但没有考虑到不同尺度特征的重要程度。Zhan等5针对无人机航拍图像中的小目标,在FPN中增加了更底层的大尺度特征图,使得其中的小目标细节信息更丰富,虽提升检测效果,但加深了网络,增加了计算量。Liu等6使用了并行金字塔结构采样替代了FPN中的采样,解决了FPN单一上采样难以有效恢复小目标语义信息的问题,增强了小目标特征。郭晓静等7在Yolo3基础之上做出改进,增加了多尺度的特征融合,同时增加了检测尺度,有效提高了小目标的检测效果
12、。Liang等8在SSD基础之上做出改进,将骨干网络的特征直接融合并集成到一张特征图上,之后在融合后的特征图基础之上进行多尺度下采样,同时利用反卷积对低分辨率特征图上采样生成特征金字塔。网络最后在特征金字塔上进行分类和边框回归。Cheng 等9提出交叉尺度特征融合模块。在该模块中,选定一个分辨率的特征,将除了该分率的所有特征进行上采样或下采样到该分辨率并融合得到集成特征,随后将集成特征与选定的分辨率的特征融合。对所有尺度的特征重复上述操作,得到融合后的新特征充分利用了所有尺度的信息。图像中的上下文信息对于目标检测起着十分重要的作用。图像中的一部分目标通常只会出现在特定的场景中,且常与其他目标存
13、在关联。无人机航拍图像中目标常常因为低分辨率、遮挡等因素导致特征不显著,而利用上下文信息能够帮助网络进行合理地推断。Cui等10提出了一个上下文感知模块,该模块由四个分支构成,每个分支由不同膨胀率的膨胀卷积组成,能够合并多尺度的上下文信息而不丢失特征映射的原始分辨率,在不增加模型复杂度的情况下提高了检测精度。Li等11提出一个全局上下文信息注意模块,该模块通过将特征图在不同维度上展开并做矩阵乘法运算,得到包含全局上下文信息的注意力特征图,之后利用注意力特征图改善原始特征图。此模块能够获得包含丰富的全局上下文信息的小目标特征,但是特征图展开之后的矩阵较大,计算量大,算法实时性上存在不足。Nie等
14、12提出了一种上下文信息增强模块,该模块主要由两个卷积分支组成,每个分支分别由1k和k1的卷积组成,然后融合两个分支的特征图获得包含上下文信息的增强特征。该模块主要优点是使用形状不同的卷积核提取不同尺度的特征从而获得全局上下文信息,避免了展开特征图做矩阵乘法的大量计算。现有的针对小目标检测的方法除上述基于多尺度特征融合及上下文信息的方法外,另一研究热点是通过生成对抗网络来提高图像分辨率,相当于将小目标变成更大的目标以间接达到提高小目标检测性能。Bai等13提出多任务的生成对抗网络检测小目标。该网络利用基础检测器区分前景和背景,将前景输入生成器进行上采样提高分辨率,判别器是个多任务网络,能够描述
15、对象类别得分以及边界框的回归偏移量。该网络通过提高图像分辨率的方式极大地提高了小目标检测的准确度。Zhou等14提出了一个针对图像尺度的评价标准,主要原理是训练一个分类器将数据集中的图像分类成三种不同的尺度。对于在不同尺度上的图像,通过双线性插值或生成对抗网络提高分辨率,之后检测高分辨率的图像。该网络部分使用了传统方法上采样,相比于直接使用生成对抗网络降低了一步计算。Rabbi等15提出一种边缘增强超分辨率生成对抗网络对低分辨率图像重建,与FasterRCNN结合取得了优越的性能。生成对抗网络相比于其他改善手段相比效果更佳,但是复杂的网络结构以及较大的图像分辨率使得模型不能达到实时检测,还需进
16、一步改善。生成对抗网络因复杂度太高无法满足无人机目标实时检测的需求;现有基于多尺度特征的算法在特征融合时没有充分考虑到不同尺度特征对小目标检测的贡献度;基于上下文信息的算法其信息获取主要是通过注意力机制获得,而获取全局上下文信息的注意力机制其计算量较大,限制了其实时性应用。为此,针对无人机目标检测的特点提出了一种基于Yolov5改进的检测算法。首先改进了骨干网络,在骨干网络多尺度特征层之间添加可变形卷积,增强网络对目标多视角变化下的特征提取能力。然后提出特征平衡金字塔结构并利用像素重组从骨干网络直接构建金字塔中的底层特征,通过上采样和下采样将金字塔各个尺度的特征图调整到相同分辨率后进行融合,减
17、少小目标特征信息丢失,提高小目标的检测效果。最后提出交叉自注意力机制,获取目标的全局特征,在线索不足时改善检测效果。1基于特征平衡金字塔的无人机目标检测算法Yolov5是 Yolo系列最新的网络,有四个不同复杂度的模型,其中Yolov5s是复杂度最低的模型,轻量的网络结构使其具有较高的速度,但是在无人机目标检测的场景中仍存在改进的空间。其骨干网络感受野形状固定,在检测因角度变化导致形状改变的目标时存在困徐坚,等:特征平衡的无人机航拍图像目标检测算法197Computer Engineering and Applications计算机工程与应用2023,59(6)难。网络中的PANet结构仅融合
18、了高层特征16,没有充分地利用底层特征,不利于以小目标为主图像的目标检测。针对 Yolov5s 在无人机目标检测场景下存在的不足,从三个方面分别提出了改进,在保证实时性的条件下提高了此场景下目标检测的性能。(1)在原先的骨干网络基础之上添加可变形卷积网络模块,使网络具备可变化的感受野,提高对多视角下形态变化的目标的特征提取能力。(2)应用特征平衡金字塔结构,利用像素重组增加底层大尺度特征图,然后将多个特征调整到统一的分辨率后进行融合。(3)对融合后的特征图应用交叉自注意力机制获取目标特征的全局上下文信息,帮助网络推理检测结果。改进后的网络整体结构如图 1 所示。虚线框分别标出骨干网络和特征平衡
19、金字塔结构。骨干网络中DCN为可变形卷积模块,特征平衡金字塔中PUS为像素重组操作。CSA模块为交叉自注意力机制。1.1主干网络改进主干网络主要改进是在Yolov5s网络基础之上添加了可变形卷积模块(deformable convolution,DCN)17。相对于普通卷积,可变形卷积相能够自适应地调整感受野的大小,以提高无人机图像中多视角小目标的特征提取能力。普通卷积其卷积核形状固定,感受野不变。如公式(1)所示:|R=()-1,-1,()-1,0,()0,1,()1,1Y()P0=PnRw()PnX()P0+Pn(1)首先对特征图用固定网格采样,然后对采样点加权运算。式中R以坐标形式定义了
20、一个33的网格。X为输入特征图,w为权重,Y为输出特征图,Pn为网格R中的点。形状感受野固定不变的普通卷积学习到的多视角小目标特征难以迁移,通过在普通卷积的采样位置添加一个偏移量动态改变采样位置,自适应调整卷积核的形状和感受野,可改善多视角小目标因目标形状几何变换带来的特征迁移困难问题。如公式(2)表示:Y()P0=PnRw()PnX()P0+Pn+Pn(2)添加了偏移后采样点为P0+Pn+Pn,其中Pn为网络学习获取的动态偏移量,Y为可变行卷积的输出特征图。为了增强网络对于多尺度特征的迁移学习能力,分别在骨干网络4倍、8倍和16倍下采样的BotteneckCSP后添加DCN模块,插入在Bot
21、teneckCSP模块后是为了在随后的特征金字塔中进行特征融合。改进后的网络结构、输入输出通道数,以及相对于原图的下采样倍数如表1所示。1.2特征平衡金字塔卷积网络浅层特征图中有丰富的纹理特征,有利于小目标检测。但因为浅层特征图分辨率太大会计算复杂,Yolov5s的PANet结构中没有融合底层特征图。针对此问题,利用像素重组子模块构建底层特征图可降低计算量,并在此基础上设计了特征平衡金字塔。特征平衡金字塔通过融合深层语义信息和浅层纹理信息来提高小目标的检测准确度。整个结构分为三个部分:(1)构建底层大尺度特征图;(2)调整特征图尺度;(3)特征整合。像素重组子模块(pixel unshuffl
22、e,PUS)源于SPCN,最早用于图像超分辨率重建18。假设特征图形状为CHrWr,其中C、H、W分别为通道数、宽、高,r为尺度缩放因子,经过像素重组后变为Cr2HW,主要操作是将特征图中像素重新排列组合从而获得新的特征图,是一种无参操作。通过像素重组下采样,可以将空间信息转移到通道中,不损失细节信息。骨干网络中的P2层特征通道数为64,对其应用像素重组,尺度缩放因子为2,得到通道数为256、尺度缩小一倍的新的特征检测头下采样下采样下采样下采样下采样FocusConvC3DCNConvC3DCNConvC3DCNConvC3SPPP1P2P3P4P5C3C3C4C5C3C3ConvConcat
23、C3ConvConcatPUSCSAfusion骨干网络特征平衡金字塔图1基于特征平衡金字塔的无人机目标检测算法框图Fig.1UAV object detection algorithm based onfeature balance pyramid模块FocusConvC3DCNConvC3DCNConvC3DCNConvSPPC3输出通道数3264128256512下采样倍数2481632表1改进后的骨干网络Table 1Improved backbone1982023,59(6)图C3。C3包含了底层特征P2的全部特征信息,细节信息没有损失。在获得到底层的大尺度特征后,需要将参与特征整合
24、的四个特征C5、C4、C3、C3调整到统一的分辨率。选择过大的分辨率会增加整体计算负担,而过小的分辨率会造成小目标特征丢失。这里选择统一调整到C3的尺度,C3与C3形状相同,C5、C4通过双线性插值上采样到C3的大小,之后按照式(3)整合特征。CBFP=1LlminlmaxCl(3)1.3交叉自注意力在模型中添加注意力机制可以让模型关注图像中的重点信息,改善检测效果。卷积神经网络主要是对图像空间信息上的建模,而通道特征之间也存在依赖关系,不同的通道特征对最后检测结果的贡献度不同。SENet19提出了通道注意力机制(channel attention),通过挤压激励操作自动学习通道特征的权重系数
25、,突出重要的通道特征,抑制冗余的通道特征。图像空间信息上也可以应用注意力机制,CBAM20在SENet后添加了一个空间注意力模块,该模块在通道维度上做最大值池化和均值池化,利用卷积整合池化的两个结果获得了空间位置上的权重信息。CBAM主要关注的是局部信息,无法建立长距离的依赖从而充分利用图像上下文信息,而自注意力机制能够在图像信息中建立长距离依赖以更好地获取上下文信息,提高目标检测准确率。但是自注意力机制如Non-local21往往需要将特征图展开并相乘,计算量太大,不适用于无人机平台。针对此问题,提出了交叉自注意力模块(cross self-attention,CSA),具体结构如图2所示。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 平衡 无人机 航拍 图像 目标 检测 算法 徐坚
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。