基于改进YOLOv5针对舰船识别的算法研究.pdf
《基于改进YOLOv5针对舰船识别的算法研究.pdf》由会员分享,可在线阅读,更多相关《基于改进YOLOv5针对舰船识别的算法研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023 年第 8 期188智能技术信息技术与信息化基于改进 YOLOv5 针对舰船识别的算法研究刘树林1 周晓燕1 王玉林2LIU Shulin ZHOU Xiaoyan WANG Yulin 摘要 由于舰船在海面上距离岸边较远时,合成孔径雷达(synthetic aperture radar,SAR)所进行的图像会比较小,对船舰测量也较为困难,会产生漏检的情形。为了进一步提高测量准确度,提供了一个可以改进YOLOv5 识别 SAR 舰船图像的新测量方法。方案介绍了注意力机制模型和改进非极大值抑制模式,并使用了自己的目标数据集中进行了训练试验,在对船舰标记时,使原正矩形框变成了平行四边形,对
2、标记的精度更加准确。在进行了海面目标的集中训练后进行了测试,结论:与原 YOLOv5 模型比较,改进的 YOLOv5 模型的准确率、召回成功率、平均准确率分别增加了 2.3%、4.8%、2.5%,提升了船舶检测和识别的整体效果,证实了改进 YOLOv5 算法检测的可行性。关键词 YOLOv5;船舰检测;合成孔径雷达(SAR);注意力机制;深度学习doi:10.3969/j.issn.1672-9528.2023.08.0421.青岛理工大学 山东青岛 2661002.山东产业技术研究院 山东济南 2500110 引言舰船目标识别是海洋监测系统中的重要环节,在渔业管理、海洋救援、海洋交通管控、走
3、私船只检测、海冰检测、救助遇难的船只等民用和军用领域都有十分重要的意义。合成孔径雷达(synthetic aperture radar,SAR)1是一个通过微波反射信号成像的微波遥感图像系统,可以通过对主动发出的微波信号所辐射区域的散射回波来成像,不仅能够同时在白天和夜间工作,还能够透过云层,在阴雨天可以正常工作,因此具有全天时和全天候的特点,正因为这些优秀的特点,SAR 卫星被应用于了舰船目标识别领域。传统的 SAR 图像舰船识别方法需要经过预处理、特征提取和分类识别三个阶段,其中难点在于特征提取与特征选择,在特征提取的时候,不但费时费力,而且还需要运气和丰富的经验。在人工设计的特征的时候具
4、有局限性,不能充分表达图象中蕴涵的信息。但近年来,由于卫星设备的进步以及深入调查,大量实时图象已被用来检测海洋中的船舶以及其他目标。因此使用 SAR 图象对海洋目标进行的监测和鉴定,在海洋遥感领域已经取得了高度重视。目前,根据深度认知的目标分析方法,大致上应该分成两类:One-stage(一阶段)和 Two-stage(两阶段)2。Two-stage 检测过程的二个阶段主要可分成二个步骤:第一步主要是培训 RPN,而第二步则是确定目标对象在网络中的位置。而测试过程的第一阶段则只有一个步骤,并且在输入图像以后立即测试结果。但这二个实验阶段都经过了 RPN 训练,且测试速率较快,构造简便。因此Ro
5、ss B.提出的更快速 RCNN 模型于 2016 年,重新标记了二个实验阶段。通过利用 RPN 网络快速的进行帧分析,显著增强了目标性能检测。One-stage 检测以 YOLO 系统最为典型,而 YOLOv5 系统则由 Ultralytics3公司在 2021 年设计,YOLOv5 模型的目标检测模块能够利用自身学习能力获得更有效信息,因此相比于 YOLOv4,部署简单且性能更快。在本文中,我们可以通过真正的开源模型将构建成为船舰的资料集。为此,开展了一项试验,以准确的结果来评估检测系统在海面舰船中的效能。然后,本文通过在骨干网络的基卷积块中加入(convolutional block a
6、ttention module,CBAM)4注 意 力 机 制 模 块 来 改 进YOLOv5 网络,以增加图像的特征提取,并用 FReLU 激活函数代替基卷积块中的SiLU激活函数以增加语义特征提取。1 YOLOv5 算法原理1.1 YOLOv5 网络结构YOLOv5 是一种阶段的探测算法,其算法在 YOLOv35的基础上又增加了新的改进,使得其探测效率和准确性都获得了很大的提高。YOLOv5 包括了四种不同的版本,分别为YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 四种型号6。由于 YOLO 网络从 YOLOv1 开始就不断改进完善,在发布至 YOLOv5 后,在很多地方
7、均有使用并且取得了良好的成效。接下来,我将介绍 YOLOv5 的结构和测试方法,以YOLOv5s 模型为例,计算 s 模型的最小宽度和高度以及最小范围参数。YOLOv5s 的模型结构图如图 1 所示。2023 年第 8 期189智能技术信息技术与信息化图 1 YOLOv5s 网络结构以 上 为 YOLO5s 整 体 的 网 络 架 构,从 图 中 可 看 出YOLOv5 网络由四个部分组成:Input、Backbone、Neck 以及Predic-tion7。Backbone:主要具有提取功能的主干网络,网络的主干是从网络中的图像中提取信息。共享网络包 RESNET、VGG等,这些网络具有强大
8、的优势,可以解决对于一些图片的分类问题进行精确的提取。Neck:其作用是更好地融合主干网络给出的特征,使网络在运行时具有更好的性能,运行更加流畅。网络系统中的主要组件,包含聚焦模组、内池化模块、接口模组、卷积模组、及其跨层的网络组件、上采样模块。相同的模块有不同的输入通道数、输出通道数、卷积核大小、卷积步长。1.2 激活函数YOLOv5 是一个提供功能激活来解决不可分割线性问题的模型。用在神经网络层的输入和输出级别之间添加的功能,以增强表达和学习神经网络的能力。将 SiLU 替换为FReLU,这是一种专用于视觉任务的激活函数,并增加了空间条件来扩展 ReLU 和 PReLU,以增强激活空间的灵
9、敏度,并显着改善图像视觉。FReLU 提出的二维漏斗样激活函数,通过在维 ReLU 激活函数中加入漏斗条件 T(x),将二维漏斗样激活函数扩展到二维。只引入少量的计算和过拟合风险来激活网络中空间不敏感的信息,以改善视觉任务。FReLU 激活函数的计算公式和原理图分别为公式(1)和图 2 所示。max(,()yx T x=(1)图 2 FReLU 原理图式中:T(x)代表简单高效特征提取器。1.3 损失函数IoU,GIoU 与 CIoUIoU:在目标检测时,损失函数一般用交并比(Inter section over union,IoU)用 I 来表达,运算方法见下方程(2):DGIDG=(2)式
10、中:D(detection results)为检验结果;G(ground truth)的实验结果。由于常规的交并比不能体现二框间距的远近,所以提出了综合交并比 G(GIoU)8。G 公式如下:1gtCBBGIC=+(3)相 比 于 GIoU,目 标 检 测 模 型 采 用 常 C(complete intersection over union,CIoU),该模型更加精准,所考虑的更加周到,例如重叠面积、中心点距离等问题都能解决。具体如公式(4)(5)(6)所示:2/CId lv=(4)/(1)avIv=+(5)224(arctanarctan)gtgtddvhh=(6)式中:d 为预计框和实
11、际框中心线之间的最大欧式距离;l 为涵盖预计框和实际框中心的最小闭合框的正对角线边长;A为权重函数;v 为长宽比的相似性;gt为真实框;h 为框的实际高度。1.4 注意力机制(SE)模块压 缩 与 激 发 网 络(squeeze and excitation networks,SENet)9关注通道之间的关系,通过一系列操作得到一个11C 的权重矩阵,对原特征进行重构(不同颜色表示不同的数值,用来衡量通道的重要性)。其结构如图 3 所示。图 3 SENet 模块分析图图 3 展示了通道注意力机制的四个步骤,具体如下:第一步:Transformation(Ftr():给定一个 input 特征图
12、 X,让其经过 Ftr操作生成特征图 U,当前特征层 U 的特征图维度为 C,H,W。第二步:Squeeze(Fsq():对特征图的 H,W 维度进行平均池化或最大池化,池化过后的特征图大小从 C,H,W-C,1,1。C,1,1 可理解为对于每一个通道 C,都有一个数字和其一一对应。对 U 实现全局低维嵌入,相当于一个数值拥有该通道的全局感受野,如公式(7)所示:2023 年第 8 期190智能技术信息技术与信息化()111(,)HWsqccijFuu i jHW=(7)第三步:Excitation(Fex):这一步通过两层全连接层完成,通过权重 W 生成我们我所要的权重信息,其中 W 是通过
13、学习得到的,用来显示的建模我们我需要的特征相关性。如公式(8)所示:21(,)=(,)()exFz Wg z WWW z=(8)对 C,1,1 的特征可表现为,由各个通道本身所提取出特征的权重,权重大小说明了各个通道对特征提取的重要性,全局池化后的向量通过 MLP 网络后,其意义为得到了每个通道的权重。通过两个全连接层 W 1W 2 对上一步得到的向量 z 进行处理,得到我们想要的通道权重值 s,经过两层全连接层后,s 中不同的数值表示不同通道的权重信息,赋予通道不同的权重。第四步:Scale(Fscale):由算法流程图可以看出,第四步的操作是将第三步生成权重向量 s 对特征图 U 进行权重
14、赋值,得到我们想要的特征图X,其尺寸大小与特征图U完全一样,SE 模块不改变特征图的小大。如公式(9)所示:(,)scaleccccFu ss u=(9)上述步骤,得到了每个通道 C 的权重 C,1,1,将权重作用于特征图U C,H,W,即每个通道各自乘以各自的权重。可以理解为,当权重大时,该通道特征图的数值相应的增大,对最终输出的影响也会变大;当权重小时,该通道特征图的数值就会更小,对最终输出的影响也会变小。SE 模块是一个即插即用的模块,结构图如图 4 所示,是在一个卷积模块之后直接插入 SE 模块。注意:两层全连接层之间存在一个超参数 R,向量z(11C)经过第一层全连接层后维度由(11
15、C)变为(11C/r),再经过第二层全连接层为度由(11C/r)变为(11C)。2 改进的 YOLOv5 网络2.1 损失函数改为 SIoU有关 IoU 损失函数,如(GIoU,DIoU,CIoU)没有考虑到真实框与预测框框之间的方向,导致收敛速度较慢,对此SIoU10引入真实框和预测框之间的向量角度,重新定义相关损失函数,具体包含四个部分:(1)角度损失(Angle cost),如图 5 所示。图 5 角度损失图21 2 sin(arcsin()cos(2(arcsin()44hhcc=(10)式中:ch为真实框和预测框中心点的高度差,为真实框和预测框中心点的距离,事实上arcsin()/h
16、c等于角度。sin()hc=(11)22()()XXYYgtgtCCCCbbbb=+(12)max(,)min(,)YYYYgtgthCCCCCbbbb=(13)(bgtCx,bgtCy)为真实框中心坐标(bCx,bCy)为预测框中心坐标,可以注意到当 为/2 或为 0 时,角度损失为 0,在训练过程中/4,则最小化,否则最小化。距离损失(Distance cost),如图 6 所示。图 6 距离损失图,(1)2ptpxpyt x yeee=(14)2()XXgtCCxWbbpc=(15)2()yygtCCyhbbpc=(16)2=(17)(,)whcc为真实框和预测框最小外接矩形的宽和高。(
17、3)形状损失(Shape cost),定义如下:,(1)(1)(1)wtwtwht w heee=+(18)max(,)gthgthhWh h=max(,)gtWgtWWWW W=(19)(w,h)和(,)gtgtWh分别为预测框和真实框的宽和高,控制对形状损失的关注程度,为避免过于关注形状损失而降低对预测框的移动,使用遗传算法计算出 接近 4,因此定于 参数范围为 2,6。(4)IoU 损失IoUALB=(20)式中:A 表示的是图 7 中的交集 A,B 表示的是图 8 中的并集 B。图 4 SE 模块结构图 2023 年第 8 期191智能技术信息技术与信息化图 7 真实框与预测框交并图综
18、上所诉,最终 SIoU 损失函数定义如公式(21):12SIoULIoU+=+(21)2.2 注意力机制(CBAM)模块convolutional block attention module 简称 CBAM4,Sanghyun 等人在 2018 年提出的一个全新的卷积注意力模型,创新地提出了一种将时间注意力与空间注意力结合的新型注意力机制,对于前馈卷积的神经网络而言,是一个更简单且有效的新注意力模式。CBAM 首先分别确定了在道路轴与空间轴这二种主要维度之间的有意特性,并先后分别使用了channel attention module(通道注意模块),结构图则如图 8所给出。图 8 CBAM
19、注意力机制结构图假设输入特征公式为:C H WFR (22)利用 CBAM 依此推导出一维通道注意图:1 1CCMR 和二维空间注意图:。总的注意过程可以概括为:()CFMFF=(23)()SFMFF=(24)CAM 通道注意力机制的基本理念和 SENet 一致,只是具体操作方式和 SENet 不同。如图 9 所示,首先,通过对输入中的特性图形 F(HWC)依次经过基于 H 和 W 两个维度的全局最大值池化(MaxPool)和全局方差池化(AvgPool),而获得了两个 11C 的特性图形;然后,再把二个通道图送到一个共享连接权值的双层神经网络(MLP)中完成通道之间相互依赖机制的学习,在二个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 YOLOv5 针对 舰船 识别 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。