基于改进YOLOv5算法的红外图像行人目标检测.pdf
《基于改进YOLOv5算法的红外图像行人目标检测.pdf》由会员分享,可在线阅读,更多相关《基于改进YOLOv5算法的红外图像行人目标检测.pdf(6页珍藏版)》请在咨信网上搜索。
1、第 19 卷 第 2 期2024 年 2 月Vol.19 No.2Feb.2024中 国 科 技 论 文CHINA SCIENCEPAPER基于改进YOLOv5算法的红外图像行人目标检测高正中,于明沆,孟晗,殷秀程(山东科技大学电气与自动化工程学院,山东青岛 266000)摘 要:针对红外图像中行人检测算法准确率低、漏检等问题,提出了一种基于改进YOLOv5s的红外行人目标检测方法。首先,利用Transformer编码结构替换C3模块中的Bottleneck结构,以加强检测网络的特征融合能力;其次,利用递归门控卷积gnConv对视觉感受野模块RFB进行改进,并在YOLOv5s头部检测网络前加入
2、改进的RF-gnConv模块,以提高模型对各种复杂场景行人检测的适应力;最后,利用OTCBVS数据集对算法模型进行验证。结果显示:改进后的算法模型平均精度均值达到97.3%,检测速度为63帧/s,验证了改进算法对红外图像中行人检测的有效性。关键词:红外图像;行人检测;深度学习;视觉感受野中图分类号:TP391 文献标志码:A文章编号:2095-2783(2024)02-0209-06开放科学(资源服务)标识码(OSID):Improved YOLOv5-based infrared pedestrian target detectionGAO Zhengzhong,YU Minghang,ME
3、NG Han,YIN Xiucheng(College of Electrical Engineering and Automation,Shandong University of Science and Technology,Qingdao,Shandong 266000,China)Abstract:In order to solve the problem of current pedestrian detection algorithms for infrared images in terms of low accuracy and missing detection,an inf
4、rared pedestrian target detection method based on improved YOLOv5s was proposed.Firstly,the Transformer coding structure was utilized to replace the Bottleneck structure in the C3 module in order to strengthen the feature fusion capability of the detection network.Secondly,the recursive gated convol
5、ution gnConv was utilized to improve the visual sensory field module RFB,and the improved RF-gnConv module was added in front of the YOLOv5s head detection network,leading to the improvements of the model s resilience to pedestrian detection in various complex scenes.Finally,the algorithm model was
6、validated using the OTCBVS dataset.The results show that the improved algorithm model achieves an average accuracy of 97.3%,and the detection speed is 63 frames/s,indicating the effectiveness of improved algorithm,mentioned in this paper,for the detection of pedestrians in infrared images.Keywords:i
7、nfrared image;pedestrian detection;deep learning;receptive field行人检测作为计算机视觉中的重点研究方向,其在视频监控、目标搜索等领域发挥着越来越重要的作用。在视觉数据方面,红外成像可以为行人检测提供优良的视觉数据,远优于可见光成像,因此红外图像的行人检测问题逐渐成为计算机视觉中的重点课题1。传统的红外图像行人检测,首先根据人为设计的特征提取器,如灰度方向梯度直方图、局部二值模式、Haar-like等通用的图像处理方法2来提取行人特征,然后利用支持向量机(support vector machine,SVM)等分类器来判断区域是否含
8、有目标。上述传统检测方法的特征提取和判断分类的能力十分有限,应用场景单一,不能满足复杂场景下的红外图像行人检测。近年来,卷积神经网络(convolutional neural network,CNN)凭借其强大的自动特征建模能力3,使目标检测领域的处理精度达到了更高水平。Girshick等4提出区域卷积神经网络(RCNN)算法,在目标检测中采用深层CNN提取特征;之后,Fast R-CNN5、Faster R-CNN6相继被提出,检测精度相较于传统方法大幅提升,但上述两阶段目标检测方法的检测速度仍然很难满足现实检测任务的实时性。Redmon 等7提出了一阶段目标检测算法(YOLO),其能够同时
9、完成目标的定位和分类,检测速度明显提升,但该方法定位误差较大,在检测重叠、遮挡、多目标和小尺寸目标等复杂场景下的图像时,效果不理想。本文针对上述检测方法在复杂场景下的行人检测准确率低、漏检等问题,对 YOLOv5 算法进行改收稿日期:2023-05-06基金项目:山东省自然科学基金资助项目(ZR2020MF071)第一作者:高正中(1971),男,教授,主要研究方向为计算机检测与控制、机器人技术等,第 19 卷 中 国 科 技 论 文进。首先,引入Transformer编码结构8来增强原始网络的特征融合能力;其次,借鉴视觉感受野模块RFB9和递归门控卷积gnConv10设计一种多尺寸空间特征融
10、合的模块RF-gnConv,使网络模型能够适应各种复杂场景的行人目标检测任务;最后,从模型训练和目标检测结果的角度评估模型的有效性。1YOLOv5s网络模型为实现模型轻量化的目的,本文选择模块width和depth较小的YOLOv5s作为本实验的基础模型。其网络结构如图1所示,主要由输入端(Input)、主干网络(Backbone)、颈部网络(Neck)和预测端(Prediction)11组成。其中,Backbone作为整个网络的特征提取结构,主要包含了 C3 模块12、Foucs 和 SPP 模块;提取的特征在 Neck 进行特征融合,其在 FPN(feature pyramid netwo
11、rks)13结构的基础上参考了PANet14网络,实现了FPN+PAN结构的多尺度特征融合网络。2改进YOLOv5s网络模型2.1C3TR模块本文将Transformer编码结构嵌入YOLOv5s特征融合网络的 C3 模块中,替换原结构中的 Bottleneck,得到新模块C3TR,如图2所示。本文利用Transformer编码结构替换C3模块原结 构 中 的 Bottleneck,并 用 新 模 块 C3TR 对YOLOv5s 特征融合网络中的 C3 模块进行替换。C3TR 及 Transformer 编码结构如图 2 所示。其中,Transformer编码结构将转化为向量形式的图像数据送入
12、多头注意力层中,多头注意力层通过式(1)获得图像中空间特征的权重矩阵,该权重矩阵表示不同空间特征之间相关性的加权求和,将其与特征图相乘来突出图像中的重要特征;多头注意力层输出的结果最后送入多层感知机(multi layer perceptron,MLP)中。Transformer 编码结构的嵌入提升了 C3模块关注图像不同位置的能力,使网络在训练中学习了更丰富的信息。Z=softmax()QKTdkV。(1)式中:Q、K、V分别为查询向量、键向量和值向量;dk为3个输入向量的维度;softmax()为归一化函数,将矩阵值映射到0和1之间。2.2RF-gnConv模块视觉感受野模块RFB借鉴了I
13、ncepion网络的多分支结构,在此基础上加入空洞卷积。图3为RFB的网络结构:首先通过11、33和55卷积核构成三分支结构,不同尺寸的常规卷积用来模拟群体感受野(pRF)中的不同感受野,并在每一个分支中分别引入空洞率(rate)为1、3、5的空洞卷积增大感受图1YOLOv5s网络模型Fig.1YOLOv5s network model图2C3TR与Transformer编码Fig.2C3TR and Transformer encoding图3RFB网络结构感受野Fig.3Receptive field of RFB210高正中,等:基于改进YOLOv5算法的红外图像行人目标检测第 2 期野
14、,最后将3个分支的输出连接在一起,达到融合不同权重的多尺寸感受野的效果。虽然RFB根据有效感受野的特性,对不同尺寸的感受野赋予了大小不一的权重,即越靠近感受野中心的区域越有效,但是并没有考虑不同像空间特征之间的相关性,即特征图的上下文信息,仅仅是简单地赋予感受野中心像素更大的权重。对于图像中上下文信息的获取,递归门控卷积gnConv借鉴了自注意力机制(self-attention)通过query、key和value之间的2个连续的矩阵乘法来实现二阶的空间信息交互的过程,并借助门控卷积和递归操作高效地实现了任意阶数的空间信息交互。其结构原理如图4所示,其中C表示通道数,Proj_in和Projs
15、实现对通道数目翻倍,Proj_out输出通道数目不变;DWConv 为77深度可分离卷积或者global fiter,将其输出特征沿通道分成多块,每一块与前一块交互完的特征进一步通过逐元素相乘的方式进行交互,最终得到输出特征,并降低了运算复杂度。针对RFB存在的问题,本文分别在RFB的分支中加入递归门控卷积gnConv来代替原来的空洞卷积,新模块RF-gnConv的结构如图5所示。虽然gnConv采用77大尺寸卷积或者 global fiter能够更好地对全局特征进行建模,但过大的感受野也会容易忽略对小尺寸行人目标的检测。为了避免这种情况,本文对改进RF-gnConv三分支中的gnConv分别
16、采用尺寸为3及空洞率为1、3、5的深度可分离卷积。3种不同大小空洞率的深度可分离卷积,既保留了RFB融合多尺寸感受野的机制,又实现了特征与周围区域的高阶空间交互;同时,获取的上下文信息符合有效感受野的特性,特征之间的相关性由感受野中心向外依次减弱。2.3改进后的YOLOv5s网络模型改进后模型如图 6 所示。本文在 YOLOv5s 特征融合网络上进行结构上的改进。首先,将网络中C3 模 块 的 Bottleneck 替 换 为 Transformer 编 码 结构,新模块 C3TR 增强了模型的长距离建模能力,使模型在训练中能够综合学习局部特征与全局特征;其次,将改进的RF-gnConv模块分
17、别添加进YOLOv5s 模型的头部检测网络前,使改进后的模型所提取的图像特征包含多尺寸感受野以及上下文信息,能更好地适应各种复杂场景的行人目标检测任务。3实验及结果分析3.1数据集建立和实验环境本文数据集选自 OTCBVS 基准数据集中的Dataset01:OSU Thermal-Pedestrian Database(俄勒冈州立大学热行人数据库)、Dataset03:OSU-Color-Thermal Database(俄勒冈州立大学彩色热数据库)中红外图像部分,由这2份数据集组合作为本文实验所用数据集。由于数据集中的图像帧间隔较短,相邻帧图像较为相似,因此针对原数据集进行图像筛图4gnCo
18、nv结构原理Fig.4gnConv structural principle图5RF-gnConv网络结构Fig.5RF-gnConv network structure图6改进YOLOv5s网络模型Fig.6Improved YOLOv5s network model211第 19 卷 中 国 科 技 论 文选,剔除相似度较大的图像,防止网络训练时出现过拟合现象。经过数据筛选后,得到的数据集最终包含 1 870 幅图像。其中,1 510 幅图像作为训练集,360幅图像作为测试集。本文实验硬件配置和参数配置见表1和表2。3.2评价指标本文采用准确率(Precision)、召回率(Recall)
19、、平均精度均值(mAP)、模型的复杂度(GFLOPs)和检测速度(FPS)作为性能评价指标。其中,准确率(Precision)、召回率(Recall)的计算公式分别为Precision=TTPTTP+FFP,(2)Recall=TTPTTP+FFN=TTPP。(3)式中:TTP为行人目标被正确检测数量;FFP为非行人目标被检测为行人数量;FFN为行人目标被错误检测数量;P为所有行人目标数量。mAP 是对准确率和召回率的一种综合评价指标,表示Precision-Recall曲线下的面积,针对不同的交并比(IOU),其阈值有所不同,mAP0.5 表示IOU为0.5时的mAP值。3.3结果分析3.3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 YOLOv5 算法 红外 图像 行人 目标 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。