基于改进YOLOv5的拥挤行人检测算法.pdf
《基于改进YOLOv5的拥挤行人检测算法.pdf》由会员分享,可在线阅读,更多相关《基于改进YOLOv5的拥挤行人检测算法.pdf(9页珍藏版)》请在咨信网上搜索。
1、投稿网址:2023 年 第23 卷 第27 期2023,23(27):11730-09科 学 技 术 与 工 程Science Technology and EngineeringISSN 16711815CN 114688/T引用格式:王宏,韩晨,袁伯阳,等.基于改进 YOLOv5 的拥挤行人检测算法J.科学技术与工程,2023,23(27):11730-11738.Wang Hong,Han Chen,Yuan Boyang,et al.Crowded pedestrian detection algorithm based on improved YOLOv5J.Science Tech
2、nologyand Engineering,2023,23(27):11730-11738.基于改进 YOLOv5 的拥挤行人检测算法王宏1,2,韩晨1,2,袁伯阳1,2,田增瑞1,2,盛英杰1,2(1.郑州轻工业大学建筑环境工程学院,郑州 450002;2.河南省智慧建筑与人居环境工程技术研究中心,郑州 450002)摘 要 针对密集场景下行人检测的目标重叠和尺寸偏小等问题,提出了基于改进 YOLOv5 的拥挤行人检测算法。在主干网络中嵌入坐标注意力机制,提高模型对目标的精准定位能力;在原算法三尺度检测的基础上增加浅层检测尺度,增强小尺寸目标的检测效果;将部分普通卷积替换为深度可分离卷积,在
3、不影响模型精度的前提下减少模型的计算量和参数量;优化边界框回归损失函数,提升模型精度和加快收敛速度。实验结果表明,与原始的 YOLOv5 算法相比,改进后 YOLOv5 算法的平均精度均值提升了 7.4 个百分点,检测速度达到了 56.1 f/s(帧/秒),可以满足密集场景下拥挤行人的实时检测需求。关键词 深度学习;拥挤行人检测;小目标检测;YOLOv5中图法分类号 TP391.4;文献标志码 A收稿日期:2023-02-02;修订日期:2023-07-07基金项目:河南省科技攻关项目(232102211050,222102220071,222102320298,20212102310519,
4、212102210535);河南省高等学校重点科研项目(22A470014,20A620005,19A413013);郑州轻工业大学 2021 年度星空众创空间项目(2021ZCKJ106)第一作者:王宏(1977),男,汉族,河南平顶山人,硕士,教授。研究方向:信息处理、智能控制与检测。E-mail:wanghong 。通信作者:韩晨(1996),女,汉族,河南商丘人,硕士研究生。研究方向:信息处理、智能控制与检测。E-mail:chenhan 。Crowded Pedestrian Detection Algorithm Based on Improved YOLOv5WANG Hong1
5、,2,HAN Chen1,2,YUAN Bo-yang1,2,TIAN Zeng-rui1,2,SHENG Ying-jie1,2(1.College of Building Environment Engineering,Zhengzhou University of Light Industry,Zhengzhou 450002,China;2.Henan Engineering Research Center of Intelligent Buildings and Human Settlements,Zhengzhou 450002,China)Abstract Aiming at t
6、he problems of mutual occlusion and small target size in pedestrian detection of dense scenes,a crowded pe-destrian detection algorithm based on improved YOLOv5 was proposed.Firstly,the coordinate attention mechanism in the backbonenetwork was embed to enhance the accurate positioning ability of the
7、 model to the target.Secondly,on the basis of the originalalgorithms three-scale detection,the shallow detection scale was added to improve the detection effect of small sized targets.Thirdly,the depth separable convolution was used to replace some ordinary convolution,which cowld reduce the calcula
8、tion and parameters ofthe model without affecting the accuracy of the model.Finally,the bounding box regression loss function was optimized to improve themodel accuracy and speed up the convergence speed of the model.Experiments show that,compared with the original YOLOv5 algo-rithm,the average accu
9、racy of the improved YOLOv5 algorithm has increased by 7.4 percentage points,and the detection speed hasreached 56.1 frames/s,which can meet the real-time detection requirements of crowded pedestrians in dense scenes.Keywords deep learning;crowded pedestrian detection;small target detection;YOLOv5 行
10、人检测作为计算机视觉领域的热门研究方向,对于行人重识别、行人多目标跟踪、视频监控、智慧交通等领域具有重要意义。由于实际场景复杂、目标密度较大、重叠率过高,以及目标距离摄像设备较远等情况,导致当前行人检测算法存在精度低、漏检和误检率高等问题,因此提出一种可用于密集场景下的行人目标检测算法具有相当的可行性1。基于深度学习的目标检测算法可分为基于区域推荐的 Two Stage 算法和基于回归的 One Stage 算法。Two Stage 算法首先根据图像生成可能包含检测目标的候选框,然后对生成的候选框进行类别识别和位置校准,代表性的算法主要有 R-CNN(region-convolu-tional
11、 neural network)2、Fast R-CNN3、Faster R-CNN4、Mask R-CNN5等,其特点是检测精度较高,但推理和检测时间较长。One Stage 算法不需要生成候选框,仅需要一次特征提取,就可以直接生成被检测目标的类别概率和位置信息,代表性的算法主要有YOLO(you only look once)6-10、SSD(single shot multi-box detector)11、EfficientDet12等,其特点是推理和检测速度显著提高,但检测精度较低。近年来,许多学者针对基于深度学习的行人检测算法展开了相关工作。张秀再等13将 YOLOv5模型与注意力
12、机制、残差网络和软阈值化函数相融合,有效提高了对小行人目标和密集行人目标的检投稿网址:2023,23(27)王宏,等:基于改进 YOLOv5 的拥挤行人检测算法11731测精度,但网络结构过于复杂,导致检测速度较慢。邹斌等14提出了改进 Faster-RCNN 的密集人群检测算法,在特征提取阶段添加空间与通道注意力机制并使用 S-BiFPN(strong bidirectional feature pyra-mid network)替代原网络中的多尺度特征金字塔,使网络可以加强对图像深层特征的提取,但该算法无法满足目标检测的实时性。Zhang 等15提出一种基于改进 YOLOv3 的轻量级行人
13、检测算法,通过引入正则化减少了不重要的通道数,充分降低了模型的计算量和复杂度,但该算法在拥挤场景下的行人检测精度还有待提高。齐鹏宇等16提出一种全卷积 One Stage 目标检测框架,通过增加尺度回归提升了行人检测的性能,但该模型受行人深度特征影响较大,对遮挡目标的检测精度欠佳。刘振兴等17提出了一种融合上下文及空间信息的拥挤行人检测算法,通过改进特征金字塔网络结构和添加带权融合分支,有效提升了行人检测算法在拥挤场景中的检测效果,但在实验论证过程中发现该模型存在性能不稳定、检测不够精准和检测速度较慢的情况。图 1 YOLOv5 网络结构Fig.1 Network structure of Y
14、OLOv5现有的深度学习算法在不同程度上提升了密集人群检测的性能,但部分改进后的算法网络结构较复杂,以及对遮挡程度较高的目标和极小尺寸目标的检测性能有所欠佳,导致改进后算法存在检测速度较慢、漏检和误检率高等问题。因此现提出改进 YOLOv5 的拥挤行人检测算法,通过公开数据集 Crowd Human18对该算法进行训练,以期在密集场景中的拥挤行人检测能够达成更好的效果。主要工作如下。(1)在主干网络中嵌入坐标注意力机制 CA(co-ordinate attention)19,用以增大主干网络的感受野和提高 YOLOv5 捕获位置信息的能力。(2)在原网络三尺度检测的基础上再增加一层浅层检测层,
15、同时改进特征融合部分,提高了对于小尺寸目标的检测性能。(3)使用深度可分离卷积20(DSConv)替换部分普通卷积(Conv),在对特征提取影响较小的前提下大幅降低了模型的参数量和计算量。(4)使用有效交并比损失函数(efficient intersec-tion over union loss,EIOU_loss)21,融合边界框宽高比的尺度信息,有效提升了 YOLOv5 模型的检测精度。1 YOLOv5 算法原理YOLOv5 是 YOLO 系列算法中强大的一代,具有较强的实时处理能力和较低的硬件计算要求。YOLOv5 包括 4 种不同的网络结构,考虑检测速度和精度两方面因素,以网络深度和宽
16、度最小的YOLOv5s(简称“YOLOv5”)为基础网络进行优化。如图 1 所示,YOLOv5 网络结构由输入端(Input)、主干网络(Backbone)、特征提取网络(Neck)、预测端投稿网址:11732科 学 技 术 与 工 程Science Technology and Engineering2023,23(27)(Prediction)四部分组成。图 2 改进后 YOLOv5 网络结构示意图Fig.2 Schematic diagram of improved YOLOv5 network structure输入端包括 Mosaic 数据增强、图像尺寸处理和自适应锚框计算22。主干
17、网络为 CSP-Darknet53,主要包括 Focus、CSP(cross stage partial)和 SPP(spa-tial pyramid pooling)三部分。其中 Focus 模块能够实现快速下采样操作;CSP 结构将输入分为分别执行卷积运算的两个分支,其中一个分支中信息通过CBL 模块(CBL=卷积+正则化+激活函数)后进入多个残差结构,另一分支则直接进行卷积信息,之后将两个分支合并起来23,使网络在提高模型学习能力的同时保证准确率;SPP 模块由 Conv、max-poo-ling 和 concat 三部分组成,其作用主要是在不影响推理速度的前提下增加特征提取的感受野,同
18、时增强网络的非线性表示。Neck 的核心为 FPN(featurepyramid network)和 PAN(path aggregation network)。FPN 通过自上而下的上采样实现了语义特征从深层特征图到浅层特征图的传递,PAN 通过自下而上的路径结构实现了定位信息从浅层特征层到深层特征层的传递,二者的组合大大增强了网络的特征融合能力。预测端利用 GIOU_loss 损失函数和非极大值抑制(non-maximum suppression,NMS)获得最优的目标框,提高了网络识别的准确性。2 YOLOv5 算法改进以 YOLOv5 原算法为基础,分别对其主干网络、检测尺度、特征提取
19、网络和损失函数进行了一系列改进。改进后的 YOLOv5 网络结构如图 2 所示。2.1 主干网络改进在目标检测中加入注意力机制可以使模型聚焦于图像中的关键特征,抑制无关特征。为解决密集场景中背景信息杂乱导致行人目标的特征不明显,以及目标相互遮挡、重叠的问题,在主干网络中嵌入一种坐标注意力机制,使模型更准确地定位和识别感兴趣的目标。通常注意力机制会在一定程度上提高模型的精度,但同时也会使模型增加额外的计算量,影响其检测速率。但简单轻量的 CA 模块几乎没有额外的计算开销,能够在不影响模型检测速率的情况下提升模型的性能。如图3 所示,CA 分为坐标信息嵌入和坐标信息特征图生成。投稿网址:2023,
20、23(27)王宏,等:基于改进 YOLOv5 的拥挤行人检测算法11733第一步,CA 对输入特征图 X 使用尺寸为(H,1)和(1,W)的池化核进行通道编码,得到高度为 h 的第 c 个通道与宽度为 w 的第 c 个通道的输出,产生两个独立方向感知特征图 zh与 zw,大小分别为 C 1 H 和 C 1 W,公式为zhc(h)=1W0i Wxc(h,i)(1)zwc(w)=1H0j Hxc(j,w)(2)第二步,通过 Concat 融合上述操作生成的 zh和zw,并使用卷积核大小为1 的卷积变换函数 F1对其进行变换操作,生成在水平和垂直方向进行空间信息编码的中间特征图 f,公式为f=F1(
21、zh,zw)(3)图 4 深度可分离卷积原理图Fig.4 Schematic diagram of depth separable convolution式(3)中:为非线性激活函数。沿着空间维度将 f分解为两个独立的张量 fh RC/rH和 fw RC/rW,其中 r 表示下采样比例。然后利用两个卷积核大小为1 的卷积变换函数 Fh和 Fw将特征图 fh和 fw变换为与输入 X 具有相同通道数的张量24。公式为gh=Fh(fh)(4)图 3 CA 结构示意图Fig.3 Structure diagram of CAgw=Fw(fw)(5)式中:为 sigmoid 激活函数。最后将输出 gh和
22、 gw进行拓展,分别作为注意力权重分配值,最终输出公式为yc(i,j)=xc(i,j)ghc(i)gwc(j)(6)2.2 检测尺度改进对于输入尺寸为 640 640 的图像,YOLOv5 分别利用 8 倍、16 倍、32 倍下采样输出检测尺度为20 20、40 40、80 80 的特征图,对应检测大、中、小 3 种尺度的目标。但在实际场景中,很多行人目标由于距离当前摄像头较远,导致其在图像或视频中所占像素过小,而用来检测小目标的 80 80 尺度的特征图无法有效检测到这些更小尺寸的目标,极大地影响了检测结果。针对以上问题,在 YOLOv5 原有网络结构上增加一层尺度为 160 160 的检测
23、层,同时将原来的特征融合部分改为对应的四尺度特征融合。具体操作为:第 17 层后继续增加 CBL 层和上采样,使得特征图进一步扩大;在第 20 层时,将扩展得到的尺度为 160 160 的特征图与 Backbone 中第 2 层特征图进行 Concat 拼接,融合其细节信息和语义信息,获取更大尺度的特征图用以检测更小尺寸的目标;第21 层增加尺度为 160 160 的浅层检测层,其他 3个检测层保持不变。改进后的四尺度检测有效利用了浅层特征信息和深层特征的高语义信息,使模型能够从更深层的网络中提取特征信息,提高了模型在密集场景下多尺度学习的能力。2.3 特征提取网络改进改进 YOLOv5 的四
24、尺度检测虽然提高了模型的检测精度,但同时也在一定程度上加深了网络深度,再加上 YOLOv5 网络中存在大量的卷积操作,导致模型参数量过多,检测速度较慢。使用深度可分离卷积替换 Neck 中的部分普通卷积,旨在确保精度基本不变的情况下降低模型的复杂度。深度可分离卷积的原理如图 4 所示。投稿网址:11734科 学 技 术 与 工 程Science Technology and Engineering2023,23(27)深度可分离卷积将普通卷积分解为深度卷积和点态卷积。首先使用尺寸为 K K 的卷积核对通道数为 M 的输入特征图做逐通道卷积,得到 M 个尺寸为 Q Q 的特征图。然后由 N 个过
25、滤器对特征图进行点态卷积操作,最终得到通道数为 N,尺寸为D D 的输出特征图。普通卷积的计算公式为K K M N D D(7)深度可分离卷积的计算公式为K K M D D+M N D D(8)深度可分离卷积与普通卷积的计算量之比为1/N+1/K2,所以将特征提取网络中的部分普通卷积替换为深度可分离卷积可以降低模型参数量,提高模型检测速度。2.4 损失函数改进YOLOv5 的损失函数包括边界框回归损失(bounding box loss)、置信度损失(objectness loss)以及分类概率损失(classification loss)三部分25。原 YOLOv5 算法采用 GIOU_lo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 YOLOv5 拥挤 行人 检测 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。