基于YOLOv5s的轻量化行人检测算法.pdf
《基于YOLOv5s的轻量化行人检测算法.pdf》由会员分享,可在线阅读,更多相关《基于YOLOv5s的轻量化行人检测算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、现代电子技术Modern Electronics TechniqueNov.2023Vol.46 No.222023年11月15日第46卷第22期0 引 言行人检测一直都是计算机视觉和目标检测领域的研究热点,其广泛应用于人群计数、智能安防、自动驾驶等应用领域。目前存在的行人检测算法已经取得较好的检测效果,但依然面临一些挑战,比如:行人检测识别系统普遍都安装在智能汽车和无人机等移动端智能平台中,对模型轻量化要求较高,然而已有算法很难在轻量化和精度上达到平衡,因此提高行人检测精度的同时保持模型轻量化有着重要的研究意义。常用的行人检测方法主要分为传统行人检测方法和基于深度学习的行人检测方法两大类。基
2、于深度卷积神经网络的目标检测算法主要分为单阶段算法和双阶段算法1。其中双阶段算法是基于候选框的方法,代表算法主要有 RCNN2、Fast RCNN3、Faster RCNN4等,该类算法精度较高,但检测速度较慢;单阶段算法是基于回归的方法,不再提取候选区域,代表算法主要有SSD(Single Shot MultiBox Detector)5系列、YOLO(You Only Look Once)69系列等,该类算法检DOI:10.16652/j.issn.1004373x.2023.22.026引用格式:高英,吴玉虹.基于YOLOv5s的轻量化行人检测算法J.现代电子技术,2023,46(22)
3、:151158.基于YOLOv5s的轻量化行人检测算法高 英,吴玉虹(昆明理工大学 信息工程与自动化学院,云南 昆明 650500)摘 要:行人检测系统普遍安装在移动智能设备上,而这些设备对模型的轻量化要求较高,已有算法很难在精度和轻量化之间达到平衡。针对这一问题,提出一种改进的YOLOv5s轻量化行人检测模型。选用EIoU作为边界框损失函数,加速收敛并提高回归精度;结合CA(Coordinate Attention)注意力模块改进主干网络的C3模块,增强模型对行人目标的精确定位能力;引入一种新卷积层 GSConv替换颈部网络的卷积层(Conv),以减轻模型的复杂度并保持准确性;引入改进的自注
4、意力模块 CoT,进一步提高网络模型的特征表达能力。使用 INRIA 数据集进行训练和测试,实验结果表明:改进后的模型mAP0.5达到 97%,相比于原始模型提高 1.9%,mAP0.5:0.95提高 2.1%;而模型参数量降低 10.5%,模型体积降低 13%,计算量GFLOPS减少7%,能够在提高行人检测精度的同时使得模型更加轻量化。关键词:行人检测算法;YOLOv5s;轻量化;EIoU;CA注意力机制;GSConv中图分类号:TN911.7334;TP391.41 文献标识码:A 文章编号:1004373X(2023)22015108Pedestrian detection algori
5、thm based on YOLOv5s lightweightGAO Ying,WU Yuhong(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)Abstract:Pedestrian detection systems are generally installed on mobile smart devices,which require the lightweight of the model.Howe
6、ver,existing algorithms struggle to reach a balance between accuracy and lightweight.On this basis,an improved model of YOLOv5s lightweight pedestrian detection is proposed.The EIOU is selected as the bounding box loss function to accelerate convergence and improve the regression accuracy.The C3 mod
7、ule of the backbone network is improved with the CA(coordinate attention)attention module to enhance the models precise positioning ability for pedestrian targets.A new convolutional layer GSConv is used to replace the convolutional layer(Conv)of the neck network to reduce model complexity and maint
8、ain accuracy.The improved selfattention module CoT is introduced to further improve the feature expression capability of the network model.The INRIA data set is used for training and testing,the experimental results show that the mAP0.5 of the improved model can reach 97%,which is 1.9%higher than th
9、at of the original model,mAP0.5:0.95 can be increased by 2.1%.The reduction in model parameters by 10.5%,model volume by 13%,and computational load GFLOPS by 7%can improve pedestrian detection accuracy while making the model more lightweight.Keywords:pedestrian detection algorithm;YOLOv5s;lightweigh
10、t;EIoU;CA attention mechanism;GSConv收稿日期:20230420 修回日期:20230525151151现代电子技术2023年第46卷测速度快,发展至今,检测精度已经超过双阶段算法10。2020年,Ultralytics 团队汇集了很多深度学习目标检测框架的优点,提出了 YOLOv5。YOLOv5 在各个数据集上体现出收敛速度快、模型可定制性强的特点,同时,也更加轻量化和高效,可以在移动端等资源有限的场景中进行实时行人检测。在相关的目标检测研究中,王程等人引用深度可分离卷积代替 YOLOv4算法的传统卷积,降低模型的参数量和计算量11。孙家慧等人结合 CBAM
11、 注意机制和多尺度卷积对 YOLOv4 算法进行改进,提升算法性能,同时减少网络的参数12。陈一潇等人引入 CA 模块改进YOLOv5 算法,增强模型对目标的精确定位能力13。Li等人引入了一种新方法GSConv,来减轻模型的复杂度并提高准确性14。为提高行人检测准确率、使模型轻量化,本文选择YOLOv5s6.0 算法作为基础网络,首先修改损失函数,优化模型性能;然后引入 CA 注意力机制改进 C3模块,增强主干网络特征提取能力;其次在颈部网络引入一种新卷积层 GSConv来减少模型的参数量,加入新的注意力结构 CoT 模块改进 C3_F 模块等方法,提高网络模型的特征表达能力;最后基于模型测
12、试结果及一系列评价指标评估所训练模型的优越性。1 YOLOv5s网络结构介绍本文选用 YOLOv56.0 版本的网络,按照网络的深度和宽度不同,可分为 n、s、m、l、x五个版本。大多情况选用 YOLOv5s 为基础模型进行改进,既能满足模型轻量化设计又能保证检测精度。YOLOv5 主要由输入端(Input)、主干网络(Backbone)、颈部网络(Neck)、检测端(Head)四个部分组成,其结构如图1所示。图1 YOLOv56.0网络结构图1)Input为图像预处理阶段,将输入图像自适应缩放到网络指定的输入大小,并进行归一化等操作。在网络训练阶段,使用了马赛克(Mosaic)数据增强、自适
13、应计算锚框与自适应图片缩放三个方法。2)Backbone为提取特征阶段。Conv模块包含二维卷积(Conv2d)、批量归一化(Batch Normalization)和激活函数(SiLU)三个部分。C3模块包含了 3个 Conv以及多个 Bottleneck 模块;SPPF 模块采用多个小尺寸的池化核级联代替空间金字塔池化 SPP(Spatial Pyramid Pooling)19模块中单个大尺寸池化核,在保留原有功能基础上,不仅融合了不同感受野的特征图,丰富了特征图的表达能力,还进一步提高了运行速度;Bottleneck模块借鉴了 ResNet的残差结构,Backbone 中的 Bottl
14、eneck都默认使shortcut为True。3)Neck 为特征融合阶段,采用了 FPN+PAN2021的结构。C3_F 模块相比于 C3 模块,Bottleneck 都不使用shortcut,而是使用原始的Conv。4)Head对图像特征进行预测,生成边界框并预测类别。对Neck中得到的不同尺度的特征图分别通过11卷积进行通道数扩展,输出 3种不同尺寸的特征图;再152第22期使用非极大值抑制算法(NMS)对生成的大量候选框进行后处理,去除冗余的候选框,以加快目标检测的效率。2 改进的YOLOv5s网络结构2.1 引入CA注意力机制目前主流的注意力机制主要有 SE、ECA、CBAM、CA等
15、。其中 SE15为通道注意力机制,仅考虑了通道间的信息,忽略了位置信息;ECA16在 SE 模块的基础上,改为使用 11卷积学习通道注意信息,降低了参数量;CBAM17在SE基础上进行改进,结合了通道注意力和空间注意力机制,但卷积只能提取局部关系,缺乏长距离关系提取的能力;CA 注意力18在 CBAM 基础上将通道注意力分解为两个一维特征编码过程,分别沿2个空间方向聚合特征,不仅获取了通道间信息,还考虑了方向相关的位置信息,有助于模型更好地定位和识别目标。CA注意力机制结构如图2所示。图2 CA注意力机制网络结构图 2 中,先将输入特征图分为宽度(W)和高度(H)两个方向,沿着 x 轴和 y
16、轴进行全局平均池化(Avg Pool),分别获得在宽度和高度两个方向的特征图,公式如下:zhc(h)=1W0 i Wxc(h,i)(1)zwc(w)=1H0 j Hxc(j,w)(2)式中:zhc代表通道c在高度h输出;xc表示通道c的输出;zwc代表通道c在宽度w输出。然后将获得全局感受野的宽度和高度两个方向的特征图拼接(Concat)在一起,并将它们送入共享的卷积核为 Conv2d的卷积模块,将其维度降低为原来的;再将经过批量归一化处理的特征图送入 Sigmoid激活函数,得到相似的特征图,公式如下:f=()F1(zh,zw)(3)接着将特征图f按照原来的高度和宽度进行卷积核为1 1的卷积
17、,分别得到通道数与原来一样的特征图Fh和Fw,经过 Sigmoid激活函数后分别得到特征图在高度上的注意力权重gh和在宽度方向的注意力权重gw,公式如下:gh=(Fh(fh)(4)gw=(Fw(fw)(5)经过上述计算后,将会得到输入特征图在高度方向的注意力权重gh和在宽度方向的注意力权重gw。最后在原始特征图上通过乘法加权计算,得到最终在宽度和高度方向上带有注意力权重的特征图,进而加强特征图的表示能力,公式如下:yc(i,j)=xc(i,j)ghc(i)gwc(j)(6)将 CA 注意力机制模块添加至 YOLOv5 主干网络中,可以加强特征提取能力。为进一步提高增强主干网络感受野,将 CA
18、注意力机制融合 C3 模块。改进的 C3模块如图3所示。图3 改进的C3模块图 3中 C3CA1模块是在 C3模块末尾添加 CA模块,精确度有所提高;为进一步轻量化模型,减少参数量,去除部分卷积层,再改进为 C3CA2结构,精度没有下降但参数量有所减少。2.2 引入GSConv模块为满足模型轻量化设计,减少计算成本,许多模型使 用 深 度 可 分 离 卷 积 层(Depth wise Separable Convolution,DSC)操作来减少参数和计算量,但大量深度可分离卷积层构建的轻量级模型无法达到足够的准确性。本文引入一种新卷积 GSConv14替换模型普通卷积层,来减轻模型的复杂度并
19、保持准确性。GSConv结构如图4所示。在图 4 中,Conv 为标准卷积层,结构与图 1 中 Conv高 英,等:基于YOLOv5s的轻量化行人检测算法153现代电子技术2023年第46卷结构相同;DSC操作将一个完整的卷积运算分解为两步进 行,分 别 为 逐 通 道(Depthwise,DW)卷 积 与 逐 点(Pointwise,PW)卷积,用来提取特征图;GSConv将普通卷积层 Conv和深度可分离卷积层 DSC 结合,通过通道随机混合操作(Channel Shuffle Operation)即“重塑转置重塑”操作,使用Shuffle将Conv生成的信息渗透到DSC生成的信息的每个部
20、分。图4 GSConv网络结构模型的所有阶段都使用 GSConv,模型的网络层会更深,极大地增加了推理时间。所以本文仅在 Neck网络使用GSConv,将Neck网络中的所有标准卷积Conv替换为GSConv,从而有效减轻Neck网络的复杂度。2.3 引入CoT模块传统的自注意力机制(SelfAttention)可以很好地触发不同空间位置的特征交互,然而,所有的QueryKey关系都是独立的,没有探索两者之间的丰富上下文,这极大地限制了视觉表示学习。本文引入了 CoT Block22,结 构 如 图 5 所 示,该 结 构 是 基 于 Self Attention 的Transformer 结
21、构,充分利用了 Key 的上下文信息,以指导动态注意力矩阵的学习,从而增强了视觉表示的能力。图5 CoT Block结构图图 5中,输入图像经过k k卷积核进行卷积操作,获取图像邻近的局部信息;然后,将局部信息与原信息进行叠加(Concat)操作,经过 2 个1 1卷积,再进行Softmax 操作,与 Value Map 进行 SelfAttention 计算,获得图像全局信息;最后,将所得的邻近信息与全局信息进行相加融合,获得输出 y。将 CoT 模块与 C3 模块融合,结构图如图6所示。图6 CoT3结构图2.4 损失函数改进YOLOv5模型包含三种损失函数,分别是边界框损失(box_lo
22、ss)、置 信 度 损 失(obj_loss)和 分 类 损 失(cls_loss)。YOLOv56.0版本默认边界框损失函数使用CIoU函数23,置信度损失函数和分类损失都使用二元交叉熵函数来计算。总损失函数为以上三者加权相加,对应的默认的权重系数分别为0.05、1.0、0.5。CIoU损失函数的计算公式如下:LCIoU=1-IoU+2(b,bgt)c2+v(7)式中:b表示预测框的中心点;bgt表示真实框的中心点;表示两个中心点之间的欧氏距离;c表示预测框和真实框的最小闭包区域的对角线距离;是用于平衡比例的参数;v用来衡量预测框和真实框的宽和高之间的比例一致性。IoU、v计算公式如下:Io
23、U=A BA B=v(1-IoU)+vv=42()arctanwgthgt+arctanwh2(8)EIoU损失函数24包含三个部分:预测框和真实框的重叠损失、预测框和真实框的中心距离损失以及预测框和真实框的宽和高的损失,前两部分延续 CIoU 中的方法,第三部分的宽高损失使目标框与锚框的宽度和高度值最小,使得收敛速度变快。EIoU 损失函数的计算公式如下:LEIoU=1-IoU+2(b,bgt)c2+2(w,wgt)c2w+2(h,hgt)c2h(9)式中:cw和ch分别是覆盖预测框的真实框的最小外接框的宽度和高度。本文实验中,采用EIoU作为边界框损失函数。2.5 YOLOv5sCG本文将
24、Backbone网络中的C3模块全部替换为改进的 C3CA2模块;Neck网络中的所有标准卷积 Conv替换154第22期为 GSConv,能够有效减轻 Neck 网络的复杂度;Neck 网络最后一层的 C3 模块替换为 CoT3 模块,并将 CA 模块加入Neck网络23层后,增强网络学习特征的表达能力;将 Conv 模块激活函数 SiLU 替换为 Hardswish。改进后的网络结构如图7所示。图7 YOLOv5sCG网络结构3 实验对比与分析3.1 实验环境与实验参数本 文 实 验 环 境 为:GPU 为 NVIDIA GeForce RTX3090,40 GB显存,Ubuntu 18.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 YOLOv5s 量化 行人 检测 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。