基于MCA-YOLOv5s的轻量化地铁站内行人检测.pdf
《基于MCA-YOLOv5s的轻量化地铁站内行人检测.pdf》由会员分享,可在线阅读,更多相关《基于MCA-YOLOv5s的轻量化地铁站内行人检测.pdf(11页珍藏版)》请在咨信网上搜索。
1、基于 MCA-YOLOv5s 的轻量化地铁站内行人检测孙同庆1,刘光杰1,唐喆1,李佑文21(南京信息工程大学电子与信息工程学院,南京210044)2(南京国电南自轨道交通工程有限公司,南京210032)通信作者:刘光杰,E-mail:everglow_摘要:随着智慧车站和云计算的迅速发展,地铁站内大规模视频监控系统行人检测的部署愈发重要,在客流监测、乘客引导和行为警示等方面发挥着人力不能及的重要作用.在实际工程应用中,受到计算资源有限以及多尺度多角度遮挡的困难样本带来错漏检的不利影响,为此提出一种轻量化行人检测算法 MCA-YOLOv5s.首先使用MobileNetv3 代替 YOLOv5
2、主干网络,实现网络模型轻量化处理,并用 PConv 代替 MobileNetv3 网络中的 DWConv,减少冗余计算和内存访问;其次在特征融合阶段的 C3 模块中融入坐标注意力机制,使模型更加关注行人的位置信息;同时将损失函数 CIoU 替换为 AlphaIoU 以增加 HighLoss 目标的权重和边界框的回归精度;最后通过FPGM 剪枝压缩改进后的网络模型,提升模型加载和运行速度.将改进后的模型部署在华为 Atlas300AI 加速卡中,对地铁站内行人进行检测,其平均精度达到 94.1%,检测速度为 104.1fps.实际工程实践表明,改进后的算法检测速度提升 71.8%,节省了站内硬件
3、部署资源,更满足地铁大客流下的行人监测和管理的工程实际需求.关键词:行人检测;MCA-YOLOv5s;轻量化;注意力机制;剪枝;模型部署引用格式:孙同庆,刘光杰,唐喆,李佑文.基于 MCA-YOLOv5s 的轻量化地铁站内行人检测.计算机系统应用,2023,32(11):120130.http:/www.c-s- Subway Pedestrian Detection Based on MCA-YOLOv5sSUNTong-Qing1,LIUGuang-Jie1,TANGZhe1,LIYou-Wen21(SchoolofElectronicandInformationEngineering,N
4、anjingUniversityofInformationScienceandTechnology,Nanjing210044,China)2(NanjingGuodianNanziRailTransitEngineeringCo.Ltd.,Nanjing210032,China)Abstract:Withtherapiddevelopmentofsmartstationsandcloudcomputing,thedeploymentoflarge-scalevideosurveillancesystemsforpedestriandetectioninsubwaystationsisbeco
5、mingmoreandmoreimportant,whichplaysanimportantroleinpassengerflowmonitoring,passengerguidance,andbehaviorwarning.Inpracticalengineeringapplications,alightweightpedestriandetectionalgorithmMCA-YOLOv5sisproposedduetotheadverseeffectsoflimitedcomputingresourcesanddifficultsamplescausedbymulti-scaleandm
6、ulti-angleocclusion.Firstly,MobileNetv3replacestheYOLOv5backbonenetworktoachievelightweightnetworkmodelprocessing,andPConvreplacesDWConvintheMobileNetv3networktoreduceredundantcomputationandmemoryaccess.Secondly,thecoordinateattentionmechanismisincorporatedintheC3moduleofthefeaturefusionstagetomaket
7、hemodelpaymoreattentiontopedestrianpositioninformation.Atthesametime,thelossfunctionCIoUisreplacedbyAlphaIoUtoincreasetheweightoftheHighLosstargetandtheregressionaccuracyoftheboundingbox.Finally,theimprovednetworkmodeliscompressedbyFPGMpruningtoimprovetheloadingandrunningspeedofthemodel.Theimprovedm
8、odelisdeployed计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(11):120130doi:10.15888/ki.csa.009279http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然科学基金(U21B2003);江苏省产业前瞻与关键核心技术竞争项目(BE2022075)收稿时间:2023-04-18;修改时间:2023-05-17;采用时间:2023-05-23;csa 在线出版时间:2023-08-09CNKI
9、 网络首发时间:2023-08-10120系统建设SystemConstructioninHuaweiAtlas300AIacceleratortodetectpedestriansinsubwaystations.Theaverageaccuracyis94.1%,andthedetectionspeedis104.1fps.Theactualengineeringpracticeshowsthatthedetectionspeedoftheimprovedalgorithmisincreasedby71.8%,savingthehardwaredeploymentresourcesinth
10、estationandmeetingtheactualengineeringneedsofpedestrianmonitoringandmanagementinsubwaystationswithlargepassengerflow.Key words:pedestriandetection;MCA-YOLOv5s;lightweight;attentionmechanism;pruning;modeldeployment如今地铁已经成为城市交通出行不可或缺的方式,智慧车站的发展满足了人们对地铁智能化服务的需求.随着近年来云计算、大数据、人工智能等技术的不断演进,智慧车站中的视频监控系统逐渐以
11、深度学习目标检测体系为架构,不仅能在保障地铁安全上发挥越来越重要的作用,还能改善地铁运营效率,提升地铁服务质量,增强地铁应急能力.智能视频监控系统可以实时检测、分析和处理所监控的图像,实现地铁人流量监测、行人异常行为分析、安全隐患警示等快速的响应.地铁站内大规模视频监控系统的计算资源有限,在成本约束下,选择性能优越的国产算能卡部署目标检测网络更符合工程需求.目标检测技术是为了解决目标视频或者图片中待检测物体的定位和分类问题,它的性能好坏会直接影响到计算机视觉研究的后续进程.随着神经网络在目标检测领域的迅速发展,以深度学习为基础的目标检测算法成为主流,其主要分为 two-stage 检测算法和o
12、ne-stage 检测算法两类.Two-stage 算法将图像候选区域和卷积神经网络进行融合,使用 CNN 提前在输入图像的生成区域中创造一个目标分类器,然后进行分类和特征提取,常见的算法有 R-CNN1、FastR-CNN2、FasterR-CNN 等.One-stage 算法主要包括 SSD3、YOLO 系列47,不需要生成候选框,直接对初始的目标进行检测,加快了图像检测速度,满足大量图像检测的需求.虽然当前很多目标检测算法精度很高,但是部署在视频监控系统中并不能满足快速检测的需求,而且行人之间遮挡较严重,算法的误检率和漏检率也比较高.针对密集场景下遮挡和多尺度行人检测精度低的问题,Zha
13、ng 等人提出一种跨通道的注意机制8,在FasterR-CNN 架构中增加注意网解决不同的遮挡情况,将身体不同部位与 CNN 通道进行关联,提高网络对行人目标的关注度.王明吉等人提出一种改进 YOLOv3的行人检测方法9,通过搭建新一层的特征流在网络颈部进行特征融合,增强网络的特征信息,但该网络结构复杂度较高.邓杰等人提出 Crowd-YOLO 算法10,将行人可见框和全身框进行结合并在空间注意力上增加频域通道注意力机制,但在拥挤人群场景中,该算法会生成特别多的锚框,正负样本比例失衡.单阶段检测算法中的 YOLOv5 网络模型综合性能较优异,其网络深度和宽度可以自行调节.根据参数量由小到大,可
14、以分为 YOLOv5s,YOLOv5m,YOLOv5l,YOLOv5x 这 4 种不同结构.考虑到地铁站内大规模监控系统中的算能卡算力有限,本文选择 YOLOv5s 为基础算法进行改进,提出一种轻量化行人检测算法 MCA-YOLOv5s,并采用 FPGM 剪枝进一步压缩网络模型,然后部署在 Atlas300AI 加速卡中进行测试.MCA-YOLOv5s 首先分析采集到的地铁行人图像,然后采用轻量级模块 MobileNetv311重构 YOLOv5s 的主干网络,减少模型的体积和参数量,实现网络模型轻量化处理,并用 PConv12代替深度可分离卷积中的 DWConv,减少冗余计算和内存访问,提高
15、网络的计算速度.针对行人目标多尺度问题,将注意力模块 CA(coordinateattention)13融入模型结构中的特征融合阶段的 C3 模块中,使模型更加关注行人的位置信息,提高对目标位置的定位能力,同时弥补轻量化处理带来的精度损失.最后将损失函数 CIoU 替换为 AlphaIoU14以增加HighLoss 目标的权重和边界框的回归精度,优化模型整体性能.为了进一步提高算法部署在 Atlas300AI 加速卡上的检测速度,对优化的网络模型进行剪枝,压缩模型大小.考虑到地铁场景内行人身体部位相互遮挡带来的不利影响,本文选择遮挡范围较小的头部作为行人的检测目标.实际工程实践表明,改进后的算
16、法相比于原始网络模型,部署到加速卡设备中拥有更快的实时检测性能,而且检测精确率也很高.1YOLOv5 网络介绍本文所提出的算法在 YOLOv5s-6.0 版本的基础上2023年第32卷第11期http:/www.c-s-计 算 机 系 统 应 用SystemConstruction系统建设121进行改进,网络结构分为输入端、Backbone、Neck 和Head.输入端采用自适应图片缩放技术和 Mosaic 数据增强以及 K-means 算法处理输入的图像.Backbone 部分特征图首先经过第一层的卷积层(Conv),接着通过4 层 C3 模块生成不同尺寸的特征图,最后使用空间金字塔池化结构
17、(SPPF)融合不同感受野的特征图.Neck部分采用 FPN+PAN15结合的路径聚合网络架构,加强网络特征的融合能力.Head 检测层分别解码预测3 种不同尺寸的特征图,使用 NMS(non-maximumsuppression)非极大值抑制算法获取目标最优预测框,输出预测框和类别位置信息.2改进 YOLOv5s 检测算法复杂网络模型通常具有较大的参数量,部署到设备中将面临占用空间大和检测速度慢的问题,难以满足地铁大规模监控系统低延迟和快速响应的需求,同时地铁站内设有多路监控视频设备,需要考虑到工程成本的实际需求.而且采用头部作为行人的检测目标虽然可以解决身体部位的遮挡问题,但是行人头部依然
18、存在多尺度、多角度、穿戴物遮挡等困难检测样本,当前算法依然存在误检和漏检的问题.为优化地铁站内大规模视频监控场景下的行人检测,对 YOLOv5s 网络结构进行改进,如图 1 所示,具体方法为:(1)为提高模型检测速度,使用 MobileNetv3 网络替换主干网络,并使用 PConv 替换 MobileNetv3 中的 DWConv,减少网络内存的访问,降低计算延迟.(2)为了增强网络各层的特征融合能力,在特征融合模块的 C3 层中融入CA 注意力模块,使模型更加关注目标的位置信息.(3)为提高 HighLoss 目标的权重和边界框的回归精度,损失函数使用 AlphaIoU 替换 CIoU.(
19、4)为进一步压缩网络模型,提高算法部署到设备中的推理速度,使用FPGM 剪枝去除不重要的卷积核和冗余的通道数.InputConvMobileNet_New BlockMobileNet_New BlockMobileNet_New BlockMobileNet_New BlockMobileNet_New BlockMobileNet_New BlockMobileNet_New BlockMobileNet_New BlockMobileNet_New BlockMobileNet_New BlockMobileNet_New BlockConvUpsampleConcatC3CAConvU
20、psampleConcatC3CAConvConcatC3CAConvConcatConvDetectDetectDetectBackboneNeck图 1改进的 YOLOv5s 网络结构 2.1 MobileNetv3MoblieNetv3 采用 MoblieNetv116和 Moblie-Netv217中提出的深度可分离卷积和逆残差结构,在此基础上更新 Block,加入 SE(squeezeandexcitation)18模块,利用 H-swish 代替 swish 激活函数,进一步地提高了计算速度和模型性能.MoblieNetv3 网络中的 Block 网络结构如图 2 所示,主要包括了
21、通道可分离卷积和 SE 通道注意力机制以及残差网络结构.其核心是使用深度可分离卷积代替传统卷积层,将传统卷积层拆分成逐通道卷积(DWConv)和逐点卷积(PWConv).逐通道卷积用于空间滤波,将卷积核变为单通道,每个卷积核处理一个通道.逐点卷积用于特征生成,不仅可以改变特征图的维度,还可以在逐通道卷积生成的特征图通道上进行融合.在逐通道卷积中,每个卷积核的深度都为 1,输出特征矩阵与输入特征矩阵深度相等.逐点卷积则相当于卷积核大小为 1 的普通卷积,一般与逐通道卷积搭配使用,放在逐通道卷积后用来改变或者自定义特征矩阵的深度,极大地减少了模型参数数量和计算量.逐通道卷积和逐点卷积组合如图 3
22、所示.MobileNetv3 通过 NAS 搜索全局网络结构,分为Large 和 Small 两种版本.主要的不同在于经过卷积升维后的通道数量以及网络中的 Block 使用次数.本文采用 MobileNetv3-Small 模型进行实验.2.2 MobileNetv3 的改进为了减少逐通道卷积中的冗余计算和内存访问的数量,使用 PConv(partialconvolution)替换 DWConv,更好的平衡检测延迟(Latency)和浮点运算(FLOPs)之间的联系,它们之间的关系公式如下:计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第11期122系统建设Syste
23、mConstructionLatency=FLOPsFLOPS(1)其中,FLOPS 表示每秒浮点运算的缩写,度量有效的计算速度.PConv 可以缓和网络进行 FLOPs 时,内存访问频繁造成 FLOPS 减小的副作用,在降低 FLOPs的同时优化 FLOPS,尽可能多地使用设备的计算能力,实现更好的低延迟效果.PConv 的工作原理如图 4所示.Bottleneck=Input11PWConv11DWConvSENet11PWConvOutput图 2Block 网络结构3channel3Filters3Maps2Filters2MapsDWConvPWConvDk图 3逐通道卷积和逐点卷积
24、组合hwcpcpcpcpkk输入hw输出=Identity卷积核图 4PConv 工作原理在 PConv 结构中,只需要使用部分输入图像的通道与标准卷积结合,进行特征的提取,其余通道保持不变.如果内存访问是连续或者规则的,使用第 1 个或最后一个连续的通道作为计算代表与整个特征图进行融合.PConv 的内存访问数量为:hw2cp+k2c2p hw2cp(2)其中,h 和 w 分别为输入矩阵的宽高,cp是常规卷积作用的通道数,k 为卷积核的大小.在实际实现过程中,cp一般设置为常规矩阵的 1/4,其余通道数不参与计算.而 DWConv 在降低 FLOPs 的同时,会增大通道数来弥补精度的下降,一
25、般通道数会增大为常规卷积的 6 倍.因此,PConv 相比与 DWConv 能够极大地减小内存访问的数量和计算冗余.PConv 层中没有简单地删除剩余的通道,而是接着使用 PWConv 进行剩余通道特征的进一步提取.PWConv 可以提取所有通道特征信息流,充分完整的捕获所有通道的特征信息.PConv与 PWConv 组合成新的结构 NewBlock.改进后的MobileNetv3 网络结构如表 1 所示.表 1改进 MobileNetv3 网络结构InputOperatorExp.sizeSEAFStide6402332028160288021680216402244022440224402
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 MCA YOLOv5s 量化 地铁 站内 行人 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。