轻量化深度学习模型在行人检测上的应用.pdf
《轻量化深度学习模型在行人检测上的应用.pdf》由会员分享,可在线阅读,更多相关《轻量化深度学习模型在行人检测上的应用.pdf(14页珍藏版)》请在咨信网上搜索。
1、Operations Research and Fuzziology 运筹与模糊学运筹与模糊学,2024,14(1),823-836 Published Online February 2024 in Hans.https:/www.hanspub.org/journal/orf https:/doi.org/10.12677/orf.2024.141076 文章引用文章引用:颜欣荣,蒋雨.轻量化深度学习模型在行人检测上的应用J.运筹与模糊学,2024,14(1):823-836.DOI:10.12677/orf.2024.141076 轻量化深度学习模型在行人检测上的应用轻量化深度学习模型在
2、行人检测上的应用 颜欣荣颜欣荣*,蒋蒋 雨雨#上海理工大学光电信息与计算机工程学院,上海 收稿日期:2023年12月12日;录用日期:2024年1月2日;发布日期:2024年2月29日 摘摘 要要 行人检测和跟踪在目标跟踪领域至关重要,广泛应用于辅助驾驶、安全监测和其他行人分析。在多目标行人检测和跟踪在目标跟踪领域至关重要,广泛应用于辅助驾驶、安全监测和其他行人分析。在多目标跟踪中,面临多种挑战,因此需要设计实时性和高精度的算法。本研究提出了一种新的行人跟踪模型。跟踪中,面临多种挑战,因此需要设计实时性和高精度的算法。本研究提出了一种新的行人跟踪模型。在行人特征建模阶段,采用在行人特征建模阶段
3、,采用Yolov4-tiny网络模型和网络模型和COCO数据集预训练权重参数,经过迁移学习到数据集预训练权重参数,经过迁移学习到MOT数据集。为了解决目标微小部分的变形和遮挡问题,引入了一种深度分类跟踪器,结合了数据集。为了解决目标微小部分的变形和遮挡问题,引入了一种深度分类跟踪器,结合了MeanShift滤滤波器和卡尔曼滤波器。通过反投影图像和物体轮廓与卡尔曼线性观测模型相融合,实现了目标预测。实波器和卡尔曼滤波器。通过反投影图像和物体轮廓与卡尔曼线性观测模型相融合,实现了目标预测。实验结果表明,该模型能够在复杂环境中长时验结果表明,该模型能够在复杂环境中长时间跟踪目标,具有良好的跟踪效果,
4、多目标跟踪精度为间跟踪目标,具有良好的跟踪效果,多目标跟踪精度为57.6%,目标定位精度为目标定位精度为82.1%。关键词关键词 深度学习,多目标跟踪,行人检测,深度学习,多目标跟踪,行人检测,YOLOv4-Tiny Application of Lightweight Deep Learning Model in Pedestrian Detection Xinrong Yan*,Yu Jiang#School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Techn
5、ology,Shanghai Received:Dec.12th,2023;accepted:Jan.2nd,2024;published:Feb.29th,2024 Abstract Pedestrian detection and tracking are crucial in the field of target tracking and are widely used in assisted driving,safety monitoring,and other pedestrian analysis.In multi-target tracking,vari-ous challen
6、ges are faced;therefore,it is necessary to design real-time and high-precision algo-*第一作者。#通讯作者。颜欣荣,蒋雨 DOI:10.12677/orf.2024.141076 824 运筹与模糊学 rithms.This study proposes a new pedestrian tracking model.In the pedestrian feature modeling stage,the Yolov4 tiny network model and COCO dataset were used
7、to pre-train weight parameters,which were then transferred and learned to the MOT dataset.In order to solve the problem of de-formation and occlusion of small parts of the target,a deep classification tracker is introduced,which combines the MeanShift filter and the Kalman filter.By integrating back
8、 projection images and object contours with Kalman linear observation models,target prediction has been achieved.The experimental results show that the model can track targets for a long time in complex envi-ronments and has good tracking performance.The multi-target tracking accuracy is 57.6%,and t
9、he target positioning accuracy is 82.1%.Keywords Deep Learning,Multi Target Tracking,Pedestrian Detection,YOLOv4-Tiny Copyright 2024 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by
10、/4.0/1.引言引言 多目标行人跟踪是一个重要的计算机视觉问题,也是手势识别、行为分析等更高层次研究的基础,是对序列图像中状态复杂的多个目标进行连续识别的任务。由于跟踪环境复杂多变,制约其跟踪性能的主要因素是目标外观特征的表达效果。由于深度学习在计算机视觉领域的应用快速发展,计算机视觉领域中目标识别与检测、目标分割等任务的准确性得到了显著提高,成为提高图像处理任务准确性的重要方法之一。基于卷积神经网络的目标检测算法框架主要分为两类。一种是早期的两阶段网络框架,它对网络提取的候选帧进行分类和回归。Ross-Girshick 等人提出了 R-CNN 1目标检测算法,使用选择性搜索算法提取图像区域
11、中的候选框,然后在神经网络的特征提取后使用 SVM 对特征向量进行分类和回归。何开明等在 R-CNN 的基础上设计了 SPPNet 2深度网络模型。将 R-CNN 网络结构中的多层卷积改为卷积,大大减少了模型的计算量。Ross B.Girshick 提出了 Fast R-CNN 3来改进 SPPNet。Fast R-CNN 设计的 RoI池化层解决了以往 R-CNN 检测算法中图像区域缩放和裁剪的问题。另一种基于深度学习的算法是一阶段目标检测算法。代表算法有 Yolo 4 5 6 7系列算法和 SSD 8算法。Joseph 和 Ali 提出的 Yolov1 4算法直接完成了目标的分类和回归;L
12、iu w 提出的 SSD 算法比R-CNN 更快,mAP 比 Yolov1 好;Joseph Redmon 和 Ali Farhadi 出版了 Yolov3 6。介绍了 Darknet19 网络模型,并采用多尺度融合方法进行预测。将原来的单标签分类优化为多标签分类。速度比 R-CNN 快1000 倍。Yolo 算法于 2020 年引入 Yolov4 7,在公共数据集 COCO 上,AP 可以达到 43.5%,速度高达65 FPS;在多目标行人跟踪任务中,通常确定目标类别。但是,在连续图像序列中要跟踪的目标数量是未知的。多目标跟踪的目的是在每帧的连续图像序列中定位所有要跟踪的目标,并确保在长期跟
13、踪过程中目标的目标识别尽可能保持不变。Sam Hare 9提出将目标跟踪问题视为一个分类问题。在线学习每帧中的目标,并使用结果更新目标模型。Martin Danelljan 提出了 DSST 10目标跟踪算法,该算法使用平移滤波器来确定下一帧的位置,使用位置估计来获得中心坐标,然后使用比例滤波器估计来确定比例结果。MDNet 11算法结合 CNN 实Open AccessOpen Access颜欣荣,蒋雨 DOI:10.12677/orf.2024.141076 825 运筹与模糊学 现视频中的单目标跟踪。该算法结合 VGG 网络进行特征提取,将不同的特征图映射到连续的空间域,然后使用矩阵获得
14、亚像素精度的目标跟踪位置。这种方法效果很好,但速度很慢。Martin 12发表了 ECO相关滤波器跟踪算法。它主要解决了 C-COT 13的过拟合问题,比以前的 C-COT 算法快约 20 倍。Xiao等人14提出了一种将视觉注意机制与语义计算相结合的行人检测方法,将皮肤语义特征和头肩语义特征集成在视觉注意机制上。JianjunH 等15提出了一种借助数据增强技术在噪声和遮挡环境中进行人体检测和跟踪的方法。近年来,基于深度学习和相关滤波的行人目标跟踪模型在跟踪速度和精度方面越来越受到关注。尽管深度学习在计算机视觉领域的应用发展迅速,但对于多目标跟踪任务,现有的自然场景连续图像序列数据集较少,训
15、练样本稀缺。利用深度学习来提高跟踪精度面临着一定的挑战。为了解决数据集短缺的问题,与直接训练和测试的模型相比,我们使用迁移学习和微调 Yolov4-tiny 模型来提高检测精度和检测速度。通过迁移学习获得的 Yolov4-tiny 权重文件小于 23 MB,基本可以部署在移动设备、嵌入式设备、边缘计算等设备上,不会损失检测精度。2.Yolov4-Tiny 网络结构网络结构 Yolov4-tiny 是一个成熟的 Yolo 轻量级网络。主要分为三个部分,躯干、颈部和头部。主干使用CSDarknet53-tiny特征提取网络。网络的前52层用于输入图像的特征提取,最后一层用于输出。Yolov4-ti
16、ny在原有 Yolov4 骨干网的基础上,使用 CSPBlock 代替 RSPBlock,将模块映射为两部分。一部分继续堆叠Yolov4 骨干网络中的剩余块,另一部分绕过许多剩余结构。经过少量的卷积处理环节,这两个通道最终被集成在一起。颈部使用 SPP(特征金字塔)网络来增加网络的感受野,并进一步融合不同尺度的特征图。Yolov4 方法不使用空间金字塔池和路径聚合网络,提高了目标检测速度。Yolov4 头使用 Yolov3 头作为目标检测网络。Yolov4 微型化简化了头部,减少了头部的输出分支,提高了检测速度。Yolov4 tiny 的网络训练参数有 5,918,006 个,共有 38 个网
17、络层。Yolov4-tiny 使用 13 13 和 26 26 两种不同比例的特征图来预测测试结果。其网络结构如图 1 所示。Figure 1.Yolov4-tiny network structure 图图 1.Yolov4-tiny 网络结构图 Yolov4-tiny 的损失函数包含三个部分:123losslosslossloss=+(1)其中,loss1是置信损失函数,loss2是分类损失函数,loss3是边界和回归损失函数。颜欣荣,蒋雨 DOI:10.12677/orf.2024.141076 826 运筹与模糊学 3.融合融合 MeanShift 改进的改进的 Deep sort 目
18、标跟踪算法目标跟踪算法 3.1.MeanShift 算法原理算法原理 MeanShift 算法16的核心是:假设目标区域中有 n 个样本点ix,1,in=,每一个点ix在 d 维空间dR中定义的 MeanShift 向量为:()()1ihhixSMxxxk=(2)其中ix是以 x 为中心点,k 表示在这 n 个样本点ix中落入hS区域中的个数,()ixx是样本点ix相对于点 x 的偏移向量,Meanshift 向量()hMx就是对落入区域hS中的 k 个样本点相对于点 x 的偏移量求和然后再平均。hS表示一个在 d 维空间中半径为 h 的高维球区域,满足以下关系的 y 点的集合:()()()T
19、2:hSxyyxyxh=(3)由公式(2)可以看出,当平均偏移量()hMx指向样本分布最多的区域。落入hS的采样点对均值的贡献是相同的。但在实际跟踪过程中,距离中心点越远的采样点应该重要性越低,因此需要使用密度估计来对采样点的权重进行度量。密度估计的概率密度函数可能存在不平滑的问题,因此,使用核函数对概率密度函数做平滑处理,以达到更好的拟合效果。常见的核函数如图 2 所示。Figure 2.Kernel function graph 图图 2.核函数图 给出一个核函数()iK xx确定重新估计平均值的附近点的权重。在本文中,我们采用 Epannechnikov核函数(公式(4)改进 MeanS
20、hift 向量,得到新的 MeanShift 表达式(公式(5):()()21,10,E xcxxK=其他 (4)()2,1nkih K xdidcxxfkhnh=(5)其中()K x为核函数,dkdcnh为单位密度。颜欣荣,蒋雨 DOI:10.12677/orf.2024.141076 827 运筹与模糊学 MeanShift 算法(如图 3 所示)首先计算了目标区域和候选区域内像素的特征值概率,绘制出像素颜色的灰度直方图,然后利用相似性函数度量初始帧目标模型和当前帧的候选模型的相似性,不断进行迭代,直到找到相似性函数最大的候选模型。在迭代过程中,候选区域的移动轨迹就是目标由初始位置向正确位
21、置移动的向量,这个向量称为目标模型的 MeanShift 向量。由于 MeanShift 算法具有快速收敛性,算法经过几十次迭代或满足阈值条件后,就将收敛到目标的真实位置,达到跟踪的目的。Figure 3.MeanShift tracking schematic 图图 3.MeanShift 跟踪原理图 3.2.Deep sort 跟踪算法的改进跟踪算法的改进 MeanShift 是一种无参密度估计方法,它并不需要确定概率密度函数的具体形式,而是通过相邻的样本点对概率密度值进行估算。因此,对先验知识要求很少,准确性主要依赖于其迭代训练的过程。总体而言,MeanShift 算法复杂度低,具有良好
22、的实时跟踪性。但是当视频图像中跟踪目标被其他颜色相近的目标遮挡,或者与其他运动目标距离过近时,MeanShift 跟踪算法会发生目标跟丢的情况。而卡尔曼滤波器可以利用速度参数对运动目标在发生遮挡时,能一定程度上解决这个问题。为解决目标捡漏和 ID 频繁跳变问题,本文运用 MeanShift 无监督学习融合卡尔曼滤波算法,设计一个基于目标颜色概率模型和当前运动行人状态进行预测的行人预测算法。在跟踪过程中,当目标发生遮挡时,首先判断跟踪目标是否发生遮挡状态。设 MeanShift 算法得到的目标预测中心点为(),ttx y,卡尔曼滤波器得到的目标预测中心点为(),ttx y,这样就存在一个阈值t,
23、如公式(6):22tttttxxyy=(6)当跟踪目标没有发生遮挡情况,阈值t的值较小。一旦发生跟踪目标被遮挡,MeanShift 的观测坐标与卡尔曼滤波预测的坐标会发生较大的变化,通过t值表达出来。一般情况下,当t小于 10,表示没有发生遮挡,当t大于 10,表示遮挡发生。融合 MeanShift 算法后的 Deep sort 跟踪算法主要通过,当前帧对下一帧目标位置的预测、匹配和更新卡尔曼滤波参数来对目标行人的跟踪,具体算法流程如下。颜欣荣,蒋雨 DOI:10.12677/orf.2024.141076 828 运筹与模糊学 Step1:输入待跟踪的视频样本。利用行人检测算法获取视频图像中
24、目标的检测框,对检测框进行NMS 筛选,进行特征提取,得到中心坐标和搜索区域半径;Step2:将第一步得到的检测框作为 MeanShift 算法的搜索窗口;同时将检测的目标中心位置坐标赋予卡尔曼滤波器;Step3:将 MeanShift 算法得到的观测目标位置和通过卡尔曼滤波器得到的预测框的坐标位置进行阈值计算,判断是否发生遮挡,若存在遮挡,则使用卡尔曼滤波器预测的下一帧视频图像位置的信息;若没有发生遮挡,则用 MeanShift 算法预测的目标位置信息;Step4:将下一帧检测的特征提取框和 Step3 滤波更新的跟踪框使用表观特征的马氏距离(公式(7)和余弦度量(公式(9)进行级联匹配,两
25、个距离计算的代价公式如(公式(10);首先,采用马氏距离度量检测框和预测框之间的运动关联程度:()()()()T11,jiijidi jS=dydy (7)其中,jd表示第 j 个检测框的(),u vh,iy表示第 i 个跟踪器对目标的预测(),u vh,iS表示检测位置与平均跟踪位置之间的协方差矩阵。马氏距离度量了数据的协方差距离,通过对目标检测位置和平均跟踪位置之间的标准差进行计算,来对卡尔曼滤波器的预测值进行筛选。如果计算得到的马氏距离大于某个阈值,则认为匹配失败。本文为了和原算法相对比,设置与原论文相同的阈值,即9.4877id=,匹配度为:()()()()22,ii jbdi jd=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 量化 深度 学习 模型 行人 检测 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。