改进YOLOX在行人目标检测中的应用研究.pdf
《改进YOLOX在行人目标检测中的应用研究.pdf》由会员分享,可在线阅读,更多相关《改进YOLOX在行人目标检测中的应用研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 卷第期东 北 师 大 学 报(自 然 科 学 版)V o l N o 年月J o u r n a l o fN o r t h e a s tN o r m a lU n i v e r s i t y(N a t u r a lS c i e n c eE d i t i o n)J u n e 文章编号 ()D O I /j c n k i d s l k x b 收稿日期 基金项目国家自然科学基金资助项目(U ,U )作者简介孙晨皓(),男,硕士研究生;通信作者:赖惠成(),男,教授,主要从事视频/图像信息处理、图像理解与识别研究改进YO L O X在行人目标检测中的应用研究孙晨皓,
2、赖惠成,李亚东,周德政(新疆大学信息科学与工程学院,新疆 乌鲁木齐 )摘要针对现有算法在行人目标检测中存在精度低、速度慢、算法鲁棒性有限的问题,提出了一种基于深度神经网络目标检测算法YO L O X L改进的行人目标检测算法YO L O X H使用改进型的主干特征提取网络H a r D N e t 替换原有的C S P D a r k N e t ,新的主干特征提取网络相较于原有的网络具有更强的特征提取能力以及更快的速度,同时提升了网络检测较大目标的能力在H a r D N e t 卷积神经网络中引入了S o f t p l u s激活函数提升算法的检测精度,构建了C i t y P e r
3、s o n s、P RW、E TH Z和MO T 多场景的联合数据集,以提升网络对于行人目标检测的鲁棒性在联合数据集上的实验表明:YO L O X H相比于YO L O X L,每秒检测帧数(F P S)提高了 ,检测精度提高了,大目标检测精度提高了 关键词图像处理;行人检测;YO L O X;H a r D N e t;联合数据集 中图分类号T P 文献标志码A引言行人目标检测是目标检测的一个重要的分支,其目的是从图像中定位行人目标,随着时代的发展,行人目标检测在实际生活中的应用愈发广泛,例如在身份识别、行人目标跟踪、人流量统计等方面,行人目标检测技术都发挥着不可替代的作用早期的行人目标检测
4、主要基于手工设计的特征来训练分类器,但由于实际场景中行人目标往往难以有一个确定的特征描述,如在同一个场景中,行人的姿态不同以及随着距离摄像机远近等因素会出现目标大小、目标框长宽比例的大幅变化,这些因素对行人检测带来了很大的挑战随着基于深度学习的目标检测 框 架 的 发 展 与 深 度 学 习 基 础 算 法 的 研 究,尤 其 是R C NN(R e g i o n C o n v o l u t i o n a lN e u r a lN e t w o r k,区域卷积神经网络)的提出,使得目标检测算法得到了快速的发展,检测性能也越来越强大,所以近年来越来越多的研究人员开始基于通用目标检测
5、算法开发应用行人目标检测算法 T o m e等将C NN应用于行人检测算法,相较于传统的行人检测算法,该算法的检测准确率有较为明显的提升C a i等提出了一种由R P N(R e g i o nP r o p o s a lN e t w o r k,区域候选网络)和检测子网组成的行人目标检测算法并进行优化损失等改进操作,该算法在行人数据集上取得了较好的检测效果 Z h a n g等将F a s t e rR C NN网络中的R P N直接应用于图片的行人目标检测中,使用R P N计算候选边界框、分数和目标特征,该算法在行人目标检测任务中的速度与准确度较F a s t e rR C NN均有提
6、升王飞等对F a s t e rR C NN模型进行改进,将F P N(F e a t u r eP y r a m i dN e t w o r k s,特征金字塔网络)和R P N进行融合,用以研究多尺度行人检测问题高宗等针对基于人工提取特征的行人检测器鲁棒性差的问题,提出了基于YO L O网络的行人目标检测算法,该算法与基于人工提取特征的行人检测算法相比减少了漏检和误检,提高了定位精度,且能够满足实时性要求 Y a n g等为了解决拥挤地铁车站场景行人目标难第期孙晨皓,等:改进Y O L O X在行人目标检测中的应用研究以准确检测的问题,提出了一种基于S S D网络的行人目标检测算法,该
7、算法采用局部特征提取的方法,提升了检测不同大小行人的效果 Y a n g等将YO L O v t i n y网络进行改进并应用于行人目标检测任务,通过采用加强密集连通性的方法连接多层特征,利用k m e a n s 算法对行人目标进行聚类等方法改进网络检测性能,该算法在航拍图像上的行人检测上具有一定的优势目前常见算法使用的训练集数据集比较单一,检测的鲁棒性有待于进一步提升,为此本文构建了一个联合的数据集,以当前综合效果较优秀的YO L O X L通用目标检测算法为基础,并针对通用目标检测算法在行人目标检测效果不佳、速度较慢等不足改进算法的主干特征提取网络、激活函数、修改输入的图像尺寸与比例,提
8、出改进算法Y O L O X H实验结果表明,与Y O L O X L算法相比,本文的改进算法在检测精度、速度上都有所提升,鲁棒性较好,与目前常见的目标检测算法相比,本文算法的综合情况表现较好Y O L O X L算法介绍YO L O X L算法是G e等在 年月提出的基于YO L O v L的改进版本,属于YO L O X系列网络,是目前检测准确性与速度综合效果较为优秀的一阶段(O n e S t a g e)通用目标检测算法其算法框架主要分为个部分,如图所示图Y O L O X L整体模块图第一部分为输入端,输入尺寸为 像素的R G B图像;第二部分为主干特征提取网络(B a c k b
9、o n e)部分,该主干特征提取网络使用C S P D a r k n e t ,并利用F o c u s网络结构对图片进行切片操作,将W,H通道的信息集中到C通道中,在压缩图像长宽的同时不造成信息的丢失,降低网络的资源占用;第三部分为N e c k模块,其作用是使用F P NP AN(P y r a m i dA t t e n t i o nN e t w o r k,金字塔注意力网络)结构自顶向下将高层特征图表达的特征信息通过上采样的方式与低层特征图传递融合,利用主干特征提取网络输出信息完成特征金字塔的构建,输出大、中、小个不同的特征层,使网络可以有效地利用不同尺度的特征层来预测不同尺度
10、的目标;第四部分为P r e d i c t i o n部分,该部分主要负责将N e c k模块输出的特征层进行解码,输出网络的检测结果信息基于Y O L O X L的改进网络 主干特征提取网络改进主干特征提取网络的作用是提取图片中目标的特征信息,作为YO L O X L网络中极其重要的一个模块,其性能在很大程度上影响着整体网络的检测精度与速度 YO L O X L所使用的主干特征提取网络为C S P D a r k N e t ,其具有较强的特征提取能力,但C S P D a r k N e t 网络结构较为复杂,其结构相应地对运算速度以及所需存储空间产生负面影响,在网络训练过程中,当输入较
11、大尺寸的图像时对于硬件的要求过高,因此,需要使用一种新型的主干特征提取网络替代原有的C S P D a r k N e t ,使得网络在计算的过程中尽量保证效果的前提下进一步降低对内存的占用,且提升计算速度H a r D N e t(H a r m o n i cD e n s e l yC o n n e c t e dN e t w o r k,谐波密集连接网络)是C h a o等 于 年发布的一种基于D e n s e l yC o n n e c t e dN e t w o r k的特征提取网络,其突出的特点是低内存占用率且适用于目标检测中的特征提取任务 H a r D N e t设
12、计了网络各层级的连接方式以减少特征映射访问的D R AM流量并增加计算密度以保持网络有效提取特征的能力其具体实现方式如下:使用C I O(C o n v o l u t i o n a l I n p u t/O u t p u t,卷积输入/输出)近似特征映射访问的D R AM流量,公式为C I Ol(c(l)i nw(l)i nh(l)i nc(l)o u tw(l)o u th(l)o u t)()其中c是通道数,w和h是卷积层l的宽度和高度网络的计算密度表示为M o C(MA C so v e rC I O),其中MA C s(n u m b e ro fm u l t i p l y
13、 a c c u m u l a t eo p e r a t i o n so r f l o a t i n gp o i n to p e r a t i o n s,乘法累加运算或浮点运算的数目)通常与模型参数量正相关公式为东 北 师 大 学 报(自 然 科 学 版)第 卷M o CMA C sC I O()为了降低C I O并提高MA C s以增加M o C,H a r D N e tB l o c k采用稀疏化连接,对于网络的第k层,如果n可以被k整除则将该层网络与第kn层网络相连接,其中n为非负整数且kn非负,当网络处理完第n层时,第n层即可从内存中清除 H a r D N e
14、t减少了D e n s e N e t的大部分层的连接,以降低级联损耗,同时提高网络的M o C经过以上措施,H a r D N e t实现了高效率、低MA C s、低D R AM流量的网络特性 H a r D N e t 网络架构如图所示从图可以看出,其网络架构形状如同多个谐波图H a r D N e tB l o c k网络架构图本文基于H a r D N e t 构建Y O L O X L的主干特征提取网络,移除了H a r D N e t 网络的最后一层全连接层,将网络的第,层作为输出的特征层,新的特征层尺寸更小,特征提取能力更强,能够提取到更深层次的语义信息,对于大目标的特征提取效果
15、更佳本文所用的H a r D N e t 各层输出如图所示图修改后H a r D N e t 网络架构图 S o f t p l u s激活函数S o f t p l u s激活函数可以看作是R e L U激活函数的平滑其表达式为(x)l o g(ex)()图S o t f p l u s与R e l u 激活函数图像相较于R e L U 激活函数,S o f t p l u s激活函数在促使网络收敛速度上效果不及R e L U 激活函数,但在目标检测网络中,使用S o f t p l u s激活函数可使网络在收敛后输出结果精度高于R e L U 激活函 数 S o f t p l u s激活
16、函数与R e L U 激活函数的图像如图所示,在输入x在值附近时S o f t p l u s激活函数可使输出更加平滑;当x时,R e L U 激 活 函 数 进 入 饱 和 区 域,造 成 信 息 丢 失,使 用S o f t p l u s激活函数可以继续传递该范围的信息 图片输入尺寸更改不同于图像分类任务和通用目标检测任务,对于常见的行人图像而言,真实图像通常来自于监控设备或摄像设备,所获得的图像尺寸长宽比一般大于常见的通用目标检测算法在输入端将输入图像通过填充、缩放的方式使图像变换为的比例传递到网络中进行检测,而在行人目标检测任务中若沿用先前的方式则会造成较多的信息损失第期孙晨皓,等:
17、改进Y O L O X在行人目标检测中的应用研究本文选择将图片缩放至的比例可以在绝大多数适用的场合下减少图像预处理中添加的空白信息如图所示,在MO T 等常见的行人图像中,使用修改前的输入图像尺寸比例,真实图像所占画面为 ,而使用比例输入,真实图像占画面比例为,提升了 该做法可以有效地减少常见的行人图像在输入网络时由于图像预处理而造成的信息损失(a)长宽比;(b)长宽比图修改输入图片比例前后图像示意图 Y O L O X H整体结构本文改进的YO L O X H网络整体结构如图所示,其中红线标注部分为本文所使用的改进后的H a r D N e t 主干特征提取网络 YO L O X H网络输入
18、为 像素的R G B彩色图像,经过网络传播计算,输出内容为 的目标信息矩阵其中图表示:目标种类()目标前景背景信息()目标位置信息(),表示特征图上 个点所对应的原始图片区域内容 YO L O X H将以上信息解码并按照每个点对应的原图区域进行映射,最终输出可能存在行人目标的位置信息以及置信度大小,经NM S(N o n M a x i m u mS u p p r e s s i o n,非极大值抑制)过滤同一行人目标的重复检测信息后输出最终的行人目标检测结果图Y O L O X H网络结构图东 北 师 大 学 报(自 然 科 学 版)第 卷实验过程与结果分析 实验设置本文的实验硬件环境配置
19、为C P Ui K,G T X G BX,内存为 G B软件环境配置为U b u n t u (L T S)、C UD A 、P y t h o n 、P y t o r c h 、t o r c h v i s i o n 、mm d e t e c t i o n 在验证阶段统一采用单卡b a t c hs i z e进行验证 实验数据集行人数据集具有以下特点:目标变化尺度大,姿态变化明显;光照环境变化大;在一张图片中,目标在不同位置的密集程度不同且存在相互遮挡的情况;单一数据集的场景变化不明显;真实图像一般来自于监控视频或录像设备,图像长宽比通常大于由于行人数据集通常存在场景单调的特点,
20、在单一的小数据集上进行实验容易导致过拟合的结果,而在将相同的算法应用于其他场景时,算法的检测效果可能会很差 因此,本文建立了一个大规模的联合行人数据集,将C i t y P e r s o n s、P RW、E TH Z 数据集用于训练,将MO T 数据集用于验证 C i t y P e r s o n s数据集是C i t y S c a p e的子集,其只包含图片中的行人目标标注,画面来自于车载摄像头对道路附近进行拍摄 P RW数据集是M a r e t k 数据集的扩展,画面主要以白天户外为主,行人目标多数较为清晰 E TH Z数据集提供了较为丰富的户外街景场景下的行人图片 MO T 行
21、人数据集包含段不同的场景,数据集为大程度遮挡、模糊的行人提供了详细的标注信息,该数据集场景丰富,行人姿态变化程度大,室内室外场景光线环境具有较大的差异,是非常具有挑战的行人图片数据集联合行人数据集的图片样例如图所示由图可见,联合行人数据集提供了较为丰富的行人场景,基本覆盖室内外常见的行人场景情况(a)C i t y P e r s o n s;(b)P RW;(c)E TH Z;(d)MO T 图联合行人数据集图示联合行人数据集拥有较为丰富的行人场景,且训练集与验证集的场景没有交集,更能体现出模型在现实场景模型环境下的行人识别效果数据集信息如表所示表联合行人数据集数据信息名称图片数量/张标定数
22、量/张名称图片数量/张标定数量/张C i t y P e r s o n s E TH Z P RW MO T 评价指标为能真实反映算法对于行人目标的检测精度,本文采用目标检测领域常用的mA P(m e a nA v e r a g eP r e c i s i o n,各类别平均精度)作为评价指标需要说明的是,由于本实验仅涉及行人目标的检测,即类别m,故使用A P表示为能够表示算法对于所有大小的行人目标的检测效果,本文选用A P (a r e a a l l)表示,其中 表示在不同I o U阈值(从 到 ,步长 )上的平均A P值,该指标在大多数情况下更能准确反映预测结果的真实水平为能够准确
23、反映算法对于较大的行人目标(大于 像素)的识别准确度,本文还选取了A P (a r e a l a r g e)作为大目标行人检测第期孙晨皓,等:改进Y O L O X在行人目标检测中的应用研究准确度的评价指标为客观反映网络检测速度,本文使用F P S(F r a m e sP e rS e c o n d,每秒传输帧数)作为网络检测速度的评价指标上述各指标计算公式如下:PTT PTT PTF P;()RTT PTT PTF N;()I o Ua r e aBpBg t()a r e aBpBg t();()TA PP(R)()其中:TT P表示样本的真实类别为正,检测得到的结果也为正的数量;
24、TF P表示样本的真实类别为负,检测得到的结果却为正的数量;TF N表示样本的真实类别为正,检测得到的结果却为负的数量;Bp表示目标检测框,Bg t表示目标的真实框 训练方法本文使用前面制作的联合数据集进行训练,一共训练个检测算法,分别是F a s t e r R C NN、S S D、C e n t e r N e t、YO L O X L和本文算法YO L O X H,训练的目的是统一做对比分析受限于实验平台硬件环境,本文根据线性扩展规则 设置对比算法的初始学习率与b a t c hs i z e 本文算法YO L O X H的输入图像尺寸为 像素,b a t c hs i z e大小为,
25、使用S G D优化器,初始学习率设置为 ,学习率衰减权重设置为 ,余弦退火学习率衰减方式优化参数,总训练轮次e p o c h为 ,在最后e p o c h为 时关闭M o s a i c数据增强与M i x U p数据增强操作 实验结果分析模型在训练的过程中e p o c h 个数据在验证集上进行一次验证来评估模型的性能,本实验统计了A P (a r e aa l l)与A P (a r e a l a r g e)变换值,并绘制曲线图,A P (a r e a a l l)曲线图如图(a)所示,可知模型在e p o c h为 内,A P值不断提高,在e p o c h为 后YO L O X
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进 YOLOX 行人 目标 检测 中的 应用 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。