基于YOLOX-S的车窗状态识别算法.pdf
《基于YOLOX-S的车窗状态识别算法.pdf》由会员分享,可在线阅读,更多相关《基于YOLOX-S的车窗状态识别算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、 第6 1卷 第4期吉 林 大 学 学 报(理 学 版)V o l.6 1 N o.4 2 0 2 3年7月J o u r n a l o f J i l i nU n i v e r s i t y(S c i e n c eE d i t i o n)J u l y 2 0 2 3d o i:1 0.1 3 4 1 3/j.c n k i.j d x b l x b.2 0 2 2 2 7 5基于Y O L O X-S的车窗状态识别算法黄 键1,徐伟峰1,2,苏 攀1,2,王洪涛1,2,李真真1(1.华北电力大学(保定)计算机系,河北 保定0 7 1 0 0 3;2.河北省能源电力知识计算
2、重点实验室,河北 保定0 7 1 0 0 3)摘要:通过对YO L O X-S模型引入可变形卷积神经网络和焦点损失函数(F o c a l l o s s),解决原YO L O X-S模型车窗识别准确率较低的问题.首先,通过在YO L O X-S模型的主干特征提取网络中引入可变形卷积神经网络,对卷积核中的各采样点引入偏移量,以便在原始图像中提取到更具有表征的信息,从而提高车窗识别的精准度;其次,使用F o c a l l o s s替代原模型中的二元交叉熵损失函数,F o c a l l o s s能缓解正负样本不平衡对训练的影响,其在训练过程中更关注难样本,从而提高了模型对车窗目标的识别性能
3、;最后,为验证改进算法的性能,实验收集并标注1 56 2 7张图片进行训练和验证.实验结果表明,改进后的车窗识别算法的平均目标精度提高了3.8 8%.关键词:车窗识别;YO L O X-S模型;可变形卷积神经网络;焦点损失中图分类号:T P 3 9 1 文献标志码:A 文章编号:1 6 7 1-5 4 8 9(2 0 2 3)0 4-0 8 7 5-0 8C a rW i n d o wS t a t eR e c o g n i t i o nA l g o r i t h mB a s e do nY O L O X-SHUANGJ i a n1,XU W e i f e n g1,2,S
4、 UP a n1,2,WANG H o n g t a o1,2,L IZ h e n z h e n1(1.D e p a r t m e n t o fC o m p u t e r,N o r t hC h i n aE l e c t r i cP o w e rU n i v e r s i t y(B a o d i n g),B a o d i n g0 7 1 0 0 3,H e b e iP r o v i n c e,C h i n a;2.H e b e iK e yL a b o r a t o r yo fK n o w l e d g eC o mp u t i n
5、 gf o rE n e r g y&P o w e r,B a o d i n g0 7 1 0 0 3,H e b e iP r o v i n c e,C h i n a)收稿日期:2 0 2 2-0 6-1 8.第一作者简介:黄 键(1 9 9 3),男,汉族,硕士研究生,从事计算机视觉的研究,E-m a i l:2 2 0 1 9 2 2 2 1 0 9 9n c e p u.e d u.c n.通信作者简介:徐伟峰(1 9 8 2),男,汉族,博士,从事计算机视觉和空管系统的研究,E-m a i l:w e i f e n g x u 1 6 3.c o m.基金项目:国家自然科学
6、基金(批准号:6 1 8 0 2 1 2 4)、全国高等院校计算机基础教育研究会项目(批准号:2 0 1 9-A F C E C-1 2 5)和中央高校基本科研业务费专项基金(批准号:2 0 2 1 M S 0 8 9).A b s t r a c t:W es o l v e dt h ep r o b l e mo f l o wa c c u r a c y i nc a rw i n d o wr e c o g n i t i o no f t h eo r i g i n a lYO L O X-Sm o d e l b y i n t r o d u c i n gd e f o
7、 r m a b l e c o n v o l u t i o n a l n e u r a l n e t w o r k s a n dF o c a l l o s s f u n c t i o n(F o c a l l o s s)t ot h eYO L O X-S m o d e l.F i r s t l y,b yi n t r o d u c i n gd e f o r m a b l ec o n v o l u t i o n a ln e u r a ln e t w o r k si n t ot h eb a c k b o n ef e a t u r
8、ee x t r a c t i o n n e t w o r k o ft h e YO L O X-S m o d e l,o f f s e t s w e r ei n t r o d u c e df o re a c hs a m p l i n gp o i n ti n t h e c o n v o l u t i o n a l k e r n e lt of a c i l i t a t et h e e x t r a c t i o n o f m o r er e p r e s e n t a t i v ei n f o r m a t i o nf r o
9、 mt h eo r i g i n a li m a g e,t h e r e b yi m p r o v i n gt h ea c c u r a c yo fc a rw i n d o wr e c o g n i t i o n.S e c o n d l y,u s i n gF o c a l l o s s i n s t e a do fb i n a r yc r o s se n t r o p yl o s sf u n c t i o ni nt h eo r i g i n a lm o d e l,F o c a ll o s sc o u l da l l
10、 e v i a t e t h e i m p a c to f i m b a l a n c eb e t w e e np o s i t i v ea n dn e g a t i v es a m p l e so nt r a i n i n g,a n d i tp a i dm o r e a t t e n t i o n t od i f f i c u l t s a m p l e sd u r i n g t h e t r a i n i n gp r o c e s s,t h e r e b y i m p r o v i n g t h e r e c o
11、g n i t i o np e r f o r m a n c eo f t h em o d e l f o rc a rw i n d o wt a r g e t s.F i n a l l y,i no r d e rt ov e r i f yt h ep e r f o r m a n c eo f t h ei m p r o v e da l g o r i t h m,1 56 2 7i m a g e sw e r ec o l l e c t e da n da n n o t a t e df o rt r a i n i n ga n dv a l i d a t
12、i o ni nt h ee x p e r i m e n t.T h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ea v e r a g et a r g e ta c c u r a c yo ft h ei m p r o v e dc a rw i n d o wr e c o g n i t i o na l g o r i t h mi n c r e a s e sb y3.8 8%.K e y w o r d s:c a rw i n d o wr e c o g n i t i o n;YO L O X-S
13、 m o d e l;d e f o r m a b l ec o n v o l u t i o n a ln e u r a ln e t w o r k;F o c a l l o s s目前,基于深度学习的神经网络技术已广泛应用于各领域.依靠其强大的特征提取能力,深度学习算法在目标检测识别方面取得了较高的精度.目标检测可识别图像中特定物体的类别和图像中的位置,已广泛应用于智能交通等领域中的车辆、标识和人脸检测1-3中.随着我国城市化水平的不断提升,高速公路网的覆盖范围不断扩大,为有效提高工作效率,高速公路已采用了全新的收费管理模式,广泛设置了E T C门架系统,这为自动、智能的人员排查
14、和人员管理技术的实施提供了基础条件.在高速公路上实现智能人员排查和人员管理的关键是准确识别车内人员,而准确识别车内人员的前提条件是识别人员所乘车辆的车窗开关状态,车窗状态检测算法通过锁定车辆自动识别车窗的开关状态,因此,准确、高效的车窗状态检测算法是实现智能人员排查和人员管理的前提.现有的检测算法R-C NN4,F a s tR-C NN5,F a s t e rR-C NN6,S S D7,YO L O等,由于大量的训练数据积累和模型更新,在主流数据集上相对传统方法均有较高的准确率和召回率.深度学习的目标检测算法根据其检测思想的不同可分为两阶段算法和单阶段算法.两阶段目标检测算法先对输入图像
15、处理产生候选区域,然后再对候选区域进行检测.两阶段网络具有较高的精度,但需要先提取候选区域再进行检测,处理时间比单阶段网络高,典型的代表性算法有F a s t e rR-C NN6,M a s kR-C NN8,C a s c a d eR-C NN9和S p a r s eR-C NN1 0等.由于两阶段目标检测算法不适用于对实时性要求较高的应用场景,因此为进一步提高目标检测实时性,R e d m o n等1 1提出了将目标检测转化为回归问题的简化算法模型,在提高检测速度的同时提高检测精度,并提出了一系列基于位置回归的单阶段目标检测模型,如YO L O和S S D模型等.YO L O系列检测
16、算法属于单阶段类检测算法,其在基于深度学习的检测算法中具有速度优势,但YO L O v 11 1和YO L O v 21 2的 检 测 精 度 较 低,难 以 满 足 实 际 工 程 对 精 度 的 需 求,而 精 度 较 高 的YO L O v 31 3检测速度却无法满足实际工程对时间的要求,YO L O v 41 4和YO L O v 51 5在检测精度和速度之间取得了平衡,但平均目标精度有待提高.文献1 6 提出的解耦头(D e c o u p l e dh e a d)1 7-1 8,A n c h o r-f r e e1 9-2 0和S i mOT A2 1极大提高了平均目标精度.
17、目前在实际应用中,针对车窗状态检测已有许多研究成果,王亮亮等2提出了基于车窗特征的快速车辆检测算法,通过识别车窗代替目标物进行检测,从而提高被遮挡车辆的检出概率;汪祖云等2 2提出了基于车窗区域代替完整车辆的出租车检测方法,同时基于检测到的车窗区域实现对驾驶室的精确定位.但在高速公路检测站等公共环境中为避免排队和拥堵,对于车窗识别算法有更高的要求,需要一种更快速、精准的算法.针对上述问题,本文提出一种基于YO L O X-S改进的车窗识别算法.首先,利用可变形卷积神经网络2 3从原始图像中提取更多的特征信息,在卷积核中对每个采样点的位置添加一个偏移量,实现对当前位置的随机采样,从而不局限于之前
18、的规则格点;其次,由于传统的交叉熵损失函数并不能有效应对正负样本极度不平衡的情况,即负样本占多数时,导致训练易收敛到负样本,从而无法有效学习正样本,引用焦点损失函数(F o c a l l o s s)2 4替换模型中二元交叉熵损失函数(B i n a r yc r o s se n t r o p yl o s s),从而有效缓解正负样本不平衡的问题,集中训练难以分类的样本,提高模型在稀有类目标检测的准确性.通过收集的到1 56 2 8张图片对改进算法进行了验证,实验结果表明,改进后的车窗识别算法取得了较高的平均精度均值(m e a na v e r a g ep r e c i s i o
19、 n,mA P).1 预备知识1.1 Y O L O X模型YO L O X模型是单阶段目标检测算法之一,它将目标区域预测和目标类别预测集成到一个单一的神经网络模型中,实现了快速、高精度的目标检测和识别,目前已成为工业场景中最实用的物体检测模型之一.YO L O X模型分为标准网络结构(包括YO L O X-S,YO L O X-M,YO L O X-L,YO L O X-X,YO L O X-D a r k n e t 5 3)和轻量级网络结构(包括YO L O X-N a n o和YO L O X-T i n y).由于YO L O X-S具有678 吉 林 大 学 学 报(理 学 版)第
20、6 1卷 出色的检测性能和速度,因此本文以其为基准模型.YO L O X-S由YO L O v 5-S改进而得,由4部分组成:I n p u t,B a c k b o n e,N e c k和P r e d i c t i o n,其中B a c k b o n e由C S P网络和F o c u s结构组合构成.在下采样过程中,先使用切片操作的方法保证信息不丢失,然后通过卷积操作得到特征图.N e c k是目标检测算法模型框架中具有承上启下作用的关键部件,N e c k部分采用特征金字塔网络和路径聚合网络(F P N+P AN)的结构,从不同的主干层对不同检测层进行特征聚合,加强了网络的特
21、征融合能力.从主干网络提取的各层特征还需要送入N e c k进行加工处理后才能送入H e a d,以便后者更好地做出分类预测和回归预测.YO L O X的N e c k部分是特征金字塔网络模式,使富于空间信息的低层特征通过主干网络逐步抽象得到富于特征信息的高层特征图.P r e d i c t i o n部分采用准确率更高、收敛速度更快的解耦头,并且引入A n c h o r-f r e e机制,实现与H e a d部分的完美结合.最后采用简化的S i mOT A方法求解最优解,完成最终预测.预测头对分类、回归和类别判断这三者预测的路径各不相同.解耦头就是预测头采用多个不同的头解耦输出,使各任
22、务关注任务自身所需要的特征信息,这种方法可以有效避免任务之间的干扰,提高模型的性能.如果预测头不采用解耦头,则在原图顶部的C o n v 2 D_B N_S i L U模块输出结果将只会接入一个卷积层,由后者输出预测结果,从而导致任务之间的相互影响,降低模型的性能.A n c h o r-f r e e,即无锚框方法.与采用基于锚框的YO L O X预测头的假设版本相比,无锚框的YO L O X版本在预测时的参数量大幅度减少.实际上,YO L O X也有锚框,以YO L O X-D a r k n e t 5 3为例,最终输出结果是8 584 0 0的特征向量,后面的84 0 0扮演的角色即为
23、锚框,这些锚框需要与原图像上所有的目标框进行关联,从而筛选出正样本锚框.S i mOT A是一种目标检测中的正样本分配算法,可用于YO L O X网络中的预测头.在标签分配过程中,S i mOT A采用了中心先验法确认正样本候选区域,然后通过计算各样本对真实目标(g r o u n dt r u t h,G T)的分类和回归损失,获得与当前G T的交并比(I OU)前1 0的样本.其核心是动态调整k值,可以根据不同的目标大小和密度自适应地调整,而不需要手动设置.即对每个G T,S i mOT A会计算其与所有样本的I OU,并将这些I OU值从大到小排序.然后将前d y n a m i c_k
24、个样本的I OU值求和取整,得到一个动态k值,表示这个G T周围的样本密度.最后,S i mOT A会选择每个G T损失最小的前d y n a m i c_k个样本作为正样本.图1为YO L O X-S模型的结构.1.2 可变形卷积神经网络在目标检测任务中,需要适应目标形态的差异.为解决该问题,通常使用形变不变性或增强数据集的方法.这些方法虽然能够容纳已知固定类型的形变,但在实践中很难应对复杂的形变.卷积神经网络通常使用特征点采集特征图中固定位置的数据,这种方式的几何形变建模能力主要来自数据集的扩展、网络层数以及人工设计的模型.但其仍无法解决复杂变形的检测问题.针对卷积神经网络适应目标不规则形
25、状的问题,需引入可变形卷积的方法.该方法通过在传统卷积采样点的基础上增加二维偏置实现采样网络的自由变形,从而使卷积神经网络能适应目标的不规则形状.这种偏置值通过增加卷积层获得,能定位具有不同局部形态的对象.该过程需要的参数和计算量较少,因此可使用梯度反向传播算法进行端到端训练.通过可变形卷积,可得到一个简单的多层模型,以适应目标物体形状的多样性.传统卷积使用规则网格R在固定位置对输入特征图进行采样,并使用权值对采样值进行加权求和,其中网格R定义膨胀参数和感受野.一般定义大小为33、膨胀参数为1的卷积核R为R=(-1,-1),(-1,0),(0,1),(1,1).(1)特征图的标准卷积可表示为y
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 YOLOX 车窗 状态 识别 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。