基于YOLOv7的复杂场景行人检测.pdf
《基于YOLOv7的复杂场景行人检测.pdf》由会员分享,可在线阅读,更多相关《基于YOLOv7的复杂场景行人检测.pdf(5页珍藏版)》请在咨信网上搜索。
1、计 算 机 与 网 络技术论坛计 算 机 与 网 络技术论坛计 算 机 与 网 络技术论坛计 算 机 与 网 络技术论坛基于YOLOv7的复杂场景行人检测张子怡1,丁学文1,2,刘文艳1,蔡鑫楠1(1.天津职业技术师范大学 电子工程学院,天津300222;2.天津云智通科技有限公司,天津300350)摘要:YOLOv7是目前所有目标检测模型中速度最快和准确度最高的模型,但是应用在复杂场景下的行人目标时,由于提取的特征包含大量冗余背景信息,不能聚焦在行人目标区域,仍存在错检、漏检的情况。为解决这一问题,提出了一种基于YOLOv7的改进模型,在卷积层加入金字塔特征融合策略(Adaptively S
2、patial Feature Fusion,ASFF),通过在空域过滤冲突信息以抑制不一致的特征,使网络对不同尺度目标的特征融合能力有所提高。在Human Crowd数据集进行训练和测试改进后的模型效果检测。实验结果表明,改进的YOLOv7算法平均精度为73.5%,与原来的YOLOv7相比,平均精度提升了10.6%,且速度提升为原来的26.14%。关键词:YOLOv7;行人检测;特征融合网络;平均精度值中图分类号:TP391.4文献标志码:A文章编号:1008-1739(2023)18-68-5ZHANG Ziyi1,DING Xuewen1,2,LIU Wenyan1,CAI Xinnan1
3、渊1.School of Electronic Engineering,Tianjin University of Technology and Education,Tianjin 300222,China;2.Tianjin Yunzhitong Technology Co.,Ltd.,Tianjin 300350,China)YOLOv7 is currently the fastest and most accurate model among all target detection models.However,when it is appliedto pedestrian targ
4、ets in complex scenarios,a lot of redundant background information is contained in the extracted features,making itdifficult to focus on the pedestrian target area,and there are still errors and omissions in detection.In order to solve this problem,animproved model based on YOLOv7 is proposed,in whi
5、ch the Adaptively Spatial Feature Fusion(ASFF)strategy is added to theconvolution layer.By filtering conflict information in the spatial domain to suppress inconsistent features,the networks feature fusionability for targets of different scales is improved.The improved model detection effect is trai
6、ned and tested in the Human Crowd dataset.The experimental results show that the average accuracy of the improved YOLOv7 algorithm is 73.5%.Compared with the originalYOLOv7 algorithm,the average accuracy is increased by 10.6%,and the speed is increased by 26.14%.YOLOv7;pedestrian detection;feature f
7、usion network;average accuracy value收稿日期:2023-06-11基金项目:天津市科委科技特派员项目(20YDTPJC01110);天津市高等学校科技发展基金计划项目(20110710)0引言目标检测是机器视觉1研究的热点问题,行人检测2作为目标检测的重要组成部分,其任务是对图像或视频中的行人进行精准识别和定位,是行人分割、行人重识别任务的前提,具有很高的研究价值和商业价值。然而在日常生活中,每个人都有不同的外表3,衣着服饰也不尽相同,而且行人呈现出的姿势也是各种各样的4。文献5-7阐述了在复杂场景下,有时难以将图像的背景和行人辨别出来,人群的清晰度也会受到
8、距离、灯光和阴晴雨雪等8各种环境9的影响;同样会存在行人与背景相互遮挡、互相影响的情况10,并且在现实环境中,还存在着光照强度变化和行人轮廓差别等外界因素的制约,这些都会让检测任务变得更加艰难。针对实际场景下遮挡行人目标和小行人目标检测精度较低的问题,邹梓吟等11提出了一系列的解决方案,进一步提升了模型的检测精度、优化了模型的性能。但是对于遮挡严重的行人目标12,模型提取的特征包含大量冗余背景信息,不能聚焦行人目标区域,检测精度仍然不佳。针对上述问题,本文提出了一种改进的YOLOv7算法应用于复杂场景,该算法提升了网络对不同尺度目标的特征融合能力,从而提高了召回率和平均精确率。68计 算 机
9、与 网 络技术论坛计 算 机 与 网 络技术论坛计 算 机 与 网 络技术论坛计 算 机 与 网 络技术论坛1 YOLOv7算法及改进1.1 YOLOv7网络结构YOLOv7算法共有7种网络模型,依次为v7、v7-d6、v7-e6、v7-e6e、v7-tiny-SiLU、v7-w6、v7x,这7种版本可以满足不同量级的设备使用。YOLOv7网络模型由input、backbone和head三个部分组成,与YOLOv5不同的是,YOLOv7将neck层与head层合称为head层,而实际上的功能是一样的。其各个部分的功能和YOLOv5相同:backbone由若干BConv层、E-ELAN层以及MP
10、Conv层组成,其中BConv层由卷积层+BN层+ReakyReLU激活函数组成,用于减半长宽、增倍通道和提取特征;head由SPPCSPC层、E-ELAN结构、MP结构(与backbone中参数不同)、若干BConv层、若干Catconv层以及后续输出3个head的重参数化结构RepVGG block层共同构成,其作用主要是预测不同大小的目标。其模型结构如图1所示。YOLOv7网络流程为:先对输入的图片预处理,对齐成640 pixel640 pixel大小的RGB图片,输入到backbone网络中,根据backbone网络中的3层输出,在head层通过backbone网络继续输出3层不同si
11、ze的feature map,经过RepVGG block和conv,对图像检测的3类任务(分类、前后背景分割和候选框)预测,输出最后的结果。其区别于YOLOv5的点是基于ELAN的扩展ELAN(E-ELAN),其主要架构如图2所示。图1 YOLOv7模型结构69计 算 机 与 网 络技术论坛计 算 机 与 网 络技术论坛计 算 机 与 网 络技术论坛计 算 机 与 网 络技术论坛图2(b)中CSPVoVNet的设计是VoVNet的变体,CSPVoVNet的体系结构分析了梯度路径,使不同层的权重能学习更多不同的特征。图2(c)中的ELAN通过控制最短最长梯度路径,更深的网络可以有效地学习和收敛
12、。YOLOv7提出了基于ELAN的扩展ELAN(E-ELAN),其主要架构如图2(d)所示。E-ELAN没有改变原有体系结构的梯度传输路径,而是使用组卷积来增加所添加特征的基数,并以洗牌和合并基数的方式组合不同组的特征。这种操作方式可以增强不同特征的图所学习的特征,并改进参数和计算的使用。E-ELAN使用扩展、洗牌和合并基数来实现在不破坏原有梯度路径的情况下不断增强网络学习能力的能力。在体系结构方面,E-ELAN只改变了计算块中的体系结构,并根据集合组参数将每个计算块计算出的特征映射重新组合成组,然后将它们连接在一起添加特征映射以执行合并基数,保持了原来的ELAN设计架构,还可以指导不同组的计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 YOLOv7 复杂 场景 行人 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。