基于深度学习的道路小目标检测综述.pdf
《基于深度学习的道路小目标检测综述.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的道路小目标检测综述.pdf(12页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 10期2023年 10月Computer Engineering 计算机工程基于深度学习的道路小目标检测综述曹健1,2,陈怡梅1,2,李海生1,2,蔡强1,2(1.北京工商大学 计算机学院,北京 100048;2.食品安全大数据技术北京市重点实验室,北京 100048)摘要:复杂道路场景下的小目标检测能够提高车辆对于周边环境的感知能力,是计算机视觉和智慧交通领域的重要研究方向。随着深度学习技术的发展,将深度学习方法与道路小目标检测相结合能够有效提高检测精度,使车辆快速对周边环境做出反应。从经典及最新的道路小目标检测的研究成果出发,给出小目标的两种定义方式,分析造成道路小目标检测
2、困难的原因,阐述数据增强、多尺度策略、生成超分辨率细节信息、加强上下文信息联系、改进损失函数等 5类基于深度学习的提高道路小目标检测精度的优化方法,总结归纳各类方法的核心思想及目前国内外最新的研究进展。介绍常用于道路小目标检测的大型和公共数据集,提供相应的用于评估小目标检测性能的指标,对比分析各类方法在不同数据集上的性能检测结果,指出道路小目标检测研究目前仍存在的问题,并结合这些问题从多个角度对其未来研究方向进行展望。关键词:小目标检测;深度学习;数据增强;特征融合;检测精度开放科学(资源服务)标志码(OSID):中文引用格式:曹健,陈怡梅,李海生,等.基于深度学习的道路小目标检测综述 J.计
3、算机工程,2023,49(10):1-12.英文引用格式:CAO J,CHEN Y M,LI H S,et al.Survey of small target detection on roads based on deep learning J.Computer Engineering,2023,49(10):1-12.Survey of Small Target Detection on Roads Based on Deep LearningCAO Jian1,2,CHEN Yimei1,2,LI Haisheng1,2,CAI Qiang1,2(1.School of Computer
4、 Science and Engineering,Beijing Technology and Business University,Beijing 100048,China;2.Beijing Key Laboratory of Big Data Technology for Food Safety,Beijing 100048,China)【Abstract】Small target detection in complex road scenes can improve the vehicles perception of the surrounding environment.Thu
5、s,it is an important research direction in the field of computer vision and intelligent transportation.With the development of deep learning technology,a combination of deep learning and small target detection on roads can effectively improve detection accuracy,allowing the vehicle to quickly respon
6、d to the surrounding environment.Starting with the latest classic research results in small target detection,this research provides two definitions for small targets and analyzes the reasons for the difficulty encountered in small target detection on roads.Subsequently,five types of optimization met
7、hods based on deep learning are expounded upon to improve detection accuracy of small targets on roads.The optimization methods include enhanced data,multi-scale strategy,generated Super-Resolution(SR)detail information,strengthened contextual information connection and improved loss function.The co
8、re ideas of various methods and the latest research progress at home and abroad are summarized.Large and public datasets commonly used in road small target detection are introduced along with corresponding indicators to evaluate the performance of small target detection.In comparing and analyzing th
9、e performance detection results of various methods on different datasets,this research presents the current research on road small target and associated problems,looking forward to future research directions from multiple perspectives.【Key words】small target detection;deep learning;data enhancement;
10、feature fusion;detection accuracyDOI:10.19678/j.issn.1000-3428.0065984基金项目:国家自然科学基金(61877002,62277001);北京市自然科学基金-丰台轨道交通前沿研究联合基金项目(L191009);北京市教委-市自然科学基金委联合资助项目(KZ202110011017)。作者简介:曹 健(1982),男,副教授、博士,主研方向为机器学习、图像处理;陈怡梅(通信作者),硕士研究生;李海生、蔡 强,教授、博士。收稿日期:2022-10-12 修回日期:2022-11-17 Email:热点与综述文章编号:1000-34
11、28(2023)10-0001-12 文献标志码:A 中图分类号:TP3912023年 10月 15日Computer Engineering 计算机工程0概述 道路目标检测是智能交通监控1、自动驾驶2、车牌识别3、行人跟踪4、车辆检测5等领域的重要研究分支之一,旨在识别和检测整个道路场景图像中感兴趣的目标,尤其是在复杂场景中的准确性和实时性是评测整个模型系统的重要指标,具有广泛的应用价值。但是自然交通场景的复杂多变以及道路各类目标本身在尺寸与距离上的干扰,使得目标识别和检测难度大大增加,其中小目标检测就是研究者关注的一个难点问题。对于大中型的车辆、行人等目标,通用的 Two-stage和 O
12、ne-stage目标检测模型已经能够达到不错的检测效果,然而小目标的尺寸较小,不具备相应的形状和纹理特征,这些特性导致其检测性能仍有所欠缺,不能满足实际需求。道路小目标的具体定义方式可参考小目标的定义方式,大致可分为两种:一种是绝对尺寸的定义方式,在通用的目标检测数据集 MS COCO6中,尺寸小于 3232像素的目标被定义为小目标;另一种是相对尺寸的定义方式,根据国际光电仪器工程师协会(SPIE)的定义,小目标是指在大小为 256256像素的图像中目标区域小于 99像素。目前,道路小目标检测困难和效果相对较差的原因大致可以归结为以下 4 种:1)相较于中大型行人车辆目标,包含小目标实例的图像
13、较少,且道路场景复杂多变,小目标容易隐藏在背景中;2)小目标在道路图像中面积占比小、分辨率低,携带的信息少,位置缺乏多样性,难以定位,因此,卷积神经网络提取到的可利用的有效信息非常有限;3)特征提取时,输入图像经过卷积神经网络的多次下采样后,小目标的细节信息丢失严重,影响小目标的检测效果;4)道路目标检测领域缺乏大规模通用的小目标检测数据集,目前该领域发布的公共数据集多为针对中大型的行人车辆进行检测,难以满足小目标的检测需求。针对上述问题,国内外许多研究者提出了相应的改进和优化方法来提高小目标的检测精度。本文将 主 要 从 数 据 增 强、多 尺 度 策 略、生 成 超 分 辨 率(Super
14、-Resolution,SR)细节信息、加强上下文信息联系、改进损失函数等5类改进方向出发进行归纳梳理,对各类方法的特点和优缺点进行比较,在 MS COCO公共数据集以及其他不同道路场景数据集上对各类方法的检测性能进行评估和对比分析,并对道路小目标检测的未来研究方向进行展望。1针对小目标检测的优化方法 1.1数据增强数据增强是一种扩展数据的技术,在缺乏数据或数据量有限的情况下,该技术可以利用有限的数据来创造尽可能多的价值并尽可能满足研究者的需求。尽管现在有很多用于各种任务的公开数据集,但数据量在使用中远远不够,而收集和制作这些数据的成本其实是非常高的且不便于采集,因此数据增强便成为了一种快速有
15、效的改进方法。在大部分目标检测的数据集中,小目标的实例数量占比少,在训练和检测中容易被忽略。通过数据增强来增加小目标的样本数量,可有效改进小目标的检测精准度。常用的数据增强方法可大致分为单样本数据增强和多样本数据增强两类。典型的单样本数据增强方法主要是在一张预检测的图像上进行翻转、裁剪、缩放、添加噪声、变换颜色等操作,改变图像原有的状态,可有效增加数据集的样本数量和提高网络的泛化能力。文献 7 使用过采样和基于复制粘贴的增强方法进行改进,并在将对象粘贴到新位置前,对其应用两种缩放图像和旋转图像的随机变换,然后将小目标粘贴到新的位置,并确保新粘贴的目标不与任何现有目标相重叠,且距离图像边界至少
16、5 个像素。文献 8 对输入的每一张图像先采用缩放操作,在缩放操作后进行增强对比度、翻转、改变亮度和以 0.5 的概率随机角度旋转等操作。文献 9 在小目标数据集上,将每张图片上的小目标物体在训练时复制 3 次,使得网络在训练过程中可以更容易地提取目标的特征信息。文献 10 通过几何变换和颜色变换等进行数据增强,增加了数据集的数据量。文献 11 提出自动数据增强策略,与手工制定的策略不同,该策略利用自动算法在多种增强候选者中进行搜索,且该策略也可以应用于其他数据集和框级任务。文献 12 利用自动机器学习(Auto Machine Learning,Auto ML)原理设计自动搜索数据增强技术用
17、于行人检测,从而产生最佳的数据增强策略。近些年,许多研究者也提出了多种通用的多样本数据增强方法,包括MixUp13、CutOut14、CutMix15、Mosaic16等方法,这些方法通过将多张图像以某种方式合成到一起形成新的样本,达到扩充数据集容量的目的。MixUp方法将两张图像以一定的概率和比 例 拼 凑 到 一 起,比 例 分 配 决 定 了 分 类 结 果。CutOut 是在图像中随机选择某一部分区域进行裁剪。CutMix 是将两种方法相结合,先裁剪掉一张图像的某一部分,再使用另一张图像中的某一部分进行填充形成新的样本。Mosaic数据增强方法是目前最常用的数据增强方法之一,该方法借鉴
18、了 CutMix增强方法,将采用的 2 张图像扩充为 4 张图像,先对4 张图像进行随机裁剪、缩放、翻转等操作,然后将4 张图像拼接形成一张新的图像。这个操作在扩充了数据集的同时也增加了小样本的数量,并且极大地 丰 富 了 检 测 对 象 的 背 景。在 YOLOv416和YOLOv517模型结构中,均使用了 Mosaic 数据增强方法,以此提高了模型学习能力和效率。文献 18也 将 Mosaic 数 据 增 强 方 法 引 入 改 进 后 的CenterNet19中,以此优化算法的训练模式,丰富检测背景,优化检测性能。图 1和图 2为多样本数据增强方法的示例图。2第 49卷 第 10期曹健,
19、陈怡梅,李海生,等:基于深度学习的道路小目标检测综述1.2多尺度策略在使用卷积神经网络进行特征提取时,不同的网络深度对应不同层次的特征。低层特征的分辨率更高,像素更丰富,包含更多的细节信息和位置信息,对于目标的定位有极大帮助,但包含的语义信息较少;高层特征包含更丰富的语义信息,极大地促进了对象的分类,但分辨率较低,像素较少,对细节位置信息的感知能力较差。对于小目标行人、车辆以及指示牌而言,它们的尺寸小,分辨率低,在多次下采样后,特征图不断缩小,致使小目标的细节信息严重丢失,而多数通用检测器仅采用最后一层的特征图来定位目标和预测置信度分数,其中包含丰富的分类信息但缺乏详细信息,使得小目标物体容易
20、出现误检和漏检的情况。多尺度策略的提出有效缓解了这一问题,在计算量不大的情况下,增强了物体特征的表达能力,提高小目标检测的性能。目前,典型的多尺度策略有图像金字塔、SSD 算法和特征金字塔网络(Feature Pyramid Network,FPN)。图像金字塔是图像多尺度表达的一种,通过对原始图像进行下采样,得到一系列以金字塔形状排列的分辨率逐渐降低的子图集合,构成图像金字塔。图像金字塔结构如图 3所示。文献 20 将背景差分目标检测模型与高斯图像金字塔相结合用于多目标的检测,减少了误检测。文献 21 指出当前在极端尺度变化下目标检测训练存在的缺点,在此基础上提出一种新的训练方案,即图像金字
21、塔尺度标准化(Scale Normalization for Image Pyramid,SNIP),在训练和反向传播更新参数时,只考虑在指定的尺度范围内的目标,即只对大小合适的某些目标进行训练,以此提高小目标的检测效率。然而,图像金字塔方法的一个明显限制是它在处理一张图像时需要较大的计算量,模型必须对来自所有尺度的图像执行独立的计算。SSD 算法使用步长为 2 的卷积来降低特征图的大小,以不同尺度的特征图作为检测层来分别预测不同尺度目标的类别和位置坐标,较大的特征图用来检测小目标,较小的特征图用来检测大目标,实现多尺度目标的检测。SSD 算法的多尺度检测如图 4所示。文献 22 提出 DSS
22、D 网络,使用 ResNet-101 更换 SSD 的骨干网络 VGG16,提高了模型的特征提取图 4SSD算法的多尺度检测Fig.4Multi-scale detection of SSD algorithm图 3图像金字塔结构Fig.3Structure of image pyramid图 1MixUp、CutOut、CutMix数据增强方法的示例图Fig.1Example diagrams of MixUp,CutOut,and CutMix data enhancement methods图 2Mosaic数据增强方法的示例图Fig.2Example diagrams of Mosai
23、c data enhancement method32023年 10月 15日Computer Engineering 计算机工程能力,并使用反卷积层增加了上下文信息,提升了多尺度目标及小目标的检测精度。文献 23 提出一种基于稀疏连接和多尺度融合的 Inception-SSD行人检测方法,使用 Inception 模型代替骨干网络的基础部分,将全连接转换为稀疏连接,有效缓解了参数空间大、容易过拟合、梯度分散、模型性能下降等问题。由于 SSD 多层特征图为非连续结构,所得到的信息不足,影响检测性能,因此特征金字塔通过引入自上而下的连接24来解决 SSD模型存在的问题。特征金字塔是目前最常使用的
24、多尺度特征融合方法,针对图像中不同物体具有不同的尺度,利用自下而上的路径、自上而下的路径和横向连接三部分完成多尺度检测。自下而上的路径是卷积神经网络的前向过程,选取每个阶段最后一层的输出构成特征金字塔;自上而下的路径通过从更高的金字塔级别对空间上更抽象但语义更强的特征图进行上采样来生成更高分辨率的特征图;横向连接合并了自下而上路径和自上而下路径的相同空间大小的特征图,将来自低层特征图的详细位置信息和来自高层特征图的丰富语义信息相融合,实现了不同尺度的特征提取,显著提升了小目标的检测性能。特征金字塔结构如图 5所示。文献 25 将 FPN 网络中的 Add融合方式更改为Concat 方 式 来
25、融 合 经 多 次 卷 积 后 提 取 的 特 征。文献 26 提出一种融合 FPN 和 Faster R-CNN27的行人检测算法,获得了较好的检测效果。文献 28 提出基于 FPN 的路径聚合网络(PANet),在 FPN 后增加自下向上的路径增强,能够缩短信息路径并利用低层中存在的准确定位信息来增强特征金字塔,得到语义信息和定位精度上的双重提升,从而提高了对于多尺度目标的检测能力。PANet结构如图 6 所示,其中,Pi和 Ni表示不同层级的特征图,Ni是由包括Pi等多个特征图融合后的结果。文献 29 针对 FPN 网络存在自顶向下路径中信息稀释导致较低层获得的语义信息有限、高层特征缺乏
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 道路 目标 检测 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。