行人检测综述报告.docx
《行人检测综述报告.docx》由会员分享,可在线阅读,更多相关《行人检测综述报告.docx(16页珍藏版)》请在咨信网上搜索。
1、国防科技大学课程设计 机器视觉基于深度神经网络的行人检测综述摘要:行人检测是汽车自动驾驶的基础技术之一。基于深度神经网络模型的行人检测方法取得的效果已经远超于使用传统特征经行识别得到的效果。仿生物视觉系统的卷积神经网络作为深度学习的重要组成、在图像、语音等领域得到了成功应用。其局部感受野、权值共享和降采样三个特点使之成为智能机器视觉领域的研究热点。通过增加网络层数所构造的深层神经网络使机器能够获得抽象概念能力,在诸多领域都取得了巨大的成功,又掀起了神经网络研究的一个新高潮。本文回顾了神经网络的发展历程,综述了其当前研究进展以及存在的问题,展望了未来神经网络的发展方向。关键词:行人检测;卷积神经
2、网络;深度学习Survey of Pedestrian detection based on Deep Neural NetworkYin Guangchuan,Zhangshuai,Qi ShuaihuiAbstract:Pedestrian detection is one of the basic technologies of unmanned vehicles. The pedestrian detection method based on the deep neural network model has achieved much more effect than the tr
3、aditional one. Convolutional neural network which imitates the biological vision system has made great success on image and audio, which is the important component of deep learning. Local receptive field, sharing weights and down sampling are three important characteristics of CNN which lead it to b
4、e the hotspot in the field of intelligent machine visionWith the increasing number of layers, deep neural network entitles machines the capability to capture “abstract concepts” and it has achieved great success in various fields, leading a new and advanced trend in neural network research. This pap
5、er recalls the development of neural network, summarizes the latest progress and existing problems considering neural network and points out its possible future directions. Keywords: pedestrian detection; convolutional neural network; deep learning1 引言行人兼具刚性和柔性物体的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人检测成为计算机
6、视觉的研究难点与热点。行人检测技术由于应用的广泛性使其在计算机视觉领域成为一个重要分支,对视频监控、车辆辅助驾驶、智能机器人等多个领域提供了重要的技术支持。近几年来,深度学习在大规模图像分类方面取得的了重大突破,表明深度学习可以从多媒体内容中提取具有很强表达能力的特征。卷积神经网络 ( Convolutional NeuralNetwork,CNN)1提供了一种端到端的学习模型,模型中的参数可以通过传统的梯度下降方法进行训练,经过训练的卷积神经网络能够学习到图像中的特征,并且完成对图像特征的提取和分类。作为神经网络领域的一个重要研究分支,卷积神经网络的特点在于其每一层的特征都由上一层的局部区域
7、通过共享权值的卷积核激励得到。这一特点使得卷积神经网络相比于其他神经网络方法更适合应用于图像特征的学习与表达。CNN 把特征提取归入模型学习,把特征学习和分类学习有机结合起来, 更有效地实现对图像的识别特别是近两年,卷积神经网络受到了更为广泛地关注CNN 可能是机器学习领域近十年最成功的研究方向,因此本文拟对 CNN 的发展和其在行人检测上的研究成果进行了介绍,并对其预期研究方向进行展望。2 卷积神经网络的研究历史20 世纪60年代,Hubel等2的生物学研究表明,视觉信息从视网膜传递到大脑中是通过多个层次的感受野 ( Receptive Field ) 激发完成的;1980 年,Fukush
8、ima3第一次提出了一个基于感受野理论模型Neocognitron。Neocognitron 是一个自组织的多层神经网络模型,每一层的响应都由上一层的局部感受野激发得到,对于模式的识别不受位置、较小形状变化以及尺度大小的影响。Neocognitron 采用的无监督学习也是卷积神经网络早期研究中占据主导地位的学习方式。1998 年,Lecun 等提出的 LeNet- 51采用了基于梯度的反向传播算法对网络进行有监督的训练。经过训练的网络通过交替连接的卷积层和下采样层将原始图像转换成一系列的特征图,最后,通过全连接的神经网络针对图像的特征表达进行分类。卷积层的卷积核完成了感受野的功能,可以将低层的
9、局部区域信息通过卷积核激发到更高的层次。LeNet- 5在手写字符识别领域的成功应用引起了学术界对于卷积神经网络的关注。同一时期,卷积神经网络在语音识别4、物体检测5、人脸识别6等方面的研究也逐渐开展起来。2006年,机器学习领域的泰斗 Hinton7指出多层的神经网络结构能够学习到更深刻更本质的特征,并通过“逐层初始化”的训练办法克服了传统神经网络训练瓶颈问题,引领了深度学习的发展方向。从此,深度学习受到了各国学者的广泛关注,谷歌、微软、IBM、百度等拥有大数据的高科技公司相继投入大量资源进行 深度学习理论研究。2011年以来,微软研究院和谷歌的语音识别人员采用深度神经网络( deep ne
10、ural network, DNN) 技术,使语音识别有了突破性进展,识别误差可降低20% 30%。2012 年, Krizhevsky 等8提出的AlexNet在大型图像数据库ImageNet9的图像分类竞赛中以准确度超越第二名11%的巨大优势夺得了冠军,使得卷积神经网络成为了学术界的焦点。2014 年的大型视觉辨识挑战赛( ImageNet Large Scale Visual Recognition Challenge,ILSVRC) 中,几乎所有的参赛队伍都采用了卷积神经网络及其变形方法。2015 年国际机器学习大会上来自工业界和学术界的各位专家对深度学习 展开激烈讨论,指出深度学习在
11、人类擅长的领域已经取得了令人振奋的成功, 未来的探索方向是人类并不擅长的任务、 数据集。2015 年国际计算机视觉与模式识别会议上关于 DL 和 CNN 的研究成果较往年有大幅的提升。2015 年 9 月, 微软亚洲研究院的“深 层 残 差 网 络”( deep residual networks ) 在ILSVRC 中获得图像分类、 定位以及检测全部项目的冠军,如分类方面将错误率降低至 494%, 比人眼辨识( 错误率 51%) 更精确10 。在大数据时代, 各领域争先占领 DL 的技术制高点,希望找出更强大的模型来揭示海量数据所承载的丰富信息,对未知事件更精准地预测。3 卷积神经网络结构与
12、改进3.1 卷积神经网络结构Lecun 等1提出的LeNet-5模型采用了交替连接的卷积层和下采样层对输入图像进行前向传导,并且最终通过全连接层输出概率分布的结构是当前普遍采用的卷积神经网络结构的原型。卷积神经网络是一种多层的监督学习网络,有输入层、隐含层(包括卷积层和下采样层)和输出层,通过误差反传算法优化网络结构,求解未知参数,其网络结构如图1 所示。图1 卷积神经网络框架在卷积层,特征图(Feature Map)的每一个神经元与前一层的局部感受野相连,经过卷积操作提取局部特征。A卷积层中有多个Feature Map,每个Feature Map 提取一种特征,在提取特征时,同一个Featu
13、re Map 的神经元共享一组权值(即卷积核),不同的Feature Map 权值不同,从而提取不同的特征,在训练过程中不断地调整权值参数,使特征提取朝着有利于分类的方向进行,卷积操作示意图如图2 所示,一般卷积的公式如公式1所示 (1) 其中,l 代表层数,k 代表卷积核,输入层的感受野,b 代表偏置。图2 卷积操作示意图在下采样层中,输入的Feature Map 经过池化(Pooling)后其个数不变,大小变为原来的1/n(假设池化尺寸为n)。池化操作的主要作用是减小特征图的分辨率,降低特征维数,同时在一定程度上增加网络对位移、缩放、扭曲的鲁棒性。池化分为最大池化和平均池化。下采样层的形式
14、如公式2所示: (2)其中down() 为池化函数,为权重系数。LeNet- 5虽然在手写字符识别领域取得了成功,但是其存在的缺点也比较明显,包括难以寻找到合适的大型训练集对网络进行训练以适应更为复杂的应用需求; 过拟合问题使得 LeNet- 5 的泛化能力较弱;网络的训练开销非常大,硬件性能支持的不足使得网络结构的研究非常困难。以上三大制约卷积神经网络发展的重要因素在近期的研究中取得了突破性的进展是卷积神经网络成为一个新的研究热点的重要原因。并且,近期针对卷积神经网络的深度和结构优化方面的研究进一步提升了网络的数据拟合能力。3 .2 卷积神经网络模型的改进3.2.1 CNN卷积层的改进在增加
15、模型深度可以有效增加网络性能的理论基础上,Krizhevsky 等11把 CNN的卷积层数加至5层,构成了深度卷积神经网络( deep convolutionalneural network, DCNN);zegedy等组成GoogLeNet小组构建了22层深度网络12,该网络比 2012 ILSVRC获胜者的网络参数少了12倍,却能更精确的分类和检测,在2014 年的ILSVRC一举夺冠。如何构建更深网络一直是CNN的研究热点,2015 ILSVRC的152层“深层残差网络”13采用了一个全新的“残差学习”原则指导学习,并重新定向了深层 CNN中的信息流,高效地解决了深层神经网络准确度与层数
16、之间的矛盾。王冠皓14提出了多级金字塔卷积神经网( multi-level pyramid CNN),CNN每层先使用稀疏自编码器预训练,再使用金字塔卷积神经网络对整个网络训练,将低层的滤波权值共享到高层,保证训练时的卷积滤波只在小尺寸图像上进行,大尺度图像只进行一次向前传播,加快训练速度。此外,Zhang在ImageNet上训练具有7层的快速非线性卷积神经网络15,对每层加速以达到对整个网络加速的目的,速度可达到与“AlexNet”16一致的同时,分类精度也提高了4. 7%。 3.2.2 CNN 降采样层的改进常规 DCNN 只能对尺度固定的图像进行处理,对尺度不同的输入图像需人工裁剪或拉伸
17、之后才输入网络,会造成图像失真而影响分类的准确率。DCNN的卷积层尾端引入空间金字塔降采样层去除固定尺度的约束,降采样获得与全连接层相匹配的特征。多尺度训练得到的空间金字塔降采样网络 ( spatial pyramid poolingnetwork SPP-net )17可处理任意尺度的图像。Rippel等18提出了频谱池化的方法,将CNN进行傅里叶变换来把耗时的卷积操作替换为乘积操作可加速网络训练,通过截取信号在频域特征表示来降低维度,不仅可以保留更多的信息,还比其它的池化方法更灵活,提高了利用傅里叶变换计算卷积效率。Zeiler等19提出了反卷积神经网络( deconvolutional
18、networks,DN),采用非监督方法对自然图像自顶向下进行卷积分解,再组合滤波器组学习到的卷积特征,获得一个特征丰富具有鲁棒性的图像表征。但大量卷积操作也DN比自底向上的编码模型耗时,因而Zeiler在DN每层之间采用3D最大池化层,引入一组潜在开关变量,使得模型可以根据多种输入模式自适应调整,构建了由卷积稀疏编码层和最大降采样层交替的自适应反卷积神经网络( adaptive deconvolutionalnetworks,ADN)20,在中间层和高层特征学习都能取得不错的效果。3.2.3 CNN全连接层的改进为了克服过拟合问题, Krizhevsky在CNN两个全连接层采用了“Dropo
19、ut” 策略20,每次迭代以0.5概率使一些随机分布的节点不工作但权值保留,之后又可能参与训练。略可以防止某些特征仅在其它特殊特征出现下才产生作用的情况,从而有效地避免了网络中特征之间的相互依赖性。孙艳丰21提出了基于改进 Fisher 准则的深CNN识别算法( fisher-based convolution neural network,FCNN),反向传播采用 Fisher 的约束准则,加入判别准则的能量函数,在迭代求解权值的搜索空间受到判别条件约束影响,从全局搜索缩小到更有利于分类的局部空间,从而使权值更快地逼近便于分类的最优值。Girshick等22提出基于区域卷积神经网络(Regi
20、ons with CNN features,RCNN),先找兴趣区域再进行检测和分割。由于RCNN兴趣区域中心点的运算量大而耗时,提出fast R-CNN( FRCN),把全连接层的矩阵进行SVD分解,速度提高了30%对于给定的图像和目标框方案,FRCN 进行目标检测耗时60330 ms,忽略了在区域方案提取所需的时间( 约 1.51 s) 。无论卷积层的改进,还是降采样层及全连接层的改进,都是针对网络的学习能力及学习效率两方面的改进。因为 CNN 的学习能力可以通过调节网络的深度来增强,增加模型深度可以有效增加网络性能。为了使 CNN 更好地模拟大脑复杂的深层次神经网络,增加网络深度逐渐成为
21、一种趋势。另外,CNN 的卷积核相当于特征提取器,可以有效地提取输入信号的有用信息,但是耗时是卷积操作必须重视的问题,针对这个问题,提出了一系列的加速方法,在一定程度上降低了训练和测试的时间。但整体上,与传统的非神经网络方法相比,CNN 的耗时还是比较大,需要进一步改善。如何在提高网络学习能力和减少耗时之间找到一个平衡点,依旧是 CNN 面临的问题。4 卷积神经网络算法在行人检测上的应用4.1 行人检测现状行人检测主要分为四部分:特征提取、形变处理、遮挡处理和分类。特征提取的应该是行人最有判别力的特征,比较有名的特征描述子有:Haar-like、SIFT、HOG等等;其次,可变形模型应该可以处
22、理人体的各个部分,例如躯干、头、腿等等。最有名的DPM(可变形部件模型)使得各部件具有连接性约束。形变处理是人体姿态的多样性,给行人的准确识别带来了一定的困难,为克服形变带来的难题,在深度学习的框架中加入了形变处理层,采用混合形变模型,针对卷积产生的部位图生成对应的形变特征,把部位图与形变特征结合形成混合特征图,用最大化函数处理混合特征,生成对应的部位检测。遮挡处理是运动目标检测中的一个难点问题,遮挡处理的结果将直接影响运动目标检测的准确性,因此,遮挡处理是行人检测过程中极其重要的一步,在遮挡处理的过程中可视度的估计是非常关键的,针对例如检测Blocks或Parts的得分以及采用线索:图像分割
23、、深度图等。分类器决定候选窗选中的为一个行人,如:SVM、boosted classifiers、随机森林等等。在这些方法中,分类器是由训练数据来调整的,但是特征是手工设计的。如果有用的信息在特征提取阶段遗漏了,那么在分类阶段不可能在恢复。实际上,应该是分类器应该引导特征的学习。用深度学习的方法将行人检测的几个方面进行系统的联合训练,避免每个步骤单一练造成的局部最优化问题,使得整个检测系统达到全局最优。随着深度学习的提出以及这几年的大热,越来越多的研究人员将其应用到行人检测领域,例如:Pierre Sermant23等人提出了用无监督的多特征学习法,应用稀疏卷积神经网络自动学习图像的所有特征,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 行人 检测 综述 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。