三维卷积神经网络及其在视频理解领域中的应用研究.pdf
《三维卷积神经网络及其在视频理解领域中的应用研究.pdf》由会员分享,可在线阅读,更多相关《三维卷积神经网络及其在视频理解领域中的应用研究.pdf(11页珍藏版)》请在咨信网上搜索。
1、三维卷积神经网络及其在视频理解领域中的应用研究白 静 杨瞻源*彭 斌 李文静(北方民族大学计算机科学与工程学院 银川 750021)(国家民委图像图形智能处理实验室 银川 750021)摘 要:3维卷积神经网络(3D CNN)是近几年来深度学习研究中的热点,在计算机视觉领域取得了诸多成就。虽然研究多年且成果丰富,但目前仍缺少关于此内容全面、细致的综述。基于此,该文从以下几个方面对其进行综述:首先阐述3维卷积神经网络的基本原理和模型结构,接着从网络结构、网络内部和优化方法总结3维卷积神经网络的相关改进工作,然后对3维卷积神经网络在视频理解领域中的应用进行总结,最后总结全文内容并对未来发展方向进行
2、展望。该文针对3维卷积神经网络的最新研究进展以及在视频理解领域中的应用进行了系统的综述,对3维卷积神经网络的研究发展具有一定的积极意义。关键词:视频理解;深度学习;3维卷积神经网络;网络结构中图分类号:TP399文献标识码:A文章编号:1009-5896(2023)06-2273-11DOI:10.11999/JEIT220596Research on 3D Convolutional Neural Network and ItsApplication on Video UnderstandingBAI Jing YANG Zhanyuan PENG Bin LI Wenjing(School
3、 of Computer Science and Engineering,North Minzu University,Yinchuan 750021,China)(National Ethnic Affairs Commission Image Graphics Intelligent Processing Laboratory,Yinchuan 750021,China)Abstract:3D Convolutional Neural Network(3D CNN)has been a hot topic in deep learning research over thelast few
4、 years and has made great achievements in computer vision.Despite years of research and abundantresults,a comprehensive and detailed review of this content is still lacking.In this paper,the 3D convolutionalneural network is introduced in the following aspects.Firstly,the rationale and model structu
5、re of 3Dconvolutional neural network are put forward.Then the improvement of 3D convolutional neural network issummarized from the network structure,network interior and optimization methods.After that the applicationof 3D convolutional neural network in the field of video understanding is explained
6、.Finally,the contentssummary of the paper and future development.This paper provides a systematic review of the latest researchprogress of 3D convolutional neural networks and their applications in the field of video understanding,which isof positive significance to the research and development of 3
7、D convolutional neural network.Key words:Video understanding;Deep learning;3D Convolutional Neural Network(3D CNN);Networkstructure 收稿日期:2022-05-11;改回日期:2022-11-18;网络出版:2022-11-21*通信作者:杨瞻源基金项目:国家自然科学基金(62162001,61762003),宁夏自然科学基金(2022AAC02041),宁夏优秀人才支持计划,北方民族大学创新项目(YCX22194)Foundation Items:The Nati
8、onal Natural Science Foundation of China(62162001,61762003),The Natural Science Foundation of NingxiaProvince of China(2022AAC02041),The CAS“Light of West China”Program,The Ningxia Excellent Talent Program,North MinzuUniversity Innovation Project(YCX22194)第45卷第6期电 子 与 信 息 学 报Vol.45No.62023年6月Journal
9、 of Electronics&Information TechnologyJun.20231 引言卷积神经网络(Convolutional Neural Network,CNN)作为深度学习代表算法之一,因其具有良好的特征学习和泛化能力,在图像处理、人脸识别和音频检测等诸多问题中取得了卓越的性能。然而,当前研究主要聚焦于2维卷积神经网络(Two-Dimensional Convolutional Neural Network,2DCNN),在面对医学影像、高光谱图像及视频等高维数据输入时,存在无法捕获2维空间以外的信息和特征表征能力较弱等问题,导致下游任务的整体性能较低。针对这一问题,201
10、3年文献1提出了3维卷积神经网络(Three-dimensional Convolutional Neur-al Network,3D CNN),并在行为识别任务中取得良好效果。此后,文献2针对行为识别问题提出了C3D,提升了识别准确度;文献3针对医学图像分割问题提出了双注意力3D U-Net,使得分割边界更加准确;针对高光谱图像处理问题,文献4使用3维空洞卷积构建3D CNN,进一步提升了分类精度。整体上来说,3D CNN能够同时对3个维度的信息进行表征学习,在处理结构化3维数据时性能突出,因此成为研究人员广泛关注的新方法。如今,3D CNN领域涌现出许多经典网络,极大地推进了包括视频理解在
11、内的各领域的发展。与此同时,现有的卷积神经网络综述5,6主要针对2DCNN,缺乏以3D CNN为对象的相关综述。本文以3D CNN为综述目标,分析其基本原理和架构(第2节),并对相关改进工作进行总结(第3节),然后简述其在视频理解领域中的应用与改进(第4节),最后展望未来发展方向(第5节),为相关科研人员提供详细的参考。2 3D CNN基本原理及基础模型 2.1 3D CNN基本原理3D CNN由输入层、隐藏层和输出层构成。其中,输入层接收包含宽度、高度、深度和通道的4维输入数据;输出层利用特定函数完成特征到输出结果的映射;隐藏层学习输入数据的表示特征,包含卷积层、池化层以及全连接层,下面对其
12、进行分别介绍。卷积层是卷积神经网络的核心,其目的是提取对象的关键特征。3维卷积核在输入数据形成的3维空间中进行滑动,每滑动一次则在空间窗口内进行一次内积;当卷积核对整个输入数据空间完成遍历后,得到卷积结果,即输出特征。池化层通过下采样操作降低特征维度并去除冗余信息。选定3维池化窗口后,3维池化操作可根据具体应用选取最大池化、平均池化等不同计算方式获得池化后的结果。全连接层位于网络末端,旨在整合前层处理的特征并抹除空间拓扑结构,降低特征位置信息对结果的影响,并完成分类或其他任务。2.2 3D CNN的基础模型结构2013年,文献1针对行为识别任务,首次提出3D CNN,开启了3D CNN领域研究
13、的新篇章。该网络通过3维卷积运算捕获各帧内部的空间信息以及多个相邻帧中的运动信息,虽然只有6层,但整体性能突出。2015年,文献2针对视频理解任务提出了C3D,进一步扩增模型深度,并提出了3维池化,最终取得更加优异的性能。上述工作成为3DCNN的基础模型,研究者在此基础上提出众多的改进工作,并在各个领域取得了良好的效果。3 3D CNN的改进3D CNN具有比2D CNN更强的表达能力,但同时存在参数量大及运行速率低等问题。研究者为有效解决上述问题,提出了不同的改进方案。图1总结了现有工作对3D CNN的改进思路,并将其划分为针对网络结构的改进、针对网络内部的改进以及使用优化方法3个角度。同时
14、,本节将从上述3个角度出发,对3D CNN的相关改进工作进行详细综述。3.1 网络结构改进对3D CNN结构的改进是最常见且直观的改进形式。此类方法通过加深网络深度、拓宽网络宽度和组合其他模块等策略,平衡计算量和提升网络性能。3.1.1 网络深度方向的改进如图2所示,对网络深度方向的改进主要包括在网络中加入跳跃连接和构建分级网络。(1)跳跃连接。常见的跳跃连接包括残差连接、密集连接以及半密度连接。(a)残差连接。残差连接7可使浅层信息直接进入网络深层,并通过单位加操作与深层特征进行合并,有效简化学习过程、缓解网络退化。2020年,文献8设计的残差3D CNN在高光谱图像分类任务中获得良好的效果
15、。(b)密集连接。密集连接9通过跨层连接将各层输出信息传递至其后的每一层中,并以拼接的方式进行信息融合,在减少网络参数量的同时有效缓解梯度消失。2019年,文献10设计了基于注意力机制的密集连接3D CNN,解决了肺结节检测中存在大量假阳性的问题。(c)半密度连接。2019年,文献11提出了半密2274电 子 与 信 息 学 报第 45 卷度连接网络,将所有卷积层的输出传递至下一层的同时直接送入第1个全连接层中,使得网络模型既兼顾不同尺度的信息,又保持空间分辨率,在弱监督标签条件下实现高精度的断层检测。(2)分级网络结构。如图2所示,跳跃连接通过构建各种类型的跨层连接增强网络特征提取能力、减少
16、参数量;分级网络则针对复杂问题,采用分治策略,将目标任务分解为多个子任务,并构建顺序连接、相互促进的子网络完成建模并提升效果。文献12针对复杂场景内群组行为识别问题,构建了包含视频预处理、特征提取和决策融合的3级网络,最终取得良好的效果。3.1.2 网络宽度方向的改进如图3所示,对网络宽度方向的改进包括拓宽网络整体宽度和局部宽度。(1)扩展网络整体宽度。多支路网络可以扩展网络整体宽度,从而捕获更加丰富的特征信息,提升网络的整体性能。具体的,该网络将不同数据或同一数据的不同形式送入相互独立或权值共享的多个支路中分别进行特征提取,再将提取到的特征融 图 1 3D CNN网络模型改进思路 图 2 网
17、络深度方向的改进第6期白 静等:三维卷积神经网络及其在视频理解领域中的应用研究2275合后完成目标任务。2018年,文献13提出多支路网络(Efficient Convolutional network for Onlinevideo understanding,ECO),通过多个权值共享的2维卷积支路处理视频帧以学习初始特征,并将特征拼接后送入3D CNN中完成视频识别,获得了较高的计算速度和行为识别精度。(2)扩展网络局部宽度。扩展网络局部宽度通过扩展各个局部模块的宽度,对数据进行不同处理,再整合或重分配,同时提升网络的普适性和特征提取能力。典型工作有Inception模块和多路聚合单元。
18、(a)Inception模块。针对深度伪造视频鉴别任务,2021年,文献14提出基于3D-Attentional In-ception网络的检测方案,以3D Inception v1(如图3)为基础模块提升网络鲁棒性,使用通道和时空注意力模块提高检测能力,最终取得同期最优效果。1 1 1(b)多路聚合单元。2020年,文献15以多路聚合单元为基础构建网络并以此完成行为识别任务。其中多路聚合单元结构利用残差切分单元将特征沿通道方向分为多个部分并进行独立处理,再利用多路复用器中两个卷积实现支路间信息共享和重分配,然后利用3D自适应注意力模块获取重点关注的特征位置,最后通过不同的3维卷积模块处理对应
19、支路的特征,显著提升了行为识别速率和准确率。3.1.3 组合模型3D CNN不仅可以独立完成各种目标任务,同时也可以作为特征提取器与其他模型或模块组合,以充分发挥各类模型或模块的优势,提升网络的针对性和整体性能。(1)3D CNN+其他模型(a)3D CNN+循环神经网络。针对视频理解问题,3D CNN可以通过增加的维度捕获相邻视频帧之间的依赖关系。但是受限于卷积核尺寸,3D CNN难以刻画相距较远的视频帧之间关系。文献16将3D CNN与循环神经网络串联,利用3D CNN捕捉时空信息,利用循环神经网络捕获特征的长距离依赖关系,在行为识别任务上取得了良好的效果。(b)3D CNN+分类器。以3
20、D CNN作为特征提取器,其他模型作为分类器的综合网络可以捕获更加丰富的表示特征并拥有更优秀的分类能力。文献17将3D CNN与广义回归神经网络相结合,使得网络拥有较强的非线性映射能力和较高的运行速度,在数据不充足和不稳定的情况下良好地完成异常行为识别任务。文献18将3D CNN与支持向量机结合,使得网络在降低计算复杂度的同时,提升特征分类能力。(c)3D CNN+分割模型。当模型需要完成目标分割任务时,可以将3D CNN与SSD(Single ShotMultiBox Detector)目标检测方法和条件随机场等模型相结合,以此提升模型的分割能力,从而更好完成目标任务。文献19通过SSD目标
21、检测方法对视频进行处理,为3D CNN提供更优秀的识别片段,从而提升最终识别精度。文献20将3D CNN与条件随机场相结合,使得模型捕获能够表达交叠性和长距离依赖关系的特征,良好地解决分类偏值等问题。(2)3D CNN+其他模块(a)3D CNN+轻量化模块。通过使用相对轻量的模块取代3D CNN中的部分结构,可以在保证3DCNN性能的同时有效解决参数量大、运算效率低等问题。如文献21在所提出的S3D-G(Separable3D CNN with Spatiotemporal Gating Mechanism)中使用2维卷积代替网络浅层的3维卷积,有效平衡网络参数量与网络性能及运行速度之间的关
22、系。文献22所提出的ARTNet(Appearance-and-Rela-tion Network)将时间和空间信息解耦,通过3维和2维卷积分别捕获时间和空间特征,并联组合后有效提升网络的行为识别精度。图 3 网络宽度方向的改进2276电 子 与 信 息 学 报第 45 卷(b)3D CNN+特征增强模块。3D CNN通过权值共享具有空间全局一致性,泛化性能良好,但也因此无法自适应地对待不同空间、类型特征,限制其特征提取效果。针对这一缺陷,文献3构建双注意力3D U-Net,引入空间注意力和通道注意力模块增加单通道和多通道特征的相关性,以及特征的全局相关性,有效提升网络收敛速度和分割准确率。文
23、献23在3D CNN中加入Gabor滤波器来提升网络的特征提取能力,最终获得具有竞争力的效果。3.2 网络内部改进网络内部的改进包括对3D CNN卷积层和池化层的改进。3.2.1 卷积层如图4所示,卷积层的改进可分为减少参数量和改变卷积核形状两种类型。(1)减少参数量在网络中采用3维分组卷积核、引入卷积核拆分思想和3维膨胀卷积核可以在保证性能的同时有效减少参数量和降低时间复杂度,为构建更复杂的网络提供可行性。(a)3维分组卷积核。如图4(b)所示,3维分组卷积核是将输入数据沿通道方向进行分组,然后采用不同卷积核对各组特征进行卷积,降低卷积运算量。2020年文献15针对行为识别任务采用3维分组卷
24、积核,使得网络在保持高识别精度的同时降低时间复杂度和参数量。(b)卷积核拆分。如图4(c)所示,卷积核拆分是将一个3维卷积核拆分为2维卷积核和1维卷积核,并通过串联或并联进行组合,在不影响网络性能的同时,有效降低参数量和计算成本。文献24针对行为识别任务设计了具有卷积核拆分思想的3D CNN,在保持高性能的情况下,大幅度减少网络训练时间和参数量。(c)3维膨胀卷积核。文献25提出的3维膨胀卷积核如图4(d)所示,通过沿时间维度重复2维滤波器权重多次将其膨胀为3维卷积核。膨胀后的卷积运算既有参数量小、运行速度快的优势,又能处理3维数据,并且能够将2D CNN的诸多成果直接沿用其中。(2)改变卷积
25、核形状改变卷积核形状的方法可通过设计不同形状的卷积核提升网络捕获信息的范围以及其处理不规则图像的能力,典型方法有3维空洞卷积核和3维可变形卷积核。(a)3维空洞卷积核。如图4(e)所示,3维空洞卷积核通过在卷积核元素间填充零元素来扩大卷积核的作用范围,在特征图大小不变的情况下得到更大的感受野,捕获多尺度的上下文信息。2020年,文献4将3维空洞卷积运用到高光谱影像分类中,在不增加网络参数量和不消减数据特征的情况下扩大卷积核的感受野,提升了网络的分类精度。(b)3维可变形卷积核。如图4(f)所示,3维可变形卷积核通过向卷积核添加一个方向向量,使其能够变为任意形状。2020年,针对视频超分辨率重建
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 三维 卷积 神经网络 及其 视频 理解 领域 中的 应用 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。