骨架引导的多模态视频异常行为检测方法.pdf
《骨架引导的多模态视频异常行为检测方法.pdf》由会员分享,可在线阅读,更多相关《骨架引导的多模态视频异常行为检测方法.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 56 卷第 1 期郑 州 大 学 学 报(理 学 版)Vol.56 No.12024 年 1 月J.Zhengzhou Univ.(Nat.Sci.Ed.)Jan.2024收稿日期:2022-09-23基金项目:国家重点研发计划项目(2018YFC0824402)。第一作者:付荣华(1996),女,硕士研究生,主要从事深度学习、视频异常行为检测研究,E-mail:furh1996 。通信作者:石磊(1967),男,教授,主要从事大数据与人工智能、服务计算、高性能计算、智慧城市研究,E-mail:shilei 。骨架引导的多模态视频异常行为检测方法付荣华1,刘成明1,刘合星2,高宇飞1,石磊
2、1(1.郑州大学 网络空间安全学院河南 郑州 450002;2.郑州市公安局 科技通信管理处河南 郑州 450000)摘要:视频异常行为检测是智能视频监控分析的一项重要且具有挑战性的任务,旨在自动发现异常事件。针对只采用单骨架模态导致部分相似运动模式的行为难以区分和缺乏时间全局信息的问题,提出骨架引导的多模态异常行为检测方法。为了充分利用 RGB 视频模态和骨架模态的优势进行相似行为下的异常行为检测,将从骨架模态中提取的动作行为特征作为引导,使用新的空间嵌入来加强 RGB 视频和骨架姿态之间的对应关系。同时使用时间自注意力提取相同节点的帧间关系,以捕获时间的全局信息,有效提取具有区分性的异常行
3、为特征。在两个大型公开标准数据集上的实验结果表明所提方法能够有效加强骨架引导的多模态特征在空间和模态上的对应关系,并捕获时空图卷积缺乏的时间全局信息,使运动模式相似的异常行为实现更准确检测。关键词:视频异常行为检测;骨架;多模态融合;时空自注意力增强图卷积;空间嵌入中图分类号:TP391.4文献标志码:A文章编号:1671-6841(2024)01-0016-09DOI:10.13705/j.issn.1671-6841.2022284Skeleton-guided Multimodal Video Abnomaly Behavior DetectionFU Ronghua1,LIU Chen
4、gming1,LIU Hexing2,GAO Yufei1,SHI Lei1(1.School of Cyber Science and Engineering,Zhengzhou University,Zhengzhou 450002,China;2.Science and Technology Communication Management Department,Zhengzhou Municipal Public Security Bureau,Zhengzhou 450000,China)Abstract:A multi-modal abnormal behavior detecti
5、on algorithm based on the fusion of RGB video and skeleton sequences was proposed to solve the problem that the behavior of similar motion patterns was dif-ficult to distinguish by using only human skeleton features.In order to make full use of the advantages of each mode for abnormal behavior detec
6、tion with similar behaviors,a new spatial embedding was used to strengthen the correspondence between RGB and skeletal poses,and temporal self-attention was used to extract the inter-frame relationship between the same nodes,which could effectively extract discriminative abnormal behavior features.I
7、n two large-scale public standard datasets,the results showed that the meth-od could achieve accurate detection of human abnormal behaviors compared with the good performance of spatiotemporal graph convolutional network detection algorithms when similar abnormal behaviors were in-distinguishable.Ke
8、y words:video abnormal behavior detection;skeleton;multimodal fusion;spatiotemporal self-atten-tion augmented graph convolution;spatial embedding第 1 期付荣华,等:骨架引导的多模态视频异常行为检测方法0引言视频异常行为检测是智能视频监控系统的一项重要、具有挑战性的任务。在智慧城市时代,视频监控用于监控基础设施财产和公共安全已变得非常重要。大量的摄像头安装在地铁口、购物中心、校园环境等公共场所,并不断产生大量的视频数据。对于观察者来说,人工监控长时间
9、的实时视频流并检测是否存在异常事件是一件非常困难和耗时的任务。从监控视频流中自动检测出异常事件可以显著减少人工的监查工作。近年来,随着深度学习和计算机视觉等领域的蓬勃发展,视频特征提取借鉴了图像特征提取的先进研究成果,提出多种视频特征提取网络并取得了良好的成果。可以利用多种特征如外观、深度、光流和人体骨架等对视频中的人类行为进行识别。在这些特征中,动态的人体骨架通常能传达与其他特征互补的重要信息。监控视频中的人类异常行为通常具有较低的类间方差,部分日常行为活动表现出相似的运动模式,如步行和慢速骑车的人,慢速骑车的人因为与步行有相似的速度和姿势而被误判为步行模式,这种情况下须要进行细粒度的理解。
10、早期对 视 频 异 常 行 为 检 测 的 研 究 主 要 基 于RGB 视频模态,其包含了丰富的细节信息,但其面对背景复杂和可变性的干扰,以及身体尺度、光照、视角等因素的变化时容易受到影响。在人类异常行为检测领域,有利用骨架特征且基于图卷积的方法关注人体关节的空间配置。时空图卷积网络(spatial temporal graph convolutional networks,ST-GCN)1在学习非欧几里得数据的空间和时间依赖性方面表现了其有效性,ST-GCN 的局限性在于只捕捉空间和时间维度的局部特征,缺乏全局特征。与 RGB 视频模态相比,骨架模态能够提供更丰富的人体骨架行为关键点信息,
11、并且对光线和尺度的变化具有较强的鲁棒性,是对人体的高层级语义表示,但缺乏外观信息,特别是人与对象交互的行为信息2-3,这是检测细粒度异常行为的关键。骨架模态总体信息量也不如 RGB 模态的高,比如对于某些和物体交互的动作,光用骨架信息就很难完全描述。为了利用骨架姿态和 RGB 视频模态的优点,可将多模态信息融合成一组综合的鉴别特征。由于这些模态是异构的,必须通过不同类型的网络进行处理以显示其有效性,这限制了它们在简单的多模态融合策略4-5中的性能,因此,许多姿态驱动的注意力机制被提出来指导基于 RGB 的动作识别。文献6-7通过 LSTM 实现姿态驱动注意力网络,专注于显著的图像特征和关键帧。
12、随着三维卷积的成功发展,一些工作尝试利用三维姿态来加权 RGB 特征图的鉴别部分6-9。Das 等8提出了一种在三维卷积网络上的空间注意力机制来加权与动作相关的人体部位。为了提升检测性能并提取更具鉴别性的特征,陈朋等10提出的弱监督视频行为检测结合了RGB 数据和骨架数据。以上方法提高了动作的识别性能,但它们存在以下缺点:在计算注意力权值的过程中,三维姿态与RGB 线索之间没有准确的对应关系;在计算注意力权值时忽略了人体的拓扑结构。由于目前基于骨架单一模态的自注意力增强图卷积网络11克服了 ST-GCN 空间局部特征的局限性,空间自注意力增强图卷积网络可以捕获空间维度的局部和全局特征,但无法捕
13、捉动作中微妙的视觉模式,与骨架动作姿态相似的行为动作容易出现误判。为了充分利用 RGB 模态与骨架模态之间的优势并克服时间卷积的局限性,本文提出了一种骨架引导的多模态异常行为检测方法,使用新的空间嵌入来加强 RGB 和骨架姿态之间的对应关系,并使用时间自注意力提取相同节点的帧间关系。如图 1 所示,本文提出的方法将原始监控视频的 RGB 视频帧及其提取的对应骨架姿态作为输入。通过视觉网络处理视频帧,并生成时空特征图 f。所提出的引导模块(RGB pose networks,RPN)以特征图 f 和骨架时空图 P 作为输入,通过骨架姿态和视频外观内容的空间嵌入(RGB-Pose spatial
14、embed-ding,RGB-Pose)加强视频 RGB 帧和骨架姿态之间的对应关系,并在时间维度上使用时间自注意力模块(temporal self-attention module,TSA)研究同一关节沿时间的帧间相关性,从而获取更好的判别性特征。RPN 由改进的时空自注意力增强图卷积和空间嵌入(RGB-Pose)两部分组成。改进的时空自注意力增强图卷积进一步由空间自注意力增强图卷积11和时间自注意力(TSA)组成,融合 RGB 视频和骨架两种模态进行异常行为检测。RPN 计算特征映射 f。然后使用特征图 f 进行深度嵌入聚类,并进行异常行为检测,异常分数用于确定动作是否正常。本文提出了一种
15、新的时空自注意力增强图卷积算子,由空间自注意力增强图卷积模块以及时间自注意力模块(TSA)构成。使用时间自注意力(TSA)提取相同骨骼节点的帧间关系,捕获时间全局信息。71郑 州 大 学 学 报(理 学 版)第 56 卷图 1骨架引导的多模态视频异常行为检测方法框架图Figure 1The framework of skeleton-guided multimodal video anomalous behavior detection method使用新的空间嵌入(RGB-Pose)来加强 RGB 和骨架姿态之间的对应关系,充分利用各个模态的优势。所提出的方法在 ShanghaiTech C
16、ampus 异常检测数据集和 CUHK Avenue 数据集上进行实验评估,实现了优秀的性能指标,证明了所提方法的有效性。1骨架引导的多模态异常行为检测方法1.1特征提取监控视频中人体骨架数据从预训练的视频姿势估计算法或运动捕捉设备中获得。通过改进的时空自注意力增强图卷积块11构建时空自注意力增强图卷积自编码器(spatioteporal self-attention augmen-ted graph convolutional autoencoder,SAA-STGCAE)来提取骨架特征,使用编码器将提取的骨架姿态嵌入到时空图中。人的行为被表示为时空图。时空图的骨架时空连接配置如图 2 所示
17、,配置描述遵循 ST-GCN。将 N 定义为人体骨架的关节数,F 定义为视频的总帧数。对于监控视频流中的每一个人,构建时空图 G=(V,E),其中:V=vtnt=1,2,T,n=1,2,N 是所有关节节点作为图的顶点的集合;E 表示时空图的边,描述人体结构中自然联系的所有边和时间的集合。此外,E 由两个子集 Es和 Et组成,其中:Es=(vtn,vtm)t=1,2,T,n,m=1,2,V 表示每一帧 t 中任意关节对(n,m)的连接;Et=(vtn,v(t+1)n)t=1,2,T,n=1,2,N 表示沿连续时间的每一帧之间的连接。图 2 中的节点表示人体骨架关节,实线为人体骨架关节的自然连接
18、,表示空间维度边,虚线为相同骨架关节相邻帧之间对应的时间维度连接,表示时间边。对于 RGB 视频,从视频剪辑中提取人类裁剪图像作为输入,通过三维卷积网络提取视频的时空特征表示。然后,在两种模态特征的基础上,利用引导模块的空间嵌入融合骨架和 RGB 特征,增强两种模态特征的对应关系。图 2骨架时空图Figure 2Spatiotemporal graph1.2时间自注意力模块时间自注意力模块(TSA)的每个独立关节沿所有帧分别研究每个关节的动力学。通过沿着时间维度的相同身体关节的变化来计算各帧之间的相关性,如图 3 所示。当计算源节点加权结果时,所有帧的该节点参与计算,此为捕捉时间全局特征的体现
19、。图 3时间自注意力模块示例图Figure 3Example of temporal self-attention module为了说明 TSA,图 3 中以一组 4 帧关节进行说明,实际计算过程是在每一个关节上均执行。对于骨架 v 在不同时间的每个关节,首先计算查询向量qvt Rdq,键向量 kvt Rdk和值向量 vvt Rdv,dk、dq、dv分别是键向量、查询向量和值向量的通道维度。设参数 Wq RCindq,Wk RCindk,Wv RCindv,使用可训练的线性变换,对关节 v 的每一相邻时间计算两个关节之间相关性强度的分数 vtu R,即81第 1 期付荣华,等:骨架引导的多模态
20、视频异常行为检测方法vtu=qvtkvu,(1)其中:同一骨架节点 v 在两个不同的时间状态表示为 t 和 u;时间状态 t 的查询值为 qvt Rdq;时间状态 u 的键向量和值向量分别为 kvu Rdk和 vvuRdv。对同一关节每个时间状态的相关性强度 vtu进行加权来获得关节 v 的新嵌入 zvt RCout,即zvt=nsoftmax(vtudk)vvu。(2)TSA 使用下标表示时间,上标表示关节。TSA采用多头注意力机制,所用公式为headNh(XT)=softmax(XTWq)(XTWk)TdNhk)(XTWV),(3)SAT=concat(head1,head2,headNh
21、)Wo。(4)为了便于处理,输入矩阵变维为 XT RVCinT,可沿时间维度在每个关节上单独操作。Wo是一个可学习的线性变换,结合了所有头的输出。TSA 模块通过提取相同骨骼节点的帧间关系,学习同一关节不同帧间的关系,例如首帧中的关节与末帧中的关节。TSA 是沿着同一关节(如所有左脚或所有右手)的时间维度上进行,从而在时间维度得到判别特征,并捕获时间全局特征,这是通过标准 ST-GCN 中 TCN 无法达到的。1.3时空自注意力增强图卷积本文提出了一种新的时空自注意力增强图卷积算子,如图 4 所示。由空间自注意力增强图卷积模块11(如图 5 所示)、时间自注意力模块(TSA)构成(如图 6 所
22、示)。其中空间自注意力增强图卷积是核心部分。图 4时空自注意力增强图卷积算子Figure 4Modified spatiotemporal self-attention augmented graph convolution空间自注意力增强模块基于空间图卷积提出,空间维度使用三种类型的邻接矩阵:静态邻接矩阵(A1);全局学习邻接矩阵(A2)和自适应邻接矩阵(A3)。空间自注意力模块应用修改后的自注意力算子,捕捉同一帧中不同关节的空间特征,并动态构图 5空间自注意力增强图卷积模块Figure 5Spatial self-attention augmented graph convolution
23、module图 6时间自注意力模块Figure 6Temporal self-attention module建关节内和关节之间的空间关系,以加强非直接连接的人类骨架关节的相关性。空间自注意力增强图卷积主要关注关节之间的空间关系,其输出被传递到时间自注意力模块,以提取帧间的时间关系,可描述为ST-SAAGCN(x)=TSA(GCN(x),(5)时空自注意力增强图卷积算子既可以捕获空间局部和全局特征信息,又可以捕获时间全局信息。1.4骨架引导的 RGB 视频和姿态的空间嵌入骨架自注意力增强图卷积网络11被认为是主干网络,可以检测出行为动作中显著的异常行为信息。对于引导网络,在骨架姿态和 RGB
24、数据之间有一个准确的对应关系是很重要的。空间嵌入的目的是使用骨架姿态和 RGB 模态之间紧密的对应关系,向 RGB 视频帧提供骨架姿态反馈。如图 7 所示。文献8-9使用姿态信息在 RGB 特征图上提供注意力权重,而不是将它们投影到相同的参考中。因为没有像素到像素的对应,通过骨架数据计算出的空间注意力并不与图像部分对应,但这对于检测相似的动作行为至关重要。为了将这两种模态关联起来,本文使用了一种来自图像字幕任务12-13的嵌入技术来构建一个精确的 RGB-Pose 嵌入,使姿态能够表示动作的视觉内容,空间嵌入说明如图 8 所示。91郑 州 大 学 学 报(理 学 版)第 56 卷图 7空间嵌入
25、对应关系Figure 7Spatial embedding correspondence图 8空间嵌入说明图Figure 8Spatial embedding illustration从视频剪辑中提取的人类裁剪图像作为输入,通过三维卷积网络计算时空表示 f,其中 f 是维度为tc m n c 的特征图。然后,利用本文提出的网络对特征图 f 和相应的骨骼姿态 P 进行处理。空间嵌入输入的是一个 RGB 图像及其相应的骨架姿态。强制嵌入人体关节中代表图像的相关区域。假设视频特征图 f(一个 Dv维向量)及其对应的基于姿态的潜在空间注意力向量 Z1(一个 Dp维向量)的全局空间表示存在低维嵌入。映射
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 骨架 引导 多模态 视频 异常 行为 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。