语义引导下自适应拓扑推理图卷积网络的人体动作识别.pdf
《语义引导下自适应拓扑推理图卷积网络的人体动作识别.pdf》由会员分享,可在线阅读,更多相关《语义引导下自适应拓扑推理图卷积网络的人体动作识别.pdf(8页珍藏版)》请在咨信网上搜索。
1、doi:10.12052/gdutxb.220107语义引导下自适应拓扑推理图卷积网络的人体动作识别林哲煌,李东(广东工业大学自动化学院,广东广州510006)摘要:图卷积网络(GraphConvolutionalNetworks,GCN)对于基于骨架关节点信息的人体动作识别任务具有天然的优势,越来越受到重视。图卷积网络的关键在于如何获取更丰富的特征信息以及采用更合理的拓扑结构。本文改进了人体骨架关节点及其语义信息(关节点类型和帧间索引)的特征融合方式,集成为一个语义信息编码模块,从而更适用于复杂的多层网络。在语义信息编码模块的语义引导下,网络可以获取更丰富的关节点特征信息。其次,本文提出了一
2、种拓扑结构推理网络,结合卷积神经网络(ConvolutionalNeuralNetworks,CNN)高效的特征学习能力,自适应地根据不同动作样本的上下文特征信息学习不同的邻接矩阵,有助于网络摆脱固定拓扑结构的局限性。将上述方法应用于双流自适应图卷积网络,本文提出了一种语义引导下多流自适应拓扑推理的图卷积网络。实验结果证明,本文的方法使图卷积网络识别精度有了明显的提高,在基于骨架信息的人体动作识别大型数据集NTURGB+D、NTURGB+D120上均达到了目前先进水平。关键词:动作识别;图卷积网络;人体骨架;邻接矩阵中图分类号:TP391.4文献标志码:A文章编号:10077162(2023)
3、04004508Semantics-guided Adaptive Topology Inference Graph ConvolutionalNetworks for Skeleton-based Action RecognitionLinZhe-huang,LiDong(SchoolofAutomation,GuangdongUniversityofTechnology,Guangzhou510006,China)Abstract:Graphconvolutionalnetworks(GCN),withnaturaladvantagesforskeleton-basedactionreco
4、gnition,hasattractedmoreandmoreattention.Thekeyliesinhowtoobtainricherfeatureinformationandthedesignoftheskeletontopology.Inthisresearch,thefeaturefusionmethodofjointandsemantics(jointtypeandframeindex)isimproved,andintegratedintoaSemanticsCodingModule(SCM),whichismoreapplicableforcomplexmulti-layer
5、networks.GuidedbytheSCM,thenetworkcanobtainmorefeatureinformationofskeleton.Secondly,askeletonTopologyInferenceNetwork(TIN)isproposed,whichadaptivelylearnsdifferentadjacencymatricesaccordingtothecontextinformationofdifferentsampleswiththeefficientfeaturelearningabilityofCNN,sothatthenetworkcangetrid
6、ofthelimitationoffixedtopology.ByapplyingtheSCMandTINto2s-AGCN,weproposeasemantics-guidedmulti-streamadaptivetopologyinferencegraphconvolutionalnetworkforskeleton-basedactionrecognition.Extensiveexperimentsondatasets,NTURGB+DandNTURGB+D120,demonstratethatourmethodsobviouslyimprovetheaccuracyofnetwor
7、kandourmodelhasachievedthestate-of-the-artperformance.Key words:actionrecognition;graphconvolutionalnetwork;skeleton;adjacencymatrix人体动作识别,又称人体行为识别,历经多年的发展,为人与机器或人与人间的远距离自动交互提供了可能,成为了一项具有重要发展背景的深度学习任务,在医学、交通、教育、娱乐、安防监控、元宇宙等领域有着广阔的应用前景。早在深度学习未发展成熟之前,很多相关研究已经采取了手动标注的三第40卷第4期广东工业大学学报Vol.40No.42023年7月Jo
8、urnal of Guangdong University of TechnologyJuly2023收稿日期:2022-06-13基金项目:广东省自然科学基金资助项目(2021A1515011867)作者简介:林哲煌(1996),男,硕士研究生,主要研究方向为机器学习、深度学习、动作识别通信作者:李东(1983),男,副教授,博士,主要研究方向为模式识别、机器学习、人脸识别,机器视觉,E-mail:维动作识别1-2。传统方法都是将空间信息转换为手工设置的特征值3,再利用传统分类方法如支持向量机(SupportVectorMachine,SVM)4等对特征进行分类,但这些方法存在局限性,主要表
9、现在特征向量一旦确定就无法改变,不会随着训练过程的进行而适应输入的变化,抗干扰能力较弱5。随着深度学习的不断发展,基于深度神经网络的人体动作识别算法逐步替代传统手工特征算法成为研究主流6-7。目前基于深度学习的相关算法分为两大技术流派,一个是基于RGB视频数据的动作识别技术8-9,另一个是基于人体骨架关节点信息的动作识别技术。相比于RGB视频数据信息,人体骨架信息不受背景、光照等噪声的干扰,且骨架数据维度较小、计算效率高,能够提供良好的人体行为表征,因此受到越来越多的关注。早期的深度学习算法是将人体的骨架关节点信息视为一组独立的特征,并将其处理为一种特征序列或者伪图,然后输入到卷积神经网络(C
10、onvolu-tionalNeuralNetworks,CNN)10-12或者循环神经网络(RecurrentNeuralNetworks,RNN)13-15中处理特征信息进行动作分类。然而人体是天然的拓扑结构,基于CNN或RNN的算法忽略了在运动过程中人体关节点之间内在的时空相关性,而关节之间的相关性由人体的拓扑结构表征,是基于人体骨架信息的动作识别不可忽视的重要信息16。图卷积网络(GraphConvolutionalNetworks,GCN)对于处理人体关节点的拓扑结构的特征信息有着巨大的优势,Yan等17提出了ST-GCN,最先将GCN结合时域卷积网络(TemporalConvolut
11、ionalNetworks,TCN)提取关节点的时空特征,并应用到人体动作识别中。在此基础上,Shi等18提出了2s-AGCN,该双流网络添加了关节点之间的骨架信息作为特征信息,增加了网络获取的信息量,可以自适应学习针对不同样本不同的拓扑结构,大大提高了动作的识别率。Zhang等19提出了轻量级的网络SGN,首次提出了关节点的语义表示,提升了动作识别精度,但其特征融合方式并不适用于复杂的多层网络。后来的研究大都是以提高GCN计算效率以及特征提取的能力为目标20-21。Li等22提出了轻量级网络PR-GCN,在不影响精度的前提下,大大减少了网络的参数量,同时显著提高了计算效率。Yang等23提出
12、了PGCN-TCA,使用了混合时间和通道注意的方法来提取不同帧和通道的不同重要性。Ding等24提出的Sem-GCN包含了3种类型的图:结构图、动作图和注意图,增大了图卷积核的感受野,同时也捕捉到关节间的潜在相关性。这些改进后的GCN计算方法22-24增加了网络的灵活性和鲁棒性,以适应不同的类型的动作样本。然而,这些算法忽略了各节点时间空间上语义信息的重要性,在融合更加丰富的时空特征信息,自适应地学习更加有效的拓扑结构来应对复杂的动作方面还有很大的提升空间。因此,本文改进了SGN原有的语义信息融合方式,将关节点类型、帧间索引的语义信息与数据集原有的关节点信息进行特征融合,集成一个语义信息编码模
13、块,再通过残差连接传递到深层的网络。这样的方式更适用于大型的多层网络,语义的引导也为网络提供了更加丰富的关节点特征信息。其次,针对现有GCN算法固定的邻接矩阵的局限性,本文提出了一种拓扑结构推理网络,结合CNN特征学习能力,能够自适应地根据不同样本的上下文特征信息而学习到不同的拓扑结构。本文将语义信息编码模块与拓扑结构推理网络应用到双流自适应图卷积网络2s-AGCN中,增加了相关运动流分支,提出了一种语义引导下的自适应拓扑推理图卷积网络,精度得到了显著的提升。本文的语义信息编码模块和拓扑结构推理网络适用于大多数GCN算法。实验结果证明,本文提出的网络在基于骨架信息的人体动作识别大型数据集NTU
14、RGB+D、NTURGB+D120上均达到了目前先进水平。1 本文方法 1.1 整体结构本文提出的语义引导下自适应拓扑推理图卷积网络总体结构如图1所示。首先,由人体关节点间相对空间位置信息计算得到人体骨架的空间位置信息,再分别计算关节点和骨架邻帧位置向量差得到关节点和骨架的运动信息。这4类信息经过语义信息编码模块,融合关节点类型和帧间索引的高级语义信息,然后将编码及融合后得到的关节点信息、关节点运动信息、骨架信息、骨架运动信息作为多流自适应图卷积网络的各个分支对应的输入,并可通过残差连接传递到更深层的网络。多流自适应图卷积网络的每个分支都由9个自适应图卷积块组成,每个自适应图卷积块又由含拓扑结
15、构推理网络的自适应图卷积层、BatchNormalization层、Relu激活函数、Dropout操作、TCN组成。在进行GCN计算时,通过自适应图卷积块提取空间和时间上的有效特征信息。4个分支独立计算,对各自计算后的46广东工业大学学报第40卷Softmax分数加权求和,作为最终的Softmax分数,选用交叉熵损失函数作为网络最终的损失函数进行梯度反向传播,从而实现基于骨架关节点信息的人体动作识别。关节点信息关节点运动信息骨架信息骨架运动信息语义信息编码模块编码关节点类型:head,footC+帧间索引:1,2,TinGCN拓扑结构推理网络自适应图卷积层Ck*CNN全连接层Softmax全
16、连接层Softmax全连接层Softmax全连接层Softmax自适应拓扑推理图卷积网络关节点分支动作识别结果加权求和自适应拓扑推理图卷积网络骨架分支自适应拓扑推理图卷积网络骨架运动分支自适应拓扑推理图卷积网络关节点运动分支自适应图卷积块C+级联拼接求和图1本文网络整体结构Fig.1Theoverviewofproposednetwork 1.2 语义信息编码模块Zhang等19提出了SGN,首次使用人体关节点的高级语义表示(关节点类型与帧间索引),增强了特征表示能力,证明了语义信息的引导相较于单一的关节点位置信息在动作识别上效果更加显著。然而SGN原有的语义信息融合方式适用于单层的轻量级网络
17、,却不适用于复杂的多层网络,因为随着网络层数的增加,SGN原有的“关节点类型融合GCN计算帧间索引融合”先后分块的特征融合方式不能使网络获得更加丰富的信息,反而在深层的网络中语义信息会成为噪声影响识别精度。本文提出的语义信息编码模块是对SGN原有的特征融合方式进行了改进,将语义信息的融合集成在一个模块内,使其更加适合复杂的多层网络。模块的实现如下:首先,原始的关节点位置信息会经过一次编码;然后,通过不同的特征融合方式对不同的语义信息进行融合;最后将融合语义信息后的关节点特征信息作为网络输入进行GCN的计算。1.2.1关节点位置信息编码Jt,k=(xt,k,yt,k,zt,k)T R3C1在NT
18、URGB+D等数据集中,骨架关节点的位置信息表现为骨架关节点的空间三维坐标,即。本文沿用SGN的编码方式,使用2个全连接层(FullyConnected,FC)对关节点位置信息进行编码至更高的维度,具体为Jt,k=(W2(W1Jt,k+b1)+b2)RC1(1)W1 RC13W2 RC1C1b1b2Jt,k式中:,是2个权值矩阵,和表示偏置向量,表示ReLu激活函数。通过编码后的可以表示更高维度的关节点位置信息。1.2.2关节点类型jk RNejk RC1Jt,kejk将关节点独热编码向量代入式(1)编码计算得到该关节点类型的表征向量。将编码后的关节点位置信息与 级联起来得到第t帧中第k个关节
19、点的空间信息表征为zt,k=Jt,k,ejk R2C1(2)Zt=(zt,1;zt,2;zt,N)RN2C1在第t帧中的人体结构所有关节点就可以表示为。1.2.3帧间索引ft RTinTinftefteftzt,keftzt,k使用独热编码来表示时间序列总帧数帧中的某一帧t。将 代入式(1)编码得到该帧的帧间索引,将 与相加,这样就能把 融合到第t帧内某一关节点空间信息中得到关节点的时空信息表征:xt,k=zt,k+eft RCin(3)Cin=2C1Xin RCinTinN式中:,该帧内所有关节点共享一个帧间索引。于是拓展到时间序列中,原始的人体骨架关节点的时空特征信息融合语义信息后可以重新
20、定义为。Xin对于多层的网络,本方法使用含卷积块的残差连接25将关节点特征信息传递到更深层的网络,这种方式可以避免语义信息在深层的网络中成为噪音而影响动作识别精度。于是,在语义信息编码模块的语义引导下,网络可以获取的关节点信息更加丰富:对于一个人体骨架序列,网络可以通过关节点的空间语义(节点类型)区分识别不同关节,并通过关节的时间语义(帧间索引)区分关节点动作先后过程。第4期林哲煌,等:语义引导下自适应拓扑推理图卷积网络的人体动作识别47 1.3 自适应拓扑推理图卷积网络将经过语义信息编码模块的关节点特征信息作为输入,进行GCN的计算。本文的自适应拓扑推理图卷积网络是在2s-AGCN18基础上
21、应用拓扑结构推理网络进一步改进得到的。1.3.1拓扑结构推理网络由于CNN具有高效的特征学习能力,在自适应学习人体关节点的拓扑信息提升GCN网络的识别精度上有很大的潜力。然而大多数GCN算法都忽视了这一点,只在GCN的计算方式上或者网络结构上进行改进,使用预定义的邻接矩阵来静态地表示人体拓扑结构,忽略了运动过程中人体不相邻的关节点之间也存在潜在的相关性。因此本文提出了一种拓扑结构推理网络动态地根据不同的样本学习不同的拓扑结构,如图2所示。11 卷积11 卷积重构11 卷积Softmax平均池化层11 卷积NNN1NCeTinNCeTinCinTinNXin(NN)11N11NTin11NCeT
22、inNCeTinN转置转置转置11 卷积平均池化层重构+降维,重构转置Ck*图2拓扑结构推理网络Fig.2SkeletontopologyinferencenetworkXin拓扑结构推理网络由2个部分组成,第1部分是由左右2个对称的分支组成。首先关节点的特征信息作为网络的输入,依次经过2个分支的11卷积层、张量的重构(reshape)操作、平均池化层来改变维度,2个分支的结果进行矩阵相乘。Xin11CinTinN拓扑结构推理网络的第2部分充分利用CNN特征学习能力,获取关节点特征维度全局的上下文特征信息。将视为“伪图”,在每次进行卷积前会通过张量的转置操作依次将关节点特征的维度(位置特征、时
23、间、关节点数)变换为“伪图”的通道,进行全局计算。卷积操作完成后进行张量的降维(flatten)操作和重构维度。推理网络的2个部分计算结果相加后,经过一个Softmax层归一化处理得到了Ck最终学习到的拓扑结构表征,作为邻接矩阵的一部分参与GCN的计算。本文的拓扑结构推理网络以全局的方式动态地学习人体骨架关节点的拓扑结构。本方法属于自适应图学习的方法,在梯度随机优化过程中不断调整邻接矩阵,学习的过程完全由数据驱动而不需要任何先验知识,可以通过不同类别的动作样本学习不同的图结构。相比于基于先验知识的静态的邻接矩阵,拓扑结构推理网络学习到的邻接矩阵可以反映任意骨架关节点之间的相关性和相关性强弱。本
24、文的拓扑结构推理网络可以应用到一般的基于GCN的算法中,从而提升动作识别的准确率。1.3.2改进的自适应图卷积层本文基于2s-AGCN,改进了原有的自适应图卷积层,如图3所示。拓扑结构推理网络NNCinTinNCoutTinNKv=3XinXout11 卷积Wk(11)+Ck*MkAk图3自适应图卷积层Fig.3AdaptivegraphconvolutionlayerCkCk使用本文提出的拓扑结构推理网络自适应学习得到拓扑结构,代替原有的参数进行GCN的计算。自适应图卷积层计算公式为Xout=KvkWkXin(Ak+Mk+Ck)(4)XinXoutKvKv=3 Wk式中:为自适应图卷积层的输
25、入,即语义信息编码模块的输出结果,为自适应图卷积层输出结果;为按照STGCN17的空间划分策略对人体关节点划分的子集数量,本文取;为第k个子集的权重矩阵。AkMkCkGCN的邻接矩阵由、和组成。Ak=D12kAkD12k RNN(5)Ak=(A+I)式中:为原始邻接矩阵与单位矩阵之和,表示人体骨架关节点之间的物理连接关系。计算上48广东工业大学学报第40卷DkDiik=jAijk+Mk RNNCk和PR-GCN22类似。为度矩阵,是规范化的对角矩阵,其元素。为了避免空行,通常设置为一个极小值0.001。类似于STGCN17中的maskM矩阵,发挥图注意力机制的作用,初始化为0,可以学习到任意关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语义 引导 自适应 拓扑 推理 图卷 网络 人体 动作 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。