基于深度学习的动作识别研究.pdf

上传人：自信****多点

文档编号：2322351

上传时间：2024-05-28

格式：PDF

页数：4

大小：1.29MB

《基于深度学习的动作识别研究.pdf》由会员分享，可在线阅读，更多相关《基于深度学习的动作识别研究.pdf（4页珍藏版）》请在咨信网上搜索。

1、2023 年第 8 期172智能技术信息技术与信息化基于深度学习的动作识别研究陈天宇1CHEN Tianyu 摘要用循环神经网络构建的人体动作识别模型存在以下两方面的问题：一方面存在计算上的顺序依赖，另一方面难以对数据中存在的全局信息进行建模。针对以上问题，提出了一种结合门控注意力单元和卷积神经网络的人体动作识别模型。通过对骨架序列中存在的时空信息进行建模分析来预测骨架所对应人体的动作状态，既降低了数据中噪声对结果的干扰，同时对数据中存在的时空域全局信息进行建模分析。通过在 UTKinect-Action3D 和 MSR 3D 动作数据集上的实验证实了所提方法具备一定的可行性，且相较于循环神

2、经网络的方法有一定的优势。关键词 Transformer；CNN；人体动作识别；轻量级网络doi：10.3969/j.issn.1672-9528.2023.08.0381.东南大学软件学院江苏苏州 2150000 引言人体动作识别（human action recognition，HAR）在现实生活中有着广泛的应用前景，其可被用于在监控系统中检测危险动作，或者在自主导航中辅助系统理解正确的操作行为，除此之外还广泛运用于视频检索、人机交互、娱乐等领域1-3。在早期，大多数人体动作识别的工作都将彩色或者灰度视频作为输入数据，近些年随着传感器以及计算机的发展输入数据不再局限于传统的视频格式，还包

3、括其他多种不同格式例如：骨架序列、深度图、点云、红外序列、音频、雷达等4。其中骨架序列由于对视角、背景信息不敏感使得在复杂场景、不同光照环境和其他背景噪音的情况下依然能够保证模型的效率和鲁棒性使得其吸引了越来越多学者的注意力。同时由于深度传感器的成本不断下降和人体姿态识别算法的不断发展使得获取图像中的人体骨架序列愈发简单。原始的骨架数据往往以点对序列方式被输入至模型中，基于骨架序列的人体动作识别可以根据其使用的模型类型分为以下不同的类别：基于循环神经网络的方法，迭代地处理骨架序列；基于卷积神经网络的方法，利用卷积操作来提取骨架序列中隐含的特征；基于图卷积神经网络的方法，通过图拓补的方式建立空间

4、上不相邻的人体关键点之间的联系（例如手部和膝盖之间的联系）。上述方法的缺陷在于它们对于序列中存在的短程特征提取较好，而对长程特征信息提取有所欠缺。在人体动作识别中需要对骨架序列数据里所存在的长短程关联信息进行有效提取分析，具体而言短程信息可以视为当前帧下人体关键点之间所存在的关联即骨架序列中的空间信息，长程信息可以视为骨架序列各帧之间所存在的关联即骨架序列中的时间信息。通过对骨架序列中所包含的时空信息进行建模，可以有效地预测对应的人体动作状态。近些年来，Transformer 在自然语言处理方面获得了普遍应用，其已被发现可以充分获取数据中包含的长短程关联信息，且同时也不会产生计算上的顺序依赖现

5、象。因而相较于基于循环神经网络的人体动作识别方法，基于 Transformer 架构的方法更适合提取骨架序列中的时空信息并对其建模。本文给出了一个融合因果卷积与门控注意力单元的轻量级人体动作识别模型，主要创新点如下：（1）使用门控注意力单元来构建人体动作识别模型，避免基于循环神经网络的人体动作识别模型存在的计算顺序依赖导致的并行度低，训练慢等问题。（2）根据时间域与空间域中不同的特点分别采用不同的子模型，在时间域上数据隐含着单向流动的特点因此使用因果卷积，在空间域上运用门控注意力单元作为特征信息提取模块，融合二者提取的特征进而对骨架序列中包含的时空域信息进行建模分析，提高模型的效率。（3）考虑

6、到模型部署问题，使用门控注意力单元与因果卷积构成模型得到一种轻量级的模型，在减小模型大小的同时降低模型部署所需的计算量。1 轻量级时空 Transformer 网络本文提出了一种轻量级时空 Transformer 网络（lite spatial temporal transformer,LSTT），通过因果卷积和门控注意力单元的自注意力机制来对分别骨架序列中存在的时间信 2023 年第 8 期173智能技术信息技术与信息化息与空间信息进行建模，进而得到人体动作状态。具体而言，在时间域上使用因果卷积，其聚焦于对骨架序列中存在的帧间时间特征提取；在空间域上使用门控注意力单元

7、，其聚焦于对骨架序列中存在的当前帧内各人体关键点之间的特征提取。通过综合这两个模块，来对骨架序列中的时空域信息进行建模以预测人体当前所处动作状态。1.1 时间信息提取模块在时间信息提取模块中专注于时间信息的特征提取，由于在时间域上时间流动的是单一的，应用传统的卷积方式会导致提取当前帧的特征信息时，由于填充操作会使得提取的特征中包含未来帧上的信息，进而破坏了时间域上的时间顺序。而因果卷积在提取当前帧的特征信息时仅会利用当前帧及之前帧的信息，保留了数据中隐含的时间顺序。因此选用因果卷积构建时间信息提取模块，能够在保留数据中隐含时间顺序的前提下，有效地提取数据中的时间信息。有助于模型更为准确识别一些

8、持续帧较长的动作，例如挥手、摆臂、跳远等动作，在本文中采用（k，1）尺寸的卷积核对数据做卷积处理。1.2 空间信息提取模块()model2dPE,2sin10000ippi=（1）()model2dPE,21cos10000ippi+=（2）经典 Transformer 架构已经被认为能够有效地提取数据中存在的隐含特征关系，但是由于其模型较大并且计算量较高，因此在算力受限的平台上难以部署经典Transformer模型，一定程度上限制了其在实际应用中的场景。为解决上述问题Weizhe Hua 等人提出了门控注意力单元（gate attention unit，GAU）。同 Vaswani A6等人

9、提出的经典 Transformer 架构相比，在经典架构中模型通过“多头”自注意力机制来对输入数据中不同子域上的特征进行综合性建模，而在门控注意力单元中则结合门控线性单元的思想对多头自注意力机制进行简化，在保留网络建模能力的条件下大大降低了模型的大小与所需算力。由于在 Transformer 网络中不像循环神经网络按顺序对输入数据进行处理，因此会损失数据中包含的位置顺序信息。为了弥补这一缺陷，通常会对数据的数据进行编码将位置信息附加于数据上。在本文中使用如式（1）和（2）所示的三角函数方式对输入数据进行编码，其中 p 为元素在元素表中的位置，i 代表维度序号，dmodel表示位置编码时的编码维

10、度。在空间信息提取模块中，首先将编码后的骨架序列 X，作为输入按照式（6）与式（7）计算得到特征向量 V j与 U j。将序列 X 经过线性变换后得到特征矩阵 Z j，再经过仿射变换 Q、K 如式 5 得到注意力矩阵 A。利用 GLU7中的思想将特征向量 V j乘以注意力矩阵 A 与特征向量 U j做哈达玛积(Hadamard product)再乘以矩阵 W0，得到最终的特征向量 O j。（3）（4）（5）（6）（7）1.3 浅层特征提取模块人体关节点之间存在一定的时空联系并且可以通过在输入数据中体现这种时空关系来提升模型最终的效果。因此对输入数据进行一定的处理有助于后续模块更好的提取数据中隐

11、含的特征信息，传统的人工处理方式是根据人体关键点之间存在的运动学依赖关系设计人工特征提取方式，存在一定的局限性无法完整的体现出各帧关节点之间的内在关系。因此，在本文中设计了一种基于卷积神经网络和因果卷积的浅层特征提取方式，借助其非线性表达能力来对骨架序列中的各个人体关节点坐标之间存在的时空关系进行建模并初步提取其中的特征信息。特征提取模块的计算公式如下所示：（8）（9）（10）上述公式中 X 用于表示人体骨架序列构成的输入向量，将其分别通过空间域上的二维卷积得到空间域上的特征向量和时间域上的因果卷积得到时间域上的特征向量，把时间域上的特征向量经过激活函数后与空间域上的特征向量做哈达玛积操作，最

12、终输出向量 O 并将其作为后续模型的输入数据。1.4 轻量级时空 Transformer 网络结构如图 1 所示为了结合前面小节中所提到的空间信息提取模块与时间信息提取模块，骨架序列数据首先通过浅层特征提取模块对其进行特征处理。再将处理后的数据依次输入至上述的时间信息与空间信息的处理模块中，经过 n 次时间特征与空间特征提取模块处理后使用全连接层与 softmax 函数得到最终的预测结果。计算方式如式（11）至（14）所示，其中 f(X)为时间域特征提取模块，g(X)为空间域特征提取模块，C 表示最终的预测结果序列，W0表示全连接层的参数矩阵，Vt和 Vf分别表示经过时间域特征提取模块与空间域

13、特征2023 年第 8 期174智能技术信息技术与信息化提取模块得到的特征向量。Vt=f(X)（11）Vf=g(Vt)（12）C=W0(Vf)（13）yp=softmax(C)（14）图 1 网络结构图2 模型实验2.1 数据集本文使用 UTKinect-Action3D 数据集8和 MSR Action3D数据集9作为本文所设计模型的评估数据集。UTKinect-Action3D 数据集利用一个标准的 Kinect 摄像机采集受试者执行动作时对应的骨架信息，数据集中包含 10 种不同的动作：走、坐、站立、捡东西、搬运、扔、推、拉、挥手、鼓掌。MSR Action3D 数据集同样使用 Kine

14、ct 摄像机采集，10 个实验者执行 20 种不同的动作每个动作正对摄像机执行三次。在数据集中，各个样本之间的长度不同不利于后续的模型训练。因此，通过从原始样本中随机均匀抽样得到长度一致的训练样本。如果原始样本的长度小于所需样本长度，则将其中最后一帧的骨架序列重复填入直到符合所需长度。2.2 实验设置本文使用 Pytorch 框架来实现模型，总共训练 120个 epochs 其批量大小设置为 32 并且使用随机梯度下降(stochastic gradient descent,SGD)作为优化器。采用阶梯化的方式设置学习率，将初始学习率设置为 0.1 每 30 个 epo

15、chs将学习率降为之前的十分之一。2.3 实验结果在 UTKinect-Action3D 数据集上，采取两种不同的方式来组织数据集的数据以对模型进行评估：（1）将处理后的数据按照 1:1 的比例划分为训练集和验证集；（2）受试者交叉验证：对于构成该数据集的 10 个受试者按照 1:1 的比例划分为训练集以及验证集。如表 1 和表 2 所示，同 LSTM 与ST-LSTM10相比，本文提出的方法在准确度上更有优势。同时为验证本文提出的浅层特征提取模块的有效性，因此将完整的轻量级时空 Transformer 网络与不含浅层特征提取模块的轻量级时空 Transformer 网络进行比较。如表 1 受

16、试者交叉验证法实验数据所示，包含浅层特征提取模块的轻量级时空Transformer 网络相较于在不包含特征提取模块的轻量级时空Transformer 网络其在两个数据集上的表现更好，效率更高。表 1 受试者交叉验证法实验数据方法名称准确度LSTM90.1%STLSTM92.7%轻量级时空 Transformer（不含特征处理单元）95.0%轻量级时空 Transformer（包含特征处理单元）99.0%表 2 比例划分法实验数据方法名称准确度LSTM93.1%STLSTM96.3%轻量级时空 Transformer（包含特征处理单元）99.0%在 MSR Action3D 数据集上，首先根据文

17、献 9 将数据集按照动作分类为三个子数据集。在各个子数据集按照受试者交叉验证的方式按照受试者将其均分为训练集和验证集。如表 3 MSR 3D 上各方法识别准确度所示，相较于 LSTM 与STLSTM 方法，本文提出的时空 Transformer 网络的识别准确度更高。表 3 MSR 3D 上各方法识别准确度方法名称子动作集一准确度子动作集二准确度子动作集三准确度平均准确度LSTM83.0%71.1%84.5%79.5%STLSTM85.5%74.2%89.3%83.0%轻量级时空Transformer96.5%97.4%94.2%96.0%3 总结本文将门控注意力单元引入基于骨架的人体动作识别

18、中，其作为一种更为高效的 Transformer 网络结构与因果卷积结合，提出了一种轻量级的时空 Transformer 架构，减少模型所需的计算量并且模型在训练推理时不存在计算顺序依赖问题，进而提升了模型效率。通过在 UTKinect-Action3D 数据集和 MSR Action3D 数据集上的实验验证了本文所设计模型的有效性，通过消融实验，将不包含浅层特征提取模块的网络以及设计的整体模型分别训练比较，验证了本文所提出特征处理方式的有效性。参考文献：1 LIU Q.Aerobics posture recognition based on neural network and senso

19、rsJ.Neural computing and applications，2022，34(1)：1-12.2 YADAV S K，AGARWAL A，KUMAR A，et al.YogNet:2023 年第 8 期175智能技术信息技术与信息化A two-stream network for realtime multiperson yoga action recognition and posture correctionJKnowledge-based systems，2022，250(1)：109097-109097.3 TAN M,NI G,LIU X,et al.Bidirecti

20、onal posture-appearance interaction network for driver behavior recognitionJ.IEEE transactions on intelligent transportation Systems,2021,23(8):13242-13254.4 SANCHEZ-CABALLERO A，DE LOPEZ-DIZ S，FUENTES-JIMENEZ D，et al.3dfcnn:Real-time action recognition using 3d deep neural networks with raw depth in

21、formationJ.Multimedia tools and applications,2022,81(17):24119-24143.5 HUA W,DAI Z,LIU H,et al.Transformer quality in linear timeC/International Conference on Machine Learning.Baltimore：PMLR,2022:9099-9117.6 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you needC/Proceedings of the 31st Intern

22、ational Conference on Neural Information Processing Systems,Red Hook,2017,6000-6010.7 DAUPHIN Y N,FAN A,AULI M,et al.Language modeling with gated convolutional networksC/International Conference on Machine Learning.Lille：PMLR,2017:933-941.8 XIA L,CHEN C C,AGGARWAL J K.View invariant human action rec

23、ognition using histograms of 3d jointsC/2012 IEEE computer society conference on computer vision and pattern recognition workshops.Piscataway:IEEE,2012:20-27.9LI W,ZHANG Z,LIU Z.Action recognition based on a bag of 3d pointsC/2010 IEEE Computer Society Conference on Computer Vision and Pattern Recog

24、nition-Workshops.Piscataway:IEEE,2010:9-14.10LIU J,SHAHROUDY A,XU D,et al.Skeleton-based action recognition using spatio-temporal LSTM network with trust gatesJ.IEEE transactions on pattern analysis and machine intelligence,2017,40(12):3007-3021.【作者简介】陈天宇（1998），男，江苏南通人，硕士研究生，研究方向：坐姿检测识别、人体姿态估计、动作识别等

25、领域的相关研究，邮箱：。（收稿日期：2023-02-20 修回日期：2023-04-24）2 ZHAN J Y,XIONG G Z.Optimal hardware/software co-synthesis for core-based SoC designs J.Journal of systems engineering and electronics,2006,17(2):402-409.3 李建成，庄钊文，张亮SoC 设计的软硬件协同验证研究J.半导体技术,2007,32(10):904-908.4 赵鹏，严明，李思昆异构多处理器 SoC 的应用算法性能优化方法 J.软件学报,201

26、1,22(7):1475-1487.5 ZHENG Z X,ZOU X C,YU G Y.Ethernet controller SoC design and its low-power DFT considerations J.wuhan uuniversity journal of nnatural sciences,2008,13(1):75-80.6 沈剑良，李思昆，刘磊粗粒度可重构 SoC 层次化配置存储器设计 J.计算机研究与发展,2017,54(5):1121-1129.7 SONG Z H,MA G S,SONG D L.Low power circuits for NoC-B

27、ased SoC Design C.Proceedings of 2008 9th International Conference on Solid-State and Integrated-Circuit Technology,Beijing,China,October,2008.8 裴颂伟，李兆麟，李圣龙，等基于 V93000 的 SoC 中端口非测试复用的 ADC 和 DAC IP 核性能测试方案 J.电子学报,2013,41(7):1358-1364.9 余乐，李任伟，王瑶，等综述：面向 SoC-FPGA 的开源处理器 J.电子学报,2018,46(4):992-1004.10HAN

28、 K,LEE S,OH K,et al.Developing TEI-aware ultralow-power SoC platforms for IoT end nodes J.IEEE internet of things journal,2021,8(6):4642-4656.11 郭继峰，郑红星，贾涛，等异构无人系统协同作战关键技术综述 J.宇航学报,2020,41(6):686-696.12 黄凯，殷燎，林锋毅，等一种多处理器原型及其系统芯片设计方法 J.电子学报,2009,37(2):305-311.13 刘亮亮，宋征宇，蒋彭龙基于 AMBA 总线的 SOC 硬件加速器的研究 J.航天控制,2009,27(1):61-66.【作者简介】宋青平（1984），男，博士，高级工程师，研究方向：多模通信、无线通信。苏国彬（1976），男，博士，正高级工程师，研究方向：超大规模集成电路设计、数模混合电路设计。白晔（1976），男，正高级工程师，研究方向：通信、信息系统论证和设计。蒋毅凯（1976），男，博士，正高级工程师，研究方向：通信算法。（收稿日期：2023-03-15 修回日期：2023-05-10）(上接第 151 页）

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于深度学习动作识别研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。