基于深度学习的动作识别研究.pdf
《基于深度学习的动作识别研究.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的动作识别研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023 年第 8 期172智能技术信息技术与信息化基于深度学习的动作识别研究陈天宇1CHEN Tianyu 摘要 用循环神经网络构建的人体动作识别模型存在以下两方面的问题:一方面存在计算上的顺序依赖,另一方面难以对数据中存在的全局信息进行建模。针对以上问题,提出了一种结合门控注意力单元和卷积神经网络的人体动作识别模型。通过对骨架序列中存在的时空信息进行建模分析来预测骨架所对应人体的动作状态,既降低了数据中噪声对结果的干扰,同时对数据中存在的时空域全局信息进行建模分析。通过在 UTKinect-Action3D 和 MSR 3D 动作数据集上的实验证实了所提方法具备一定的可行性,且相较于循环神
2、经网络的方法有一定的优势。关键词 Transformer;CNN;人体动作识别;轻量级网络doi:10.3969/j.issn.1672-9528.2023.08.0381.东南大学软件学院 江苏苏州 2150000 引言人体动作识别(human action recognition,HAR)在现实生活中有着广泛的应用前景,其可被用于在监控系统中检测危险动作,或者在自主导航中辅助系统理解正确的操作行为,除此之外还广泛运用于视频检索、人机交互、娱乐等领域1-3。在早期,大多数人体动作识别的工作都将彩色或者灰度视频作为输入数据,近些年随着传感器以及计算机的发展输入数据不再局限于传统的视频格式,还包
3、括其他多种不同格式例如:骨架序列、深度图、点云、红外序列、音频、雷达等4。其中骨架序列由于对视角、背景信息不敏感使得在复杂场景、不同光照环境和其他背景噪音的情况下依然能够保证模型的效率和鲁棒性使得其吸引了越来越多学者的注意力。同时由于深度传感器的成本不断下降和人体姿态识别算法的不断发展使得获取图像中的人体骨架序列愈发简单。原始的骨架数据往往以点对序列方式被输入至模型中,基于骨架序列的人体动作识别可以根据其使用的模型类型分为以下不同的类别:基于循环神经网络的方法,迭代地处理骨架序列;基于卷积神经网络的方法,利用卷积操作来提取骨架序列中隐含的特征;基于图卷积神经网络的方法,通过图拓补的方式建立空间
4、上不相邻的人体关键点之间的联系(例如手部和膝盖之间的联系)。上述方法的缺陷在于它们对于序列中存在的短程特征提取较好,而对长程特征信息提取有所欠缺。在人体动作识别中需要对骨架序列数据里所存在的长短程关联信息进行有效提取分析,具体而言短程信息可以视为当前帧下人体关键点之间所存在的关联即骨架序列中的空间信息,长程信息可以视为骨架序列各帧之间所存在的关联即骨架序列中的时间信息。通过对骨架序列中所包含的时空信息进行建模,可以有效地预测对应的人体动作状态。近些年来,Transformer 在自然语言处理方面获得了普遍应用,其已被发现可以充分获取数据中包含的长短程关联信息,且同时也不会产生计算上的顺序依赖现
5、象。因而相较于基于循环神经网络的人体动作识别方法,基于 Transformer 架构的方法更适合提取骨架序列中的时空信息并对其建模。本文给出了一个融合因果卷积与门控注意力单元的轻量级人体动作识别模型,主要创新点如下:(1)使用门控注意力单元来构建人体动作识别模型,避免基于循环神经网络的人体动作识别模型存在的计算顺序依赖导致的并行度低,训练慢等问题。(2)根据时间域与空间域中不同的特点分别采用不同的子模型,在时间域上数据隐含着单向流动的特点因此使用因果卷积,在空间域上运用门控注意力单元作为特征信息提取模块,融合二者提取的特征进而对骨架序列中包含的时空域信息进行建模分析,提高模型的效率。(3)考虑
6、到模型部署问题,使用门控注意力单元与因果卷积构成模型得到一种轻量级的模型,在减小模型大小的同时降低模型部署所需的计算量。1 轻量级时空 Transformer 网络本 文 提 出 了 一 种 轻 量 级 时 空 Transformer 网 络(lite spatial temporal transformer,LSTT),通过因果卷积和门控注意力单元的自注意力机制来对分别骨架序列中存在的时间信 2023 年第 8 期173智能技术信息技术与信息化息与空间信息进行建模,进而得到人体动作状态。具体而言,在时间域上使用因果卷积,其聚焦于对骨架序列中存在的帧间时间特征提取;在空间域上使用门控注意力单元
7、,其聚焦于对骨架序列中存在的当前帧内各人体关键点之间的特征提取。通过综合这两个模块,来对骨架序列中的时空域信息进行建模以预测人体当前所处动作状态。1.1 时间信息提取模块在时间信息提取模块中专注于时间信息的特征提取,由于在时间域上时间流动的是单一的,应用传统的卷积方式会导致提取当前帧的特征信息时,由于填充操作会使得提取的特征中包含未来帧上的信息,进而破坏了时间域上的时间顺序。而因果卷积在提取当前帧的特征信息时仅会利用当前帧及之前帧的信息,保留了数据中隐含的时间顺序。因此选用因果卷积构建时间信息提取模块,能够在保留数据中隐含时间顺序的前提下,有效地提取数据中的时间信息。有助于模型更为准确识别一些
8、持续帧较长的动作,例如挥手、摆臂、跳远等动作,在本文中采用(k,1)尺寸的卷积核对数据做卷积处理。1.2 空间信息提取模块()model2dPE,2sin10000ippi=(1)()model2dPE,21cos10000ippi+=(2)经典 Transformer 架构已经被认为能够有效地提取数据中存在的隐含特征关系,但是由于其模型较大并且计算量较高,因此在算力受限的平台上难以部署经典Transformer模型,一定程度上限制了其在实际应用中的场景。为解决上述问题Weizhe Hua 等人提出了门控注意力单元(gate attention unit,GAU)。同 Vaswani A6等人
9、提出的经典 Transformer 架构相比,在经典架构中模型通过“多头”自注意力机制来对输入数据中不同子域上的特征进行综合性建模,而在门控注意力单元中则结合门控线性单元的思想对多头自注意力机制进行简化,在保留网络建模能力的条件下大大降低了模型的大小与所需算力。由于在 Transformer 网络中不像循环神经网络按顺序对输入数据进行处理,因此会损失数据中包含的位置顺序信息。为了弥补这一缺陷,通常会对数据的数据进行编码将位置信息附加于数据上。在本文中使用如式(1)和(2)所示的三角函数方式对输入数据进行编码,其中 p 为元素在元素表中的位置,i 代表维度序号,dmodel表示位置编码时的编码维
10、度。在空间信息提取模块中,首先将编码后的骨架序列 X,作为输入按照式(6)与式(7)计算得到特征向量 V j与 U j。将序列 X 经过线性变换后得到特征矩阵 Z j,再经过仿射变换 Q、K 如式 5 得到注意力矩阵 A。利用 GLU7中的思想将特征向量 V j乘以注意力矩阵 A 与特征向量 U j做哈达玛积(Hadamard product)再乘以矩阵 W0,得到最终的特征向量 O j。(3)(4)(5)(6)(7)1.3 浅层特征提取模块人体关节点之间存在一定的时空联系并且可以通过在输入数据中体现这种时空关系来提升模型最终的效果。因此对输入数据进行一定的处理有助于后续模块更好的提取数据中隐
11、含的特征信息,传统的人工处理方式是根据人体关键点之间存在的运动学依赖关系设计人工特征提取方式,存在一定的局限性无法完整的体现出各帧关节点之间的内在关系。因此,在本文中设计了一种基于卷积神经网络和因果卷积的浅层特征提取方式,借助其非线性表达能力来对骨架序列中的各个人体关节点坐标之间存在的时空关系进行建模并初步提取其中的特征信息。特征提取模块的计算公式如下所示:(8)(9)(10)上述公式中 X 用于表示人体骨架序列构成的输入向量,将其分别通过空间域上的二维卷积得到空间域上的特征向量和时间域上的因果卷积得到时间域上的特征向量,把时间域上的特征向量经过激活函数后与空间域上的特征向量做哈达玛积操作,最
12、终输出向量 O 并将其作为后续模型的输入数据。1.4 轻量级时空 Transformer 网络结构如图 1 所示为了结合前面小节中所提到的空间信息提取模块与时间信息提取模块,骨架序列数据首先通过浅层特征提取模块对其进行特征处理。再将处理后的数据依次输入至上述的时间信息与空间信息的处理模块中,经过 n 次时间特征与空间特征提取模块处理后使用全连接层与 softmax 函数得到最终的预测结果。计算方式如式(11)至(14)所示,其中 f(X)为时间域特征提取模块,g(X)为空间域特征提取模块,C 表示最终的预测结果序列,W0表示全连接层的参数矩阵,Vt和 Vf分别表示经过时间域特征提取模块与空间域
13、特征2023 年第 8 期174智能技术信息技术与信息化提取模块得到的特征向量。Vt=f(X)(11)Vf=g(Vt)(12)C=W0(Vf)(13)yp=softmax(C)(14)图 1 网络结构图2 模型实验2.1 数据集本文使用 UTKinect-Action3D 数据集8和 MSR Action3D数据集9作为本文所设计模型的评估数据集。UTKinect-Action3D 数据集利用一个标准的 Kinect 摄像机采集受试者执行动作时对应的骨架信息,数据集中包含 10 种不同的动作:走、坐、站立、捡东西、搬运、扔、推、拉、挥手、鼓掌。MSR Action3D 数据集同样使用 Kine
14、ct 摄像机采集,10 个实验者执行 20 种不同的动作每个动作正对摄像机执行三次。在数据集中,各个样本之间的长度不同不利于后续的模型训练。因此,通过从原始样本中随机均匀抽样得到长度一致的训练样本。如果原始样本的长度小于所需样本长度,则将其中最后一帧的骨架序列重复填入直到符合所需长度。2.2 实验设置本 文 使 用 Pytorch 框 架 来 实 现 模 型,总 共 训 练 120个 epochs 其批量大小设置为 32 并且使用随机梯度下降(stochastic gradient descent,SGD)作为优化器。采用阶梯化的方式设置学习率,将初始学习率设置为 0.1 每 30 个 epo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 动作 识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。