基于双流自适应时空增强图卷积网络的手语识别.pdf
《基于双流自适应时空增强图卷积网络的手语识别.pdf》由会员分享,可在线阅读,更多相关《基于双流自适应时空增强图卷积网络的手语识别.pdf(11页珍藏版)》请在咨信网上搜索。
1、Electronics and Information EngineeringMar.2024JOURNALOF APPLIED SCIENCES2024年3 月Vol.42No.2应第42 卷第2 期报用学学科DOI:10.3969/j.issn.0255-8297.2024.02.001基于双流自适应时空增强图卷积网络的手语识别金彦亮1,2,吴筱激1,21.上海大学通信与信息工程学院,上海2 0 0 4442.上海大学上海先进通信与数据科学研究院,上海2 0 0 444摘要:针对提取手语特征过程中出现的信息表征能力差、信息不完整问题,设计了一种双流自适应时空增强图卷积网络(two-stre
2、am adaptiveenhanced spatialtemporalgraphconvolutional network,T A EST-G CN)实现基于孤立词的手语识别。该网络使用人体身体、手部和面部节点作为输入,构造基于人体关节和骨骼的双流结构。通过自适应时空图卷积模块生成不同部位之间的连接,并充分利用其中的位置和方向信息。同时采用残差连接方式设计自适应多尺度时空注意力模块,进一步增强该网络在空域和时域的卷积能力。将双流网络提取到的有效特征进行加权融合,可以分类输出手语词汇。最后在公开的中文手语孤立词数据集上进行实验,在10 0 类词汇和50 0 类词汇分类任务中准确率达到了9 5.5
3、7%和8 9.6 2%关键词:骨架数据;双流结构;自适应时空图卷积模块;自适应多尺度时空注意力模块;特征融合中图分类号:TP391.4文章编号:0 2 55-8 2 9 7(2 0 2 4)0 2-0 18 9-11Sign Language Recognition Based on Two-StreamAdaptive Enhanced Spatial Temporal GraphConvolutional NetworkJIN Yanliangl,2,WU Xiaoweil,21.School of Communication and Information Engineering,Sha
4、nghai University,Shanghai 200444,China2.Shanghai Institute for Advanced Communication and Data Science,Shanghai University,Shanghai 200444,ChinaAbstract:Aiming at the issues of poor information representation ability and incompleteinformation during the extraction of sign language features,this pape
5、r designs a two-streamadaptive enhanced spatial temporal graph convolutional network(TAEST-GCN)for signlanguage recognition based on isolated words.The network uses human body,hands andface nodes as inputs to construct a two-stream structure based on human joints and bones.The connection between dif
6、ferent parts is generated by the adaptive spatial temporal graphconvolutional module,ensuring the full utilization of the position and direction informa-tion.Meanwhile,an adaptive multi-scale spatial temporal attention module is built through收稿日期:2 0 2 2-0 5-0 9基金项目:上海市自然科学基金(No.22ZR1422200);上海市科委重点
7、基金(No.19511102803);上海市产业项目(No.XTCX-KJ-2022-68)资助通信作者:金彦亮,副教授,博导,研究方向为无线传感网络、人工智能。E-mail:j i n y a n l i a n g s t a f f.s h u.e d u.c n第42 卷190应用报学学科residual connection to further enhance the convolution ability of the network in both spatialand temporal domain.The effective features extracted from
8、the dual stream network areweighted and fused to classify and output sign language vocabulary.Finally,experimentsare carried out on the public Chinese sign language isolated word dataset,achieving accu-racy rates of 95.57%and 89.62%in 100 and 500 categories of words,respectively.Keywords:skeleton da
9、ta,two-stream structure,adaptive spatial temporal graph convo-11lutional module,adaptive multi-scale spatial temporal attention module,feature fusion根据最新资料统计显示,全球约15亿人患有一定程度的听力损失,中国的聋哑人数量约占人口总数的1.6 7%。对于大部分听障人士来说,手语是他们进行交流的主要方式,它通过手形、手掌方向、手部动作、手部位置和非手动特征(面部表情)5个元素的改变,来组合形成不同词语1。由于手语表达较精细且缺乏统一的标准,现实生
10、活中大多数人并不具备表达手语的能力。在这种情形下,手语识别技术可以作为辅助工具,助力手语教学和手语机器人研发工作,从而建立聋哑人与外界沟通的桥梁,具有较高的实用价值。手语识别的相关研究起源于20世纪9 0 年代,早期使用数据手套等穿戴设备捕获手部动作,但其成本昂贵且无法满足大众的需求,目前主要利用计算机视觉的相关算法来获取所需的数据2 。随着人工智能的发展,深度学习逐渐取代了传统图像特征提取技术,它不仅能够通过训练学习图像的多层次特征表示,在处理多类型样本时也展现出良好的性能,借助深度学习的方式获取更加高级的手语信息已成为主流的技术手段。基于孤立词的手语识别数据序列短、数据种类多,主要致力于完
11、善特征表现形式、改进特征提取方式、增强特征描述能力,以此提高手语词汇分类的准确性。文献3 从手语视频中提取人物的上半身图像,并使用预训练卷积网络模型对图像中的手势进行提取,虽然简化了手部分割的步骤,但没有完全解决背景干扰与信息丢失问题。文献4 通过多阶段CNN网络,从RGB视频中提取出手部和全身的骨骼数据,最后将具有辨识度的骨骼特征进行融合分类,虽然在印度手语数据集上取得了优越的效果,但仍然缺乏重要的面部特征信息。文献5 提出了基于注意力机制的3D-CNN网络,该方法在捕捉时空特征时利用空间注意力将训练集中于感兴趣的区域,然后利用时间注意力选择重要的时间序列进行分类,虽然学习了空间与时间信息,
12、但忽略了两者之间的联系。针对上述问题,本文利用人体姿态估计模型,提取图像中人物身体、手部和面部节点数据,并以骨架关节点构造双流骨架图结构;设计基于无向图的自适应时空增强图卷积网络,提取人体不同部位之间的关联信息;设计基于有向图的自适应时空增强图卷积网络,提取人体骨骼向量中的长度和方向信息;利用特征融合分类层输出分类概率,选择分数最高的类别作为预测的手语词汇。实验结果表明,本文提出的双流自适应时空增强图卷积网络能够有效利用手动信息和非手动信息,建立空间和时间的远程依赖关系,达到了理想的分类效果。1双流自适应时空增强图卷积网络设计本文设计的双流自适应时空增强图卷积网络主要由3个部分组成,分别为双流
13、骨架图结构、基于无向图的自适应时空增强图卷积网络和基于有向图的自适应时空增强图卷积网络,以及最后的特征融合分类层。模型的主要结构如图1所示。1.1双流骨架图结构大多数标准数据集中的手语视频由照相机拍摄而成,拍摄过程中出现的光照强度不均,手语表演者运动模糊、手部遮挡等问题,都会为图像特征提取带来困扰。同时在实际场景中,191第2 期金彦亮,等:基于双流自适应时空增强图卷积网络的手语识别基于无向图的自适应特征融合分美层时空增强图卷积网络骨架无向图自适应注意力增强图卷积时间卷积(AGCN)(ATCN)全连接层自适应多尺度(FC层),T31280720Body时空注意力(AMSSTA)骨架关节点提取H
14、and基于有向图的自适应时空增强图卷积网络骨架有向图有向自适注意力增强Fa.ce应图卷积双流骨架图结构时间卷积(D-AGCN)(ATCN)全连接层有向自适应多尺(FC层)度时空注意力(D-AMSSTA)图1双流自适应时空增强图卷积网络结构图Figure 1 Structure diagram of two-stream adaptive enhanced spatial temporal graph convolu-tional network(TAEST-GCN)聋哑人身后不是单一背景,纷乱杂扰的环境使得提取局部特征和运动轨迹更加困难。为了避免引入图像中的几余信息,本文利用OpenPose模
15、型6 对数据集中的视频帧进行处理,提取出手语表演者身体15个关节点,左、右手各2 1个关节点,以及面部6 8 个关节点作为基础数据。如图2 所示为原始输入图像和经过处理后的图像。TMU2TMU2TMU2TEIOMIMEI工M图2 骨架数据提取示意图Figure2Structure diagram of skeleton data extraction在图像中提取到不同部位的关节点后,可以获取每个点的二维坐标=(,y)。若某顿中节点数据丢失,则选取前后帧相应节点的坐标平均值,作为该节点的补充信息。大多数方法在处理人体骨架数据时,只将关节点之间进行简单连接,而忽略了连接边长度和方向中蕴含的运动信息
16、。本文首先根据人体物理结构连接节点,构造出人体骨架无向图,然后将视频顿中人体胸腔部位作为中心点,把靠近中心点的节点看作源关节U1=(a 1,1),把远离中心点的节点看作目标关节V2=(2,2),构造出人体骨架有向图,其中有向图的有向边为e1,2=(c 2 a 1,9 2 y 1),向量的长度和方向代表了人体骨骼的长度和方向。如图3所示为人体骨架无向图和有向图的具体结构。第42 卷192应用报学科学(a)人体骨架无向图(a)Undirected graph of human skeleton(b)人体骨架有向图(b)Directed graph of human skeleton图3人体骨架空间
17、图Figure 3 Spatial map of human skeleton1.2基于无向图的自适应时空增强图卷积网络针对人体骨架无向图,本文设计了基于无向图的自适应时空增强图卷积网络。其中包括自适应时空图卷积模块(adaptive spatial temporal graph convolutional network,A ST-G CN)和自适应多尺度时空注意力模块(adaptivemulti-scale spatialtemporal attentionnetwork,AMSSTA)。1.2.1自适应时空图卷积模块作为基于无向图的自适应时空增强图卷积网络的第一分支,AST-GCN的结构
18、如图4所示,主要由自适应图卷积模块(adaptivegraphconvolutionalnetwork,A G CN)和注意力增强时间卷积模块(attention enhanced temporal convolutional network,A T CN)组成。注意力图(AMPNXCTABKATCNCxTx11xTx11xTx11xTx1QkGAP-Convid-BN-ReLU-Sigmoid-PaddingSoftmaxCCinxTxiNNxNC.TXNAMP-BN-ReLU-DropoutTCNCoutxTxNWRReLUAGCNConv1d图4自适应时空图卷积模块结构图Figure 4
19、 Structure diagram of AST-GCN在手语表示中,同样的手势位于不同位置可能代表不同语义,学习双手之间的交互关系,以及手部相对于身体的位置关系十分重要。而在目前主流的手语识别空域卷积网络中,往往使用图卷积网络提取骨骼序列特征,其中对于邻接矩阵的设计缺乏灵活性,使得模型无法建193第2 期金彦亮,等:基于双流自适应时空增强图卷积网络的手语识别立不同部位特征点之间的连接。因此本文使用AGCN模块7 完成空域图卷积操作,具体公式为K,KYW,XiP=WXi(Ak+Bk+Ch)(1)kk式中:X,和Y分别为AGCN的输入和输出;K,为分区策略数,一般设置为3;Wk为权重矩阵。与S
20、T-GCN8中的归一化邻接矩阵相同,A可用度矩阵D表示为Ak=D-AD-=D-(A+I)D-,其中包含着人体物理连接信息,用于提取同一部位内部关节点的特征。Bk是一个完全从数据中学习而来的邻接矩阵,能够在训练过程中和其他参数一起被优化。Ck=Softmax(XTWT,WBkX1)作为辅助参数,能够确定两个节点之间是否存在连接,并标明连接的强弱程度,其中Wk和Wk是归一化嵌入高斯函数和的权重矩阵。虽然Bk+Ch的作用与ST-GCN中的注意力掩码Mk相近,但在ST-GCN中M与Ak不是按照矩阵形式相乘,邻接矩阵中值为0 的元素相乘后永远为0,从而无法构造人体物理连接中不存在的新连接。AGCN使用加
21、法的方式设计参数,能在卷积过程中改变矩阵元素的值,从而获得手部相对于其他部位的位置信息。在不同的视频顿中,包含着手语表示的关键动作和过渡动作,为了更好地关注具有重要信息的视频帧,捕捉关键动作的时序特征,在使用AGCN模块提取到关节点的空间特征后,本文设计了ATCN模块对特征进行时序建模。这里的TCN9模块可看作二维卷积网络,其中T和N代表卷积维度,卷积内核为Kt1。得到TCN卷积的输出YRCTxN后,通过全局平均池化层对N维度的节点数据进行平均操作,并利用11卷积层对通道C进行压缩,得到维度为1T1的特征矩阵,再输入到全连接层中学习不同时间通道的重要性,经过两个全连接层恢复特征维度后,使用Si
22、gmoid函数将权重归-一化。通过上述方式可以获得注意力图AMP,对不同视频帧中的动作重要度进行标注,利用矩阵的点积预算将其加权到3个通道的特征中,ATCN的输出表示为Yi=Y+Y&YAMP(2)在明确空域卷积模块和时域卷积模块的具体设计后,参照ST-GCN的网络结构,本文在每个AGCN模块和ATCN模块后都设计了BN层和ReLU层,同时通过残差连接,在每一层网络的输入与输出之间添加11卷积,当输入通道数和输出通道数不同时,可以利用这种方法来保持它们之间的一致性。1.2.2自适应多尺度时空注意力模块在时空图卷积网络中,每一层同时包含空域卷积和时域卷积,由于两者属于不同领域的图卷积,进行连续堆叠
23、的卷积操作会降低节点区分度,模型提取特征的性能也会下降。为了捕捉特征在空域和时域的内在联系,同时避免多层卷积引起特征过度平滑的问题,本文设计了AMSSTA模块来直接学习无向图中的时空特征,作为基于无向图的自适应时空增强图卷积网络的第二分支。首先在长度为的时间滑动窗口中选取节点集合V()=(Vi NV2 N,V+N),对于第i个节点子集ViN中的第i个节点,将其与它在该节点子集中的相邻节点相连,并连接到剩余T1个节点子集的第个节点和相邻节点上10 ,所有节点在顿上都与自身和相邻节点紧第42 卷194应用学报学科密连接,输入数据变为X2ECTTN。由此可得大小为T的块邻接矩阵A.AiA(t)=ER
24、TNXTN(3)AT1ATT式中:每个元素都为NN的邻接矩阵,利用A()的度矩阵D(-)得到归一化后的块邻接矩阵A()=D()A()D)。采用与式(1)相同的设计方式对A()进行改进,进一步得到自适应块邻接矩阵P(),具体表示为A11+B11+Ci1A1-+B1+C1TP(T)=ERTNXTN(4)Ar1+Br1+Cr1AtT+BtT+CTT式中:每个元素都通过加法设计引入参数Bk和Ck,用于学习节点之间的时空连接特性,使得网络可以直接在时空域中对节点进行卷积操作。节点集合V()每经过一次卷积操作,特征向量的区分度就会下降,为了保留每个节点的独特性,参照紧密连接的GCN模型(SnowBall模
25、型)11,本文设计了基于多尺度注意力的自适应卷积层,第1层的计算为Hi=o(WoX2Po)O1=Cat(X2,H1)(5)Di=tanh(O1+O1 OAMP,)式中:Po为第1层的自适应块邻接矩阵;W。为第1层的权重向量。为了最大限度地保留原始信息,同时不引入过多的计算量,每一层的卷积结果Hi+1只与上一层的输出D进行拼接,得到Ot+1用于注意力模块的计算,以此避免失去节点自身的特性。最后采用与式(2)相同的方式计算出该层的输出Di+1,用作下一卷积层的输入。由此可知,每一层的计算为H+1=o(WiDiP),l=1,2,.,n-1Oi+1=Cat(Dt,Hi+1),l=1,2,.,n-1(6
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 双流 自适应 时空 增强 图卷 网络 手语 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。