基于混合注意力机制的中文孤立词手语识别.pdf
《基于混合注意力机制的中文孤立词手语识别.pdf》由会员分享,可在线阅读,更多相关《基于混合注意力机制的中文孤立词手语识别.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 年第 10 期194智能技术信息技术与信息化基于混合注意力机制的中文孤立词手语识别陈晓燚1 杨 波1 余 辉1 黄国航1CHEN Xiaoyi YANG Bo YU Hui HUANG Guohang 摘要 手语识别技术能帮助听障人士与健听人士进行交流。当前,随着社会的快速发展,深度学习技术也为手语识别工作提供了一定的技术支持。然而在手语识别任务中,使用传统的卷积神经网络对手语视频进行时空特征的提取时,存在特征提取不充分而导致识别率低的问题。除此之外,由于手语视频中因背景光照、表演者体态不一致等问题也会影响到网络模型的识别效果。为解决上述问题,使用了一种基于混合注意力机制的手语识别模
2、型,所提及的模型通过添加混合注意力机制的方式,用于增强对手语动作中重要区域的关注,并使用空间变换网络来增强模型的空间不变性,最终在 SLR 手语词数据集上完成实验验证。实验结果表明,所提及的模型准确率优于 3DCNN、CNN 结合 LSTM 等主流模型,能够有效提取手语视频中的时空特征,并提高对手语动作的识别能力。关键词 深度学习;注意力机制;手语识别;残差网络;长短记忆神经网络 doi:10.3969/j.issn.1672-9528.2023.10.0411.中南民族大学计算机科学学院 湖北武汉 4300740 引言我国第二次残疾人抽样调查显示,我国约有 2780 万人受到听力障碍的影响,
3、占全国残疾人数的 24%以上1。这些听障人士在与健听人士交流时常常遇到沟通障碍,影响社会融入和生活质量。自动化手语识别技术能够有效解决这一问题,使得听障人士能更加容易与健听人士进行交流和沟通,提高社会参与度和生活质量。因此,推广和应用自动化手语识别技术具有极其重要的意义,可以促进听障人士更好地融入社会,建设一个更具包容性和友善性的社会。1 相关工作手语识别的研究已经在国内外广泛展开,涵盖了理论和技术方面的诸多工作。根据不同的数据处理方法,手语识别技术可以分为三种研究方向,其总结如下。第一种为基于可穿戴传感器的手语识别技术。使用传感器设备来获取手势变化信号和上肢的运动轨迹,从而进行建模实现手语翻
4、译。在 1983 年,Grimes 等人2最早使用数据手套进行手语识别研究并实现对美国手语的识别。此后,越来越多的手语识别研究者利用数据手套进行手语识别的研究。Oliveira 等人3采用双手数据手套对手语动作进行捕捉,并送入至神经网络中识别,实现对英文单词的识别。Lin等人4采用摄像头去获取穿戴颜色手套的人的数据,并对这些图像数据进行颜色分割等数据预处理工作。虽然基于传感器的手语识别工作取得了巨大的进步,但这些设备需要手语表演者遵守特定佩戴要求,整个过程较为繁琐。第二种为基于传统算法的手语识别技术。主要使用图像处理、序列和分类算法等传统方法来实现手语识别。Maharni等人5提出一个基于支持
5、向量机的手势动作分类系统。Liu等人6利用具有测量不同特征值之间的距离实现分类的 K 值近邻方法对手势进行识别。Zhang 等人7提出一个结合 DTW(dynamic time warping)和 HMM(hidden markov model)的模型用于识别连续手语视频,实验结果表明该方法能够有效降低词错率。虽然基于传统方法的手语识别工作在准确率上已经取得了一定的成果,但由于人工计算的局限性和手势动作的复杂性,导致使用人工设置特征会极大地增加手语识别的工作量。因此越来越多的研究者开始投入基于深度学习的手语识别工作中。第三种为基于深度学习的手语识别技术。利用神经网络进行高层次特征的提取和分类识
6、别。Koller 等人8将 CNN(convolutional neural networks)与 HMM 结合针对连续手语句子在 PHOENIX-2014 数据集上取得了较高的识别率。考虑到手语视频时序的问题,Tran 等人9将传统的二维卷积扩展到三维卷积对视频帧之间的时间特征进行获取。Pigou等人10基于 CNN 结构对人体的手部特征进行捕捉,并构造了一个意大利手语识别系统,在该系统上对意大利手语数据集进行识别达到 91.7%的准确率。Cui 等人11为了利用视频中的时 2023 年第 10 期195智能技术信息技术与信息化间序列信息来提取视频的高级特征,使用 CTC 对时间片段进行标记
7、并将 CNN 结构和 RNN(recurrent neural network)结构的网络结合来提高手语视频的识别率。尽管手语技术得到了很好的发展,但仍然存在一些挑战和限制。例如,手语是一种复杂的语言形式,手势的形状、位置、方向、速度等因素都会对其意义产生影响,如何充分提取手语特征信息成为手语识别的关键。此外,手语的使用也受到环境影响,如光线、噪声等。同时,手语识别技术通常需要大量训练数据和复杂的算法,这也增加了应用的难度和成本。因此,尽管手语技术有广泛的应用前景,但还需要进一步研究和改进,以适应不同的场景和需求。为了进一步提高手语词汇识别的准确率,并解决在手语识别任务中由于手语动作过于复杂而
8、导致模型无法有效关注到手语动作中重要特征的问题。本文在卷积神经网络结合循环神经网络的识别模型中引入了混合注意力机制和空间变换网络以解决上述问题,并与其他算法在中文手语词汇上的识别准确率进行比较。2 结合混合注意力机制的手语识别模型2.1 模型框架本文整体模型框架如图 1 所示。首先,将手语视频分割为连续的图像帧,使用余弦相似度的方法去除冗余的帧,然后将连续的图像帧传入空间变换网络(spatial transformer networks,STN)12进行仿射变换用于提升空间不变性。然后将序列传入至残差网络(residual network,ResNet)模型中提取每个图像帧的特征表示,同时利用
9、 CBAM(convolu-tional block attention module)13使特征信息能被更好地提取。最后将所提取的空间特征通过线性层输入至长短期记忆网络(long short-term memory,LSTM)提取视频序列的表征,送入 softmax 层进行视频分类输出,完成手语识别任务。图 1 整体模型框架传统的卷积神经网络有着随着卷积层和池化层的加深发生梯度爆炸和消失的问题,从而导致随着网络层数的加深预测的效果反而变差,但手语识别工作需要尽可能地获取深层次的图像特征信息。为了解决深度卷积神经网络层数增加导致性能下降的问题,He 等人14提出了 ResNet,采用残差学习块
10、来构建网络。ResNet 是由多个残差学习块堆叠而成的网络结构,可以有效提高模型的性能和鲁棒性,残差学习块如图 2 所示。图 2 残差学习块使用跳连接的方式在输入通道和输出通道间增加一条联系通道,使信息直接从输入到输出。以这种方式避免产生随着网络层数的加深导致的信息的缺失的问题,从而保证信息的完整性。通过使用残差模块增加网络深度,手语视频识别任务中的神经网络可以同时保留底层特征和深层特征,而不会导致过多的重复学习。这样可以得到最优的特征表示,以提高手语识别的准确性和语义信息的表征。ResNet 的网络层数越大,计算量越大,精度也越高,常用的有 ResNet34、ResNet50、ResNet1
11、01,针对手语视频识别模型,过深的网络层数可能会过于在意细节而忽略整体,所以本文采用 ResNet50 作为手语特征提取模型。2.2 混合注意力机制注意力机制可以通过自主学习的方式调整信息对应权重,对任务感兴趣的区域增加关注度,对无用的信息减小关注度,使卷积神经网络能更好地提取对分类有用的特征信息。本文采用 CBAM 注意力机制模块增强对手语识别的关键特征提取。CABM 由通道注意力机制(channel attention module,CAM)和空间注意力机制(spatial attention module,SAM)模块组成。在进行手语视频识别时,CAM 模块先通过计算通道的特征的重要程度
12、再赋予该通道的权重系数,这使重要的通道权重增大,不重要的通道权重减小,用于筛选出重要的通道特征,CAM 模块计算公式为:MC(F)()()()()g()ax()MFMLP Av Pool FMLP MPool F=+C (1)SAM 模块聚焦特征信息在特征图上的位置,通过平均池化和最大池化对输入进行压缩采样,将其输入至卷积层来进行权重的学习,以此关注特征图上的关键信息,方便提取对手语识别分类有用的关键特征信息。SAM 模块计算公式为:()7 7()(),()xsMFfAvgpool FMaxpool F=(2)本文按照先放通道注意力后增加空间注意力的方式将CBAM 添加至 ResNet 中,添
13、加 CBAM 后的结构如图 3所示。2023 年第 10 期196智能技术信息技术与信息化图 3 嵌入 CBAM 模型结构将 CBAM 注意力机制与 ResNet 相结合,可以提高卷积神经网络的性能和泛化能力。在卷积神经网络中,每个卷积层都会提取不同特征,但并不是所有特征对于分类任务都是有用的。CBAM 注意力机制可以自适应地学习输入特征图中重要的位置和通道,并通过调整特征图的权重来突出这些有用的特征。这种注意力机制可以帮助网络更好理解图像,减少冗余信息和噪声的影响,提高识别准确率。在处理中文手语孤立词识别任务时,采用卷积神经网络与 CBAM 注意力机制结合的模型可以提高手语视频的特征提取能力
14、和分类准确性。这种混合注意力机制的模型通过自适应地学习手语视频中空间和通道上的重要性权重,帮助网络更加注重关键特征的提取,并过滤掉无关信息和噪声。由于手语视频中包含大量的空间信息,使用 CBAM 注意力机制可以使网络在提取这些重要的空间特征方面更为敏感,从而提高分类准确率。因此,将 CBAM 注意力机制添加到卷积神经网络中是处理中文手语孤立词识别任务的有效方法,能够帮助网络更好理解手语视频,实现更准确的分类。2.3 空间仿射变换在现实生活中,手语动作特征提取会受到背景、光照、遮挡物等因素的影响,如人体所处的环境位置、遮挡物不同会影响手语特征提取。手语者肤色的不同导致反射光不同也会导致特征提取不
15、准确,从而降低对手语识别的准确率。因此在现实环境中的手语识别应用会受到极大的挑战。针对上述问题,本文算法模型引入 STN,来改善因背景杂乱、遮挡、光照所带来的问题,使手语识别模型具有空间不变性。2015 年,Google DeepMind 提出了 STN 结构,旨在解决传统卷积神经网络在空间变换方面的不足。STN 不仅可以实现平移、缩放和旋转不变性,还可以嵌入卷积神经网络中,以对数据进行变换和对齐,从而提高分类的准确性。STN 结构由定位网络、网格生成器、采样器三部分组成,如图 4 所示。图 4 STN 模型结构第一部分定位网络通过对输入图进行仿射变换系统设计,经过平移、缩放、剪切等系数计算出
16、回归参数。第二部分网络生成器根据产生的参数 得出变换图坐标和原坐标的映射关系 T,以此映射关系 T生成坐标网格点。第三部分的采样器通过映射关系 T使用双线性插值方法以及输入特征图进行像素填充得到目标特征图。根据上述论述,由于 STN 的空间变换特性,可以添加在网络第一层对整个输入数据进行变换,也可以嵌入在卷积神经网络的中间层对部分特征图进行变换。为解决受背景干扰、光照、空间不变性欠缺所带来的问题,本文先对处理好的视频帧利用 STN 进行空间仿射变换用于修正人体的空间位置并加强对人体区域特征的提取,以此提高手语识别模型的准确率。2.4 基于循环神经网络 LSTM 提取时空特征手语识别任务需要关注
17、视频的空间特征和时间特征,ResNet 能提取大量有用的空间特征信息,但在时间特征信息提取上略有不足。而 RNN 模型可以有效处理可变长的数据并建模,具有天然的时间深度用于时序特征的提取。但传统的 RNN 结构在模型训练时会由于时间跨度过长的问题引发网络梯度消失或爆炸,而手语识别任务需要对网络时序长期依赖。为了解决这类问题,本文采取 LSTM 网络用于手语识别的时序建模。LSTM 网络由三个门、激活函数、记忆单元组成,网络结构如图 5。图 5 LSTM 结构图LSTM 试图通过在经典 RNN 使用的隐藏状态之外提出一个细胞状态来克服消失梯度问题。此外,LSTM 具有专门的输入、忘记和更新门,可
18、以最大限度减少长期依赖的递减影响。其中遗忘门 ft见式(3),表示上一时刻能有多少信息需要被舍弃和保存,其余有用的信息在当前时刻来处理梯度消失和爆炸的问题。更新门 it见式(4)。用于对新的记忆见式(5)进行过滤运算,通过将不需要的信息舍弃并保留新的有用信息。将网络中上个时刻保留的记忆与当前时刻保留的记忆相加得到新的记忆 Ct计算见式(6)。ot见式(7)。与新的记忆 Ct通过 tanh 函数得到的新的信息进行运算,最后 2023 年第 10 期197智能技术信息技术与信息化得到当前所需要的信息进行输出,计算见式(8)。()1,tfttffWhxb=+(3)1(,)tittiiWhxb=+(4
19、)(5)(6)1(,)tottooWhxb=+(7)ht=ottanh(Ct)(8)3 实验分析3.1 实验数据集与评价指标本文实验采用的是中国科学技术大学采集的中国孤立词手语视频数据集 SLR-Dataset15-17。SLR-Dataset 是由中国科学技术大学 Huang 等人利用微软设备 Kinect 进行录制收集,数据集由 500 类的独立汉语手语词组成。每类孤立词由 50 个参与者进行录制,每位参与者分别录制 5 次,视频样例中包含深度、RGB、骨架关节点数据,所采集的视频样例都由专业的 CSL 老师进行标注,共有 125 000 个视频样本。本文主要研究中文孤立词识别,使用 AC
20、C指标对中文孤立词手语识别模型进行度量。3.2 实施细节实验采用了PyTorch1.8架构来构造本文所要完成的模型,GPU 为 NVIDIA RTX 3090,操作系统为 Ubuntu20.04,处理器为 Intel(R)Xeon(R)Glod 6130,详细实验环境配置见表 1 所示。表 1 实验环境配置单参数值GPU3090操作系统Ubuntu20.04深度学习框架PyTorch迭代次数50学习率0.000 1优化器Adam本文研究的是中文手语孤立词翻译,学习率设置为0.000 1,优化器采用 Adam 调整学习率,批次大小设置为16,进行 50 次 Epoch 的迭代。为了验证本文使用方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 混合 注意力 机制 中文 孤立 手语 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。