基于深度学习的学生表情识别研究综述.pdf
《基于深度学习的学生表情识别研究综述.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的学生表情识别研究综述.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023 年第 11 期188智能技术信息技术与信息化基于深度学习的学生表情识别研究综述林帅男1 赵 瑞1 张 伟1LIN Shuainan ZHAO Rui ZHANG Wei 摘要 为了使教师进一步感知学生的学习状态,从而提高学生的学习效率,学生表情识别领域已备受关注。针对基于深度学习的学生表情识别这一特征领域的研究展开综述,首先阐述了深度学习的基本内容;其次总结了学生表情识别的研究现状;然后讲述了基于静态图片和实时图像的表情识别方法;最后分析了学生表情识别过程中存在的不足。结果表明,表情能够传达学生的心理情绪,并随着教育信息化、智慧化的发展,学生表情识别的研究可以为课堂教学提供有效反馈。
2、关键词 深度学习;表情识别;智慧教育;计算机视觉;人工智能 doi:10.3969/j.issn.1672-9528.2023.11.0431.吉林师范大学数学与计算机学院 吉林四平 1360000 引言表情,是一个人从面部动作或姿势的变化上表达内心的思想感情,是指情绪状态发生时躯体各个组成部分的动作量化形式。已有科学研究证实,在课堂学习状态下,学习者面部表情变化不但可以反映出他的情绪状态,还可以反映出他的心理状况1。表情识别技术能够随时注意到学生的表情变化,让教师更好地掌握学生的知识接受水平,并适时调整教学方式和内容,引导学生调整学习状态,从而提高学习效率。1976 年,心理学家 Ekman
3、 和 Friesen 基于脸部肌肉和情绪的对应机制,共同提出了面部表情编码体系(facial action coding system,FACS)2,把面部情绪分为 6 种:喜悦、生气、震惊、害怕、忧郁和厌恶,目前大多数的学生表情识别研究都在此基础上进行。徐振国3利用基于 CNN 的学生表情识别模型,将真实教学环境下采集的学生表情分为以下 7 类:常态、高兴、生气、忧郁、惊慌、专注和走神作为数据集样本训练;华春杰等人4就课堂上学生抬头情况与表情识别做了研究,利用端到端的表情识别算法也将学生表情分为 7 种类型:生气、讨厌、恐惧、快乐、难过、惊讶以及中性。特征提取是表情识别的前提与基础,因不同的
4、识别任务具有不同特征,本文将学生面部表情识别研究分为基于静态图片的表情识别和基于实时图像的表情识别,并从深度学习的基本内容、研究现状以及学生表情识别的不足等角度对学生表情识别进行探讨。1 深度学习近年来,人工智能、机器学习、深度学习非常火热。人工智能是最广泛的概念;机器学习也是目前环境下,可以实现人工智能的最高效的方法;深度学习算法是机器学习中应用最热门的一个类别,在人脸表情识别方面,深度学习算法减少了复杂的图像预处理和特征提取过程,较传统的机器学习算法表现得更为出色,在光照、遮挡物等外在因素干扰下表情识别鲁棒性也更佳5。三者所覆盖的技术范畴关系如图1 所示。图 1 人工智能、机器学习、深度学
5、习三者关系示意图 随着深度学习算法的发展,出现了很多各具特色的深度学习框架,这些框架使复杂的神经网络变得更加简单。本文对TensorFlow、PyTorch、Caff e 框架作了简单介绍,如表 1 所示。表 1 深度学习框架对比表框架开发语言优点缺点TensorFlowPython/C+/CUDA使用灵活性强、代码编译效率高、提供了强大的可视化工具、有丰富的封装库支持面对大的矩阵运算会导致系统运行效率降低PyTorchPython/C+/CUDA灵活性好、速度快、训练过程简单、支持动态计算图可视化接口有限、更适合小项目和原型设计CaffeC+/CUDA计算速度快、功能模块化、衍生项目多定义新
6、的层时不够灵活 2023 年第 11 期189智能技术信息技术与信息化目前最流行的 TensorFlow 是基于张量计算的端到端开源数字系统,被广泛应用于机器学习的算法实现。该框架支持Python、CUDA 和 C+程序语言开发以及自动求导,同时提供了大量的深度学习API,其基本数据对象是Tensor(张量)。张量是具有统一类型(称为 dtype)的多维数组,被用来表示计算图中的所有数据,但张量只是对操作结果进行引用,并没有实际地保存数据。2017 年 1 月,美国 Facebook 人工智能研究院(FAIR)开发了使用 GPU 和 CPU 优化的深度学习张量库 PyTorch6,其核心是 A
7、utograd 自动求导包,目前已兼容 Windows、Li-nux、MacOS 系统环境。该框架主要提供了两种高级特性:自动求导机制和强 GPU 加速下的张量算法,可以说是既高效又简洁。在 PyTorch 中最基本的操作对象也是 Tensor(张量),用来表示一个多维矩阵,其中 torch.Tensor 是默认的tensor 类型(torch.FlaotTensor)的简称,是一种包含单一数据类型元素的多维矩阵。Torch 定义了 7 种 CPU tensor 数据类型和 8 种 GPU tensor 数据类型,其中默认的数据类型为 32 位浮点型。Caff e 是由贾扬清教授在加利福尼亚大
8、学的博士研究期间7与伯克利视觉和学习研究所联合开发的开源框架,采用 C+或 CUDA 作为主开发语言,包括了用于 Python 和MATLAB中的一些接口,主要应用于视频和图像处理等方面。选择 Caff e 框架的原因主要有以下几点。第一,该框架富有表现力的架构鼓励应用和创新,模型和优化是通过配置定义的,不需要硬编码。第二,可扩展代码能够促进积极的开发,在 Caff e 开发的第一年,它已经被 1000 多名开发人员分叉,跟踪了代码和模型中最先进的技术。第三,速度使 Caff e 成为研究实验和行业部署的完美选择,Caff e 使用单个 NVIDIA K40 GPU*每天可以处理超过 6000
9、 万张图像。2 研究现状学生在课堂上的表情能够体现出他的情绪状态以及对知识的理解程度,尽管学生的听课情绪会被经验丰富的教师偶尔捕捉到,但是教师想要在同一时间关注到大多数学生的课堂表情会存在一定困难。随着人工智能在教育方面的创新应用以及教育数字化的发展,从有监督学习到半监督或是无监督学习,表情识别技术已经取得了巨大进步。智慧课堂下学生的情绪状态以及对知识点的掌握程度能够及时有效地被反映出来,从传统方法到深度学习,国内外已有越来越多的学者对学生表情识别方向展开研究,图2展示了自2009年以来,人脸表情识别算法的主要发展情况。目前学生表情数据集匮乏,训练样本单一。为解决这一问题,提高训练样本的多样性
10、,多数学者利用数据或特征融合的方法对表情识别展开研究8-12。另外,利用自动人脸检测算法进行学生表情识别也极大程度上提高了人脸检测效率13-16。在线课堂学习中,Xu 等人17提出基于情感认知的学习框架,采用 CNN 模型实现学习者面部检测并进行表情强弱度排序。Bosch 等人18使用基于 SVM 和深度神经网络的表情识别模型,使用 OpenFace 框架提取学生表情特征与头部姿态特征,进而对面部表情进行识别分析。罗万艳等人19提出一种优化的卷积神经网络模型来识别学生课堂表情,收集学生在真实课堂中的表情数据建立训练数据集,该模型对学生表情的识别率远高于 SVM 算法,但需要更长的识别时间。为提
11、高表情识别鲁棒性,多尺度特征融合已成为主流方法。本文根据处理数据的类型,将学生表情识别方法分为两类:静态图片识别和实时图像识别。静态图片识别是指从单一图像中识别表情并进行分类的过程,不需要考虑动作特征的时间信息,而实时图像识别则是从具有时间信息的视频图像中对表情进行识别并分类。具体分类如图 3所示。图 2 人脸表情识别算法发展图2023 年第 11 期190智能技术信息技术与信息化图 3 学生表情识别分类3 基于静态图片的识别随着学生表情识别研究的大幅度提升,静态图片文件数据量小、显示速度快等优点使大量研究者基于静态图片对表情特征进行分类。常用的静态图片表情识别模型有很多,其中,卷积神经网络(
12、CNN)和生成对抗网络(GAN)被广泛应用于学生表情的静态图片识别。下面对这两个模型做进一步阐述。3.1 基于 CNN 的静态图片识别卷积神经网络(CNN)是计算机视觉中使用最普遍的模型结构,使用大量的数据进行端到端的训练,通常由四部分组成:输入层、卷积层、池化层和全连接层。输入层对图片进行预处理;卷积层采用卷积的离散形式在原始图像上通过平移来提取特征;连续的卷积层中间通过使用池化层来减少参数计算量,从而加快计算速度、防止过拟合;最后由卷积神经网络尾部的全连接层进行最终的特征提取和分类。本文列举了 CNN 的三种模型。3.1.1 基于 MTCNN 的静态图片识别MTCNN 是 Kaipeng
13、Zhang 等人于 2016 年首次提出的一种多任务人脸检测模型20。该模型采用三层CNN级联结构,即浅 CNN(P-Net)、更复杂的 CNN(R-Net)以及更强大的CNN(O-Net),可以同时完成人脸检测和人脸特征点的提取。通过自动选择样本,可以有效提高人脸及表情识别的性能。首先利用 P-Net 快速生成候选窗口,然后通过 R-Net 对窗口进行改进,过滤掉大量的非人脸窗口,最后使用 O-Net 来优化结果,并输出面部的关键点位置。近年来,MTCNN 技术发展迅速,Zhang 等人21在进行面部表情识别的过程中,使用 MTCNN 对数据集中的图片进行人脸对齐处理,在加深网络的同时减少了
14、数据计算量。Hong 等人22提出了一种双路径堆叠注意力网络,有效抑制了类内差异,缓解了因数据不足而导致的过拟合问题,但该模型仅考虑没有遮挡的纯面部表情识别,对实际课堂中的学生表情识别会存在明显不足。针对该问题,李磊23提出联合粒子滤波与 MTCNN 的快速人脸检测算法以及分区随机粒子优化重采样方法,该方法有效缓解了学生面部的遮挡问题,解决了粒子滤波中出现的粒子多样性降低问题。3.1.2 基于 VGG 网络模型的静态图片识别VGG 网络是由牛津大学的视觉几何组提出的24,用于证明卷积网络层数的加深有利于提升分类准确性,也确切证实了深度学习在视觉表现中的重要性。VGGNet 的网络结构简单、规整
15、且高效,均使用 3*3 的卷积和 22 的 max pooling。VGG 网络的出现使表情识别技术得到了进一步的发展,同时 VGG 模型的创新应用也使得表情识别准确率得到了进一步提高。为提取复杂的纹理特征,Bougourzi 等人25提出了一种深浅特征融合的面部表情识别算法,该算法在 VGG人脸模型的第一个卷积层和第二个卷积层之间添加空间金字塔模型(PML),既有效减少了噪声干扰,又降低了计算复杂性。Jan26将提取到的 2D 面部部位转化为 3D 成像,并通过预训练的 VGG 网络模型单独传播,使用面部表情信息将预先训练的功能与反馈互联,表情识别率最高可达 81.94。由于表情识别易受外部
16、环境干扰,Liu 等人27提出了一种新的轻量级模型来提高表情识别率。该模型将 VGG-16 与 Res-Net 有效结合起来,实现了低数据、低计算量的训练,有效减少了类内差异,在网络中取得了较好的效果。3.1.3 基于 ResNet 的静态图片识别Kaiming 等人28提出 ResNet(Residual Neural Network)残差神经网络这一架构模型。通过使用 Residual Blocks 成功训练了 152 层深的神经网络,有效缓解由网络加深所造成的梯度爆炸和梯度消失问题,提高了深度网络的训练速度。随着 ResNet 网络的出现,网络的层数得到了进一步的加深,更多的学者在原有
17、ResNet 网络的基础上做了进一步创新。Jiang、Ma 等人29-30通过引入注意机制模块增强了特征信息,提高了特征信息的识别能力。华中师范大学的郑锡聪31利用学生的面部表情信息和坐姿两种模态设计了一种改进的ResNet,即ResNet_50_v2,将该模型与VGG19模型对比发现,学生面部表情和坐姿两个单模态信息的识别准确率分别提高了 2%和 4%。Li 等人32同样将 ResNet-50 作为网络基础模型进行人脸表情识别,既降低了模型的规模,又提高了识别精度。3.2 基于 GAN 的静态图片识别生成对抗网络(generative adversarial network,GAN)33旨在
18、生成与真实数据相似的伪样本。该网络包括两个模块:生成器(generator)和判别器(discriminator)。生成器利用 2023 年第 11 期191智能技术信息技术与信息化判别器不断优化自己生成的数据,判别器通过不断学习提高自己的判别能力。二者之间的对抗过程就是生成对抗网络学习过程。利用生成对抗网络可以有效识别表情的相关信息,但是在识别过程中要注意生成对抗网络对图像身份和姿态变化等信息不太敏感。传统的神经网络无法提取较为纯净的人脸表情,因此目前大多数研究均是在传统对抗生成网络的基础上提出创新方式对学生表情进行识别。其中,纽约州立大学的 Yang 等人34利用生成对抗网络生成中性人脸表
19、情,在强调面部表情信息的同时,又减少了类内差异。Wang35在生成器网络层与判别器网络层的中间增加了一个新的辅助分类器,帮助生成器生成更接近真实样本的伪样本,在一定程度上起到了正则化的作用,提升了学生的课堂面部表情识别率。为减少数据运算量,倪铭昊、刘锦峰采用不同的方式对数据进行处理。倪铭昊36提出了轻量化问题,在网络训练过程中对网络进行修身,在精简网络的同时减少时间的消耗;刘锦峰37则使用生成对抗网络对样本数据进行扩充并采用正向传输和反向传输两种方式进行训练,该方法既降低了训练样本总量,又减少了数据存储的负荷。4 基于实时图像的识别在学习环境下,学生表情具有空间性、时序性、延续性等特征,因此通
20、过使用连续帧来识别学生表情可以获得更加精确的表情识别信息。除了卷积神经网络(CNN)对实时图像有良好识别,循环神经网络 RNN 在处理序列数据任务中也有良好表现,但在长序列训练过程中,RNN 容易产生梯度消失和梯度爆炸的问题,为解决这一问题,长短时记忆网络(LSTM)应运而生。下面将以 CNN、RNN 和 LSTM 为例对实时表情识别进行阐述。4.1 基于 CNN 的实时图像识别4.1.1 基于 MTCNN 的实时图像识别针对利用 MTCNN 进行的实时图像识别,多数研究在原有的网络模型中添加了 ECANet 注意力机制38-40,提高检测精度和速度,极大程度上避免了维度缩减,有效捕获了跨通道
21、交互。为减少提取学生面部表情特征时存在的冗余信息,Wang、Zhang 等人41-42在 MTCNN 模型输出的 5 个特征点基础上进行增加,将特征点的坐标添加到训练集中,重新训练MTCNN 模型,提高整体识别性能和教学的智能化水平。与之不同的是,张宁43根据输入图像大小对识别尺寸进行动态控制,在速度和准确率两个方面对传统的 MTCNN 模型做了创新。Zhou等人44-45则是设计轻量级的卷积神经网络模型,在精简网络的同时减少了时间消耗。4.1.2 基于改进的 ALexNet 模型的实时图像识别除了上文所提到的卷积神经网络模型,经典的 ALexNet模型也可有效用于学生表情识别46。该模型是最
22、早的现代神经网络模型,其创新主要体现在以下几方面。(1)使用了多个卷积层和池化层,极大程度上减少了参数量和计算量,有利于缓解过拟合。(2)使用 ReLU 激活函数有效缓解了梯度消失问题,更有利于模型分析。(3)采用 Dropout 正则化方法,有效减少了全连接层中的过拟合现象,提高泛化能力。(4)为加快训练速度,使用非饱和神经元和多GPU训练。目前,已有许多学者在 ALexNet 网络模型的基础上进行改进。为了获取更加准确的面部动作信息,Tang 等人47通过在课堂上的关键点捕捉学生的面部表情样本,以此来完成人脸表情识别的预训练。Zhao 等人48则是对原有模型架构进行创新,采用多通道卷积代替
23、 ALexNet 第二卷积层中的单卷积,引入全局平均池化层代替全连接层,引入批归一化提高模型的特征提取能力。同时,将特征图像中提取的特征加入到预训练模型中组合成新模型的这种方式,在一定程度上也会提高学生的表情识别效率49-50。除此之外,还可以利用ALexNet 模型与其他模型的融合进行表情识别,例如:Lin等人51结合 ALexNet 和长短时记忆(LSTM)网络对学生连续的面部表情进行分析,较单独的 ALexNet 模型来讲,结合后的模型识别准确率有大幅度提高。Shaees 等人52则是使用迁移学习在预训练网络 ALexNet 上提取特征,后将这些特征输入到通用分类器 SVM 中进行特征分
24、类,同样提高了表情分类效率。4.2 基于 RNN 和 LSTM 的实时图像识别循环神经网络(recurrent neural network,RNN)是一类用于处理序列数据的神经网络53,可以做到持续记忆。RNN有一大特点,即一个序列的隐藏层之间是有连接的,可以将输入的整个历史映射到每个输出。但在实际训练过程中,会存在因序列过长而导致的梯度消失问题。为解决这一问题,Hochreiter 等人54提出了一种特殊的循环神经网络即长短时记忆网络(LSTM),该网络结构基于梯度学习算法能够避免上述提及的梯度问题且对于存在噪声或不可压缩的输入序列数据依然可以参考时间间隔在 1000 时间步长以上的数据信
25、息。LSTM 网络由一个一个的单元模块组成,每个单元模块一般包含一个或多个反馈连接的神经元和三个乘法单元,由此输入、输出以及遗忘摒弃。循环神经网络的出现为学生表情识别提供了更多可能,2023 年第 11 期192智能技术信息技术与信息化Jaswanth 等人55提出基于循环神经网络的 3D 人脸表情检测,将 2D 人脸坐标转换为 3D 坐标,进一步提高了表情识别准确率。除此之外,采用 CNN 与 LSTM 双模型融合进行表情识别的这种方式56-59,在一定程度上避免了 RNN 在训练过程中出现的梯度消失和梯度爆炸现象,增加了表情识别稳定性。就目前研究状况而言,除了对基础模型进行创新,多模型融合
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 学生 表情 识别 研究 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。