基于改进YOLOv5的课堂人脸表情检测.pdf
《基于改进YOLOv5的课堂人脸表情检测.pdf》由会员分享,可在线阅读,更多相关《基于改进YOLOv5的课堂人脸表情检测.pdf(7页珍藏版)》请在咨信网上搜索。
1、 收稿日期:2023-11-28基金项目:本文系北京市自然基金项目-北京市教委科技计划重点项目(KZ202010015021)、北京市高教学会教改(22150223021)研究成果。通信作者:王佳第 32 卷 第 3 期Vol.32 No.3北 京 印 刷 学 院 学 报Journal of Beijing Institute of Graphic Communication2024 年 3 月Mar.2024基于改进 YOLOv5 的课堂人脸表情检测马 森,王 佳,李 旸,曹少中(北京印刷学院 信息工程学院,北京 102600)摘 要:针对课堂场景下,学生的面部表情“多目标”“小目标”的检测
2、效果较差,出现误检、漏检等现象,本文提出一种改进 YOLOv5 的课堂人脸表情检测算法 YOLOv5-SWIN。首先,使用 Swin Transformer 作为模型的主干特征提取网络,增强全局信息感知,进一步增强目标的语义信息;其次,引入 CBAM 注意力机制融合到特征提取网络中,以便更好地提高检测精度;最后,使用 NWD 损失函数,使得模型有效地降低对“小目标”检测的敏感性,进而提升模型的鲁棒性。在自主搭建的大规模课堂场景下利用学生人脸表情数据集进行实验,实验结果表明该方法能够快速、准确地识别学生的面部表情,改进后的模型在自建数据集上准确率提升 4%,达到 82.1%。关键词:人脸表情;Y
3、OLOv5;NWD;Swin Transformer中图分类号:TP3文献标识码:A文章编号:1004-8626(2024)03-0038-07 近些年来,随着互联网技术、大数据、云技术和AI(人工智能)等新兴技术的发展,基于深度学习的 AI 算法愈发成熟,人脸表情识别也成为当前深度学习领域的研究热点。人脸表情是人类表达内心情感最普遍的信号之一,11868 年,世界著名心理学家 A.Mehrabian 研究发现,人类在进行情感表达时,主要由三部分组成。2其中语言占比只有7%,声音占比38%,人脸表情有着高达55%的表达情感占比,可见人脸表情对于人们日常交流中的情感传递有着非常重要的作用。美国心
4、理学家 Ek-man 经研究将人类的情感归类,有愤怒、高兴、惊讶、悲伤、厌恶、恐惧 6 类,每种表情都可以反映出其内在的心理活动,通过面部表情可以准确识别人的心理情绪。3目前来说,学校课堂教学方式还是多以班级为单位,由于存在学生的个体差异,每个学生的学习状态都不相同,这样老师就不能及时了解到每个学生的课堂学习状态,更无法照顾得到所有学生的学习情况,学生听课流露的表情能够有效反映出学生的听课效果,是非常重要的评价标准。4借助基于深度学习的目标检测算法,通过检测学习者的面部表情获取听课状态,用以提高教学质量已经成为一种必然趋势。5目前目标检测领域的研究方向以传统的目标检测算法和如今主流的基于深度学
5、习的目标检测算法这两类为主。前者存在精度不高,处理速度慢的弊端,在处理复杂场景和小目标时,往往存在较高的误检和漏检率。这主要是由于传统算法使用的特征提取方法对目标的表达能力有限,难以准确地捕捉目标的细节和上下文信息。随着 2012 年AlexNet 的提出,卷积神经网络(CNN)作为热点出现在大家视野中,应用到目标检测方向带来了历史性的突破。6-7以 CNN 为基础可以更好地提取特征,算法的鲁棒性好,检测网络收敛的速度更快,同时算法模型的泛化能力也更强。基于深度学习的目标检测算法主要分为两大类,一类是以由 Gir-shick 等先后提出了以 R-CNN、Fast R-CNN、Faster R-
6、CNN 等为代表的两阶段目标检测算法,8-10R-CNN 使用 Selective Search 算法从输入图像中生成多个候选框,即为可能包含目标物体的区域,对于每个候选框,R-CNN 将其区域从原始图像中提取出来,并通过卷积神经网络提取特征,提取的特征被输入 SVM 分类器中,以确定该候选框内是否包含目标物体,并将其分为目标类别的概率,同时,R-CNN 还进行边界框回归,通过对候选框进行微调,以更准确地框出目标物体的位置,最后进行NMS 操作,即非极大值抑制,得到最终的结果。R-CNN 提高了目标的检测准确率,检测精度高,但是特征提取过程花费时间太长、数据量大的问题导致算法效率较低。于是,R
7、edmon 等提出了 YOLO(You Only Look Once)目标检测算法,11作为单阶段的代表,其原理不需要生成候选框,而是直接对目标进行分类和回归操作,随后基于 YOLO 改进的YOLOv3、YOLOv4、YOLOv5 对模型进行了优化,从而提 高 了 目 标 检 测 算 法 的 检 测 速 度 和 检 测精度。12-13在 YOLO 系列算法发展的同时 Transformer 模型也经历了不断的迭代,14Transformer 是一种基于自注意力机制的编、解码器,是自然语言处理领域的主流模型。2020 年 Dosovitskiy 等人提出的ViT 使 Transformer 进入
8、了计算机视觉领域,15应用于图像分类、识别等任务中,相比 CNN,Trans-former 有着上下文感知能力,Transformer 中的自注意力机制能够将每个位置的表示与其他位置进行关联,可以获得全局特征。随后 Liu 等人提出了Swin Transformer 模型,16通过滑动窗口机制可以有效地降低模型的计算量和更好地实现窗口间交互信息,以便获得全局的语义信息。为了解决课堂场景下,“多目标”“小目标”的学生人脸表情识别准确率较低,教室摄像头的位置摆放带来的学生面部不全面、遮挡导致的误检、漏检等问题,本文提出一种基于改进 YOLOv5-s 的课堂人脸表情检测方法,以提高学生人脸表情的检测
9、精度。1 相关理论YOLOv5 目标检测算法主要由输入端、骨干网络、特征融合以及输出端四部分组成,按照模型的权重、参数量的不同,发布了大小为 s、m、l、x 的 4个版本,本文采用最小的 YOLOv5-s 版本进行改进。输入端主要对图像数据进行预处理操作,如Mosaic 数据增强技术,通过随机选择四张图片进行拼接,可以增加数据的多样性,有助于提高模型的目标检测效果,可以在不增加显存的情况下提高batch 大小,从而更好地利用 GPU 的计算资源,还可以对不同图像进行混合,使模型更好地泛化到新场景和数据分布上,提高模型的性能。YOLOv5-s 以 CSPDarknet 为主干网络,用于提取特征,
10、主要由 Focus、CSP 和 SPP 模块三个部分构成。其中,Focus 模块作为骨干网络的一部分,用于处理输入图像。它通过使用类似于空洞卷积(dilated convolution)的方式,将输入特征图进行下采样。这种下采样方式使得模型能够同时感知到局部细节和全局信息,从而提高了目标检测的准确性。接下来由 CSP 和 SPP 模块负责增加网络的深度,以 实 现 更 强 大 的 特 征 提 取 能 力。相 较 于YOLOv4 的 Darknet 减少了模型的大小及计算量,提升了模型的检测精度。特征融合模块继续沿用了 YOLOv4 的多尺度特征融合方式,通过自顶向下和自底向上的方式语义信息和路
11、径聚合结构来传递定位信息,提高了特征层之间的交互性,对提取到的有效特征层信息进行交互融合,从而进一步提高模型的检测性能。输出端中的损失包括分类和回归两部分,YOLOv5 模型的损失函数为 CIOU Loss,在目标检测后的处理过程中,使用 NMS 筛选预测框,提高识别目标的准确率。2 改进的 YOLOv5-s 算法原始的 YOLOv5-s 算法网络在课堂场景下,学生相对位置很集中,学生的人脸表情比较密集且目标比较小,容易出现误检和漏检等情况。为了进一步提高 YOLOv5-s 算法在课堂学生表情检测中的性能,本文引入基于滑窗操作的多头自注意力机制。Swin Transformer 模块作为主干特
12、征提取网络,替换原始的 CSPDarknet,这样可以使模型学习到更多全局特征信息以及局部特征信息之间的联系。改进后的模型结构如图 1 所示。图 1 改进的 YOLOv5-Swin 算法结构93第 3 期马 森,王 佳,李 旸,等:基于改进 YOLOv5 的课堂人脸表情检测2.1 主干网络改进针对数据集中“多目标”“小目标”容易导致学习不充分的问题,本文将 Swin Transformer 模块集成到 YOLOv5-s 算法中作为 backbone,Swin Trans-former 的网络结构如图 2 所示,其工作原理为将输入尺寸为 HW3 的图像送入 patch partition 层,将
13、图像的每 44 的像素打包成一个 patch,并沿着通道方向进行拉伸,图像的维度变为 H/4W/448,然后通过 linear embeding 层对图像每个像素的通道做线性变换,图像的维度变为 H/4W/4C,送入多个组合的 Swin Transformer Block 中,每个组合的 Swin Transformer Block 通过 patch embeding 层进行图像的下采样,将 22 的相邻像素合并为一个 patch 做 concat 处理,使特征图的尺寸减小一半,最后再通过一个 layer normalization 层进行归一化。图 2 Swin Transformer 网络
14、结构Swin Transformer Block 包含两个子模块,分别引入了基于窗口的多头自注意力机制 W-MSA 和具有窗口间信息交互的滑动窗口自注意力机制SW-MSA。另外每个子模块中还有两个归一化(LN)层和一个 MLP 层,模块之间通过残差连接。其结构如图 3 所示。基于窗口的多头自注意力机制的计算过程如下:Attention(Q,K,V)=softmaxQKTdk+B()V(1)其中,Attention 表示注意力,Q,K,V 分别为查询、键和值的向量,d 为特征图的通道数,B 代表像素间的相对位置偏差,引入 B 可以保持各个像素间的位置信息,使得结构能够更好地提取特征。同时,基于窗
15、口的方式进行局部计算,大大降低了模型的计算量。而 SW-MSA 模块通过滑动窗口还可以实现不同窗口间的信息交互,以便获取到全局特征。图 3 Swin Transformer Block2.2 CBAM 注意力机制由于模型训练过程中,特征图的宽高比、通道数会在不同阶段缩放,这样会使特征图中产生一些冗余特征,较多的冗余特征会影响模型训练的准确率,而且还会增加网络的计算量,浪费机器计算资源。所以,为了在神经网络中更好地提取目标图像的特征,注意力机制是可以作为一种提高神经网络特征表达能力的机制,通俗来说就是用来告诉神经网络需要格外关注的特征信息。本节中所使用的是 CBAM(Convolutional
16、Block Attention Module)注意力机制,它融合了通道和空间的注意力两个模型,实现了通道注意力与空间注意力的双机制,所增加的计算消耗也可以忽略不计,有助于提高模型训练中提取特征的能力。其网络结构如图 4 所示。图 4 CBAM 网络结构通道注意力模型 CAM,如图 5 所示,对上层得04北 京 印 刷 学 院 学 报2024 年到的输入特征信息按照宽、高的平均最大池化和平均最大池化,然后传输到共享 MLP 中,通过组合各个通道获取通道注意力的权重,然后再进行归一化处理,获得通道注意力的特征图。数学表达式如下:Mc(F)=(MLP(AvgPool(F)+MLP(MaxPool(F
17、)=W1W0Fcavg()()+W1W0(Fcmax)()()(2)图 5 CAM 注意力模块 空间注意力 SAM,如图 6 所示,将上述 CAM得到的特征图作为输入先进行最大池化和平均池化,得到两个大小为 HW1 的特征图,然后按通道进行拼接,再经过一个 77 的卷积操作降维到HW1,最后利用 sigmoid 激活函数归一化得到空间注意力的特征图。其数学公式如下:Ms(F)=f77(AvgPool(F);MaxPool(F)()=f77Fsavg;Fsmax()()(3)图 6 SAM 注意力模块2.3 损失函数的改进基于 IoU 来度量小目标的位置偏差非常敏感,会导致很多预测框的 IoU
18、低于预先定义的阈值,出现漏检、误检等现象,并且在用于基于锚框的检测器中时会大大降低检测性能。为了缓解这一现象,文献18提出了一种使用 Wasserstein 距离进行微小物体检测的新评估指标。该距离计算公式如下:NWD(Na,Nb)=exp-W22Na,Nb()C()(4)其中,C 为常数,Na、Nb分别为边界框 A=(cxa,cya,wa,ha)和 B=(cxb,cyb,wb,hb)建立的高斯分布,经过计算得到距离度量 W22(Na,Nb),具体计算方法如公式(5)所示:W22=cxa,cya,wa2,ha2T,cxb,cyb,wb2,hb2T()22(5)与 IoU 相比,NWD 对于检测
19、小目标的尺度不敏感,同样能够测量出两个边界框重叠程度较小或者非重叠边界框之间的相似度。因此,结合课堂场景下,学生表情“多目标”“小目标”的情况,使用NWDLoss 检测性能可以出现明显提升。3 实验3.1 实验环境本文实验在 Windows11 系统下,CPU 为 Intel Xeon Silver4210,主频2.2GHz,内存为32G,GPU 为NVIDIA GeForce RTX 3090,显存大小 24GB,Py-thon3.8,CUDA 版本为 11.3,使用 Pytorch1.8.1 深度学习框架进行训练。本文使用了原始 YOLOv5 算法在 coco 数据集上获得的预训练模型 Y
20、OLOv5-s 权重,用于初始化主干网络部分的权重,来加快算法模型的训练速度。为了保证实验数据的可靠性,本实验总共训练200 个 epoch,前 50 个 epoch 为冻结训练,后 150 个为解冻训练,训练参数设置如下:图像尺寸调整为640640;batch _size 大小设置为 4,学习率为1e-2,预测框的置信度阈值设置为 0.01,IoU_NMS阈值设置为 0.3。经上述实验配置所得到的实验数据如图 7、图 8 所示。3.2 数据集介绍本文实验采用自建的数据集以及公开的目标14第 3 期马 森,王 佳,李 旸,等:基于改进 YOLOv5 的课堂人脸表情检测图 7 Loss 曲线图图
21、 8 实验结果 mAP检测数据集 VOC2007 进行算法模型的训练。自建数据集为某学校智慧课堂在课程中的录像,大约四十名学生的课堂,通过视频拆帧截取一共 112233张图像,大小约为 12.7G。并使用 lebalimg 为截取到的图像中的人脸表情进行标注,生成标签的 xml文件,所以还需要对数据进行预处理,将标签转化为 VOC 格式的文件,进行模型网络训练。人脸表情数据集的标签主要分为四类 happy、disgust、con-fused、other 等,数据集按 9 1 的比例划分训练集和测试集。3.3 评价指标为了评估改进的 YOLOv5-SWIN 算法对课堂人脸表情识别的检测效果,本文
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 YOLOv5 课堂 表情 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。