分销赏收藏举报申诉 / 10

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于知识蒸馏的多模态融合行为识别方法.pdf

基于知识蒸馏的多模态融合行为识别方法.pdf

上传人：自信****多点

文档编号：2357565

上传时间：2024-05-28

格式：PDF

页数：10

大小：3.56MB

《基于知识蒸馏的多模态融合行为识别方法.pdf》由会员分享，可在线阅读，更多相关《基于知识蒸馏的多模态融合行为识别方法.pdf（10页珍藏版）》请在咨信网上搜索。

1、第 49卷第 10期2023年 10月Computer Engineering 计算机工程基于知识蒸馏的多模态融合行为识别方法詹健浩1，甘利鹏1，毕永辉2，曾鹏3，李晓潮1（1.厦门大学电子科学与技术学院，福建厦门 361005；2.厦门市美亚柏科信息股份有限公司，福建厦门 361016；3.厦门市公安局，福建厦门 361104）摘要：有效利用多模态数据的不同特征能够提高行为识别性能,其核心问题在于多模态融合,主要包括在数据层面、特征层面和预测分数层面融合不同模态数据的特征信息。研究在特征和预测分数 2个层面通过多教师知识蒸馏的多模态融合方法,将多模态数据的互补特征迁移到 RGB 网

2、络,以及采用不同知识蒸馏损失函数和模态组合的行为识别效果。提出一种基于知识蒸馏的多模态行为识别方法,通过在特征上采用 MSE 损失函数、在预测分数上采用 KL散度进行知识蒸馏,并采用原始的骨骼模态和光流模态的教师网络的组合进行多模态融合,使 RGB学生网络同时学习到光流和骨骼教师网络的特征语义信息和预测分布信息,从而提高识别准确率。实验结果表明,该方法在常用的多模态数据集 NTU RGB+D 60、UTD-MHAD 和 N-UCLA 以及单模态数据集 HMDB51 上分别达到90.09%、95.12%、97.82%和 81.26%的准确率,在 UTD-M

3、HAD 数据集上的识别准确率相比于单模态 RGB数据分别提升 3.49、2.54、3.21和 7.34个百分点。关键词：行为识别；知识蒸馏；多模态融合；深度学习；多教师网络开放科学（资源服务）标志码（OSID）：中文引用格式：詹健浩，甘利鹏，毕永辉，等.基于知识蒸馏的多模态融合行为识别方法 J.计算机工程，2023，49（10）：280-288，297.英文引用格式：ZHAN J H，GAN L P，BI Y H，et al.Action recognition method with multi-modality fusion based on knowledge distillation

4、J.Computer Engineering，2023，49（10）：280-288，297.Action Recognition Method with Multi-Modality Fusion Based on Knowledge DistillationZHAN Jianhao1，GAN Lipeng1，BI Yonghui2，ZENG Peng3，LI Xiaochao1（1.School of Electronic Science and Engineering，Xiamen University，Xiamen 361005，Fujian，China；2.Xiamen Meiya

5、Pico Information Co.，Ltd.，Xiamen 361016，Fujian，China；3.Xiamen Public Security Bureau，Xiamen 361104，Fujian，China）【Abstract】The multi-modality fusion method is a core technique for effectively exploring complementary features from multiple modalities to improve action recognition performance at data-，

6、feature-，and decision-level fusion.This study mainly investigated the multimodality fusion method at the feature and decision levels through knowledge distillation，transferring feature learning from other modalities to the RGB model，including the effects of different loss functions and fusion strate

7、gies.A multi-modality distillation fusion method is proposed for action recognition，whereby knowledge distillation is performed using the MSE loss function at the feature level，KL divergence at the decision-prediction level，and a combination of the original skeleton and optical flow modalities as mu

8、lti-teacher networks so that the RGB student network can simultaneously learn with better recognition accuracy.Extensive experiments show that the proposed method achieved state-of-the-art performance with 90.09%，95.12%，97.82%，and 81.26%accuracies on the NTU RGB+D 60，UTD-MHAD，N-UCLA，and HMDB51 datas

9、ets，respectively.The recognition accuracy on the UTD-MHAD dataset has increased by 3.49，2.54，3.21，and 7.34 percentage points compared to single mode RGB data，respectively.【Key words】action recognition；knowledge distillation；multi-modality fusion；deep learning；multi-teacher networkDOI：10.19678/j.issn

10、.1000-3428.0065152基金项目：福建省高校产学研联合创新项目（2022H6004）；集成电路设计与测试分析福建省高校重点实验室基金；厦门大学马来西亚研究基金（XMUMRF/2019-C4/IECE/0008）。作者简介：詹健浩（1997），男，硕士研究生，主研方向为深度学习、行为识别；甘利鹏，硕士研究生；毕永辉，学士；曾鹏，警务技术中级、学士；李晓潮（通信作者），教授、博士。收稿日期：2022-07-05 修回日期：2022-10-29 Email：开发研究与工程应用文章编号：1000-3428（2023）10-0280-09 文献标志码：A 中图分类号：TP391.4第 49

11、卷第 10期詹健浩，甘利鹏，毕永辉，等：基于知识蒸馏的多模态融合行为识别方法0概述多模态融合是将多个模态网络提取出的互补信息在特征或者预测分数层面进行融合，从而获得比单一模态网络更好的识别效果1-2。由于多模态数据是从不同来源或传感器收集的异构数据，因此它们在提供的外观、运动、几何信息、光照、遮挡、背景变化等信息方面各有特点，如 RGB 模态包含丰富的外观信息，但对遮挡、环境变化或阴影的干扰敏感3，而骨骼模态对视角、背景等变化不敏感但缺乏外观信息。因此，不同模态的优缺点可以互补4。如何融合多模态数据从而获得更好的识别效果是多模态行为识别方法的关键技术5。基于知

12、识蒸馏的多模态融合方法不仅能够充分利用多模态数据的互补优势，而且在推理阶段只需要单个 RGB 模态模型即可完成预测6，从而降低模型复杂度并提高推理速度。知识蒸馏的关键是将教师网络提取的其他模态特征信息及对动作预测结果的分布信息转移到学生网络中。MARS 网络7将光流模态教师网络和 RGB 模态学生网络的特征通过 MSE 损失函数进行知识蒸馏，并将其和学生网络的交叉熵损失函数线性组合进行训练，从而将光流的运动特征信息转移到 RGB 学生网络中。D3D 网络8在光流模态教师网络和 RGB 模态学生网络的预测分数上求 MSE 损失函数进行知识蒸馏，并将其与学生网络的交叉熵损失函数线性组合进行训练，从

13、而使学生网络学习到光流网络对动作预测结果的分布。多视角跨模态知识蒸馏网络6在骨骼模态教师网络与 RGB 模态学生网络的特征和预测分数上分别通过 L1 损失函数和 KL 散度进行知识蒸馏，并将其与学生网络的交叉熵损失函数线性组合进行训练，从而使学生网络同时学习到其他模态的特征信息和教师网络对动作预测结果的分布。这些方法都是利用单一的教师网络进行知识蒸馏，分别通过特征或预测分数的知识蒸馏将其他模态的特征和对动作预测结果的分布信息转移到学生网络上。采用多教师知识蒸馏结构进行多模态融合可以将不同模态的信息同时转移到 RGB 模态学生网络中，通过学习多个教师提取的互补模态信息，获得比单一教师网络知识蒸馏

14、更好的效果6。PERF-Net9 通过 PoseNet10从 RGB 图像中提取骨骼信息，然后叠加在 RGB 模态上作为姿势模态数据，将姿势和光流模态网络同时作为教师网络，在预测分数上分别与RGB 模态学生网络的预测分数求 MSE 损失函数进行多教师知识蒸馏。在基于压缩视频行为识别的研究中，文献 11 分别利用压缩视频编码中的 I、P帧运动向量和 P 帧残差作为教师网络的输入进行知识蒸馏，探索了不同教师网络组合对多教师知识蒸馏的影响，并通过实验发现将 I 帧作为学生网络的输入时单教师知识蒸馏比多教师知识蒸馏的识别准确率更高，而将 P 帧运动向量或 P 帧残差作为学生网络的输入进行多教师知识蒸馏

15、时可以获得更高的识别准确率。从上述研究中得到启发，本文在特征上采用MSE 损失函数、在预测分数上采用 KL 散度进行知识蒸馏，并采用原始的骨骼模态和光流教师网络的组合进行多模态融合。在与本文相似的研究中，多视角跨模态知识蒸馏网络6提取单一的姿势模态数据输入教师网络，并与 RGB 模态学生网络在特征和预测分数上分别使用 MAE 损失函数和 KL 散度同时进行知识蒸馏，而本文进一步研究在特征和预测分数上分别采用不同损失函数进行知识蒸馏的效果，最后在特征上采用 MSE 损失函数、在预测分数上采用 KL 散度同时对学生网络进行知识蒸馏。此外，本文将骨骼和光流模态网络的组合同时作为教师网络对 RGB 模

16、态学生网络进行知识蒸馏。不同于 PERF-Net9，本文仅提取原始的骨骼模态信息进行知识蒸馏，且在预测分数上采用 KL 散度、在特征上采用 MSE 损失函数，从而学习教师网络提取的其他模态数据的特征，同时采用不同模态教师网络包括光流、骨骼、红外和深度模态教师网络的不同组合对 RGB 模态学生网络进行多教师知识蒸馏。1基于知识蒸馏的多模态融合行为识别本文提出的基于知识蒸馏的多模态融合行为识别方法如图 1 所示，其中，虚线框表示 N 个模态的教师网络。各个模态教师网络都提前采用不同模态的数据进行单独训练，知识蒸馏时，教师网络的参数是固定的。对于多模态数据集 D 的训练集和测试集分别为 Dtrai

17、n和 Dtest，训练数据可表示为（X0，X1，Xk，XN）；y，其中，X0表示学生网络对应的模态数据，Xk表示第 k 个教师网络对应的模态数据，1kN N表示模态数量，y表示样本 X的标签。图 1 中的教师网络fteacherk和学生网络fstudent都采用 3D ResNeXt-101作为骨干网络，将 RGB、光流、骨骼、深度、红外等不同模态的数据，通过 3D CNN 提取时间和空间特征。为了实现语义信息的蒸馏，将4 个 Layer 的 3D ResNeXt-101 网络分为f和f两部分。例如：当特征知识蒸馏发生在网络的Layer2 层时，

18、f包含了 Layer1 和 Layer2，f包含了Layer3、Layer4 和预测分数层；当特征知识蒸馏发生在网络的 Layer3 层时，f包含了 Layer1、Layer2 和Layer3，f包含了 Layer4和预测分数层；依此类推。2812023年 10月 15日Computer Engineering 计算机工程本文所提出的基于知识蒸馏的多模态融合行为识别方法将不同模态的样本数据X1X2XkXN输入模态k对应的已单独训练好并冻结参数的教师网络fteacherk，并将X0输入未训练且可训练的相同结构的学生网络fstudent对应网络的前面部分fteach

19、erk和fstudent，得到教师网络对应的特征图Fteacherk和Fstudent，如式（1）和式（2）所示：Fteacherk=fteacherk(Xk)1 k N（1）Fstudent=fstudent(X0)（2）其中：X0为学生网络的输入模态数据；Xk(1kN）为教师网络的输入模态数据。得到教师网络和学生网络的特征图Fteacher1Fteacher2FteacherN和Fstudent后，分别输入网络fteacher1fteacher2fteacherN和fstudent后通过 Softmax温度激活函数（GSoftma

20、x）得到对应预测分数Pteacher1Pteacher2PteacherN和Pstudent，如式（3）和式（4）所示：Pteacherk=fteacherk(GSoftmax(Fteacherk)1kN（3）Pstudent=fstudent(GSoftmax(Fstudent)（4）为了实现多模态数据的知识蒸馏，使用不同的蒸馏损失函数将教师特征信息和预测分布信息传递到学生网络中。在特征知识蒸馏过程中，使用教师网络构建语义特征，并将这些特征作为知识转移到学生网络对应网络层，从而产生特征监督信息。通过最小化 MSE 损失函数将教师网络和学生网络对应网络层次提取到的语义特征进行

21、知识蒸馏，从而更好地利用多模态数据的互补优势。第k个模态教师网络与学生网络之间的 MSE 损失函数Lfeatk如式（5）所示：Lfeatk=X Dtrain(Fteacherk-Fstudenet)2 1 k N（5）在预测分数上，通过 KL散度使学生网络模仿学习多个教师网络对行为预测结果的分布，第k个模态教师网络与学生网络之间的 KL 散度LKLDk如式（6）所示：LKLDk=X DtrainPteacherkloga(PteacherkPstudent)1 k N（6）其中：Pteacherk是第k个模态教师网络通过 Softmax 温度激活函数后得到的软标签；Pstudent是学生网络通

22、过Softmax 温度激活函数后得到的软标签。引入Softmax 温度激活函数是为了使预测分数的概率分布更平滑11，避免出现除正确类别之外其他类别预测概率都接近于零分布的情况，从而提供更多教师网络预测结果中与正确类接近的类信息，改善知识蒸馏的 KL散度对齐效果。Softmax温度激活函数如式（7）所示11：Pi=exp(zi/T)j=1nexp(zj/T)（7）其中：n表示分类数；zi表示 Softmax温度激活函数前网络对第i类行为的预测值；T 为温度系数，T 越大，输出的类别分布越平滑。本文将 Softmax 温度激活函数的输出 Pi作为软标签与学生网络对应软标签

23、进行知识蒸馏，使学生网络预测结果的分布尽可能接近教师网络对行为其他模态输入预测结果的分布。将学生网络预测分数通过 Softmax 温度激活函数后作为 q（x）与标签 p（x）求交叉熵损失函数Lcls，将交叉熵损失函数与学生网络和所有教师网络的 MSE损失函数和 KL散度进行线性组合，构成本文设计的图 1基于知识蒸馏的多模态融合行为识别方法Fig.1Action recognition method with multi-modality fusion based on knowledge distillation282第 49卷第 10期詹健浩，甘利鹏，毕永辉，等：基于知识蒸馏的多模态融合行

24、为识别方法基于知识蒸馏的多模态融合行为识别方法中总体的损失函数L，如式（8）所示：L=k=1N(featkLfeatk+KLDkLKLDk)+clsLcls（8）其中：featk和KLDk是调节第k个模态教师网络与学生网络之间损失函数的权重系数；cls用于调整交叉熵损失函数的权重系数，这些权重在实验部分中的作用是平衡各损失函数值，使其基本保持一致2实验与结果分析2.1相关数据集本文实验采用的行为识别数据集包括多模态数据集 NTU RGB+D 60（NTU 60）12、UTD-MHAD13、Northwestern-UCLA Multiview Action 3D（N-UCLA）14以及常用的单

25、模态数据集 HMDB5115。NTU 6012数据集由 3 台 Microsoft Kinect v2 相机采集，包含 60 类动作共 56 880 个样本，其中含有40 个受测者的 RGB、深度、3D 骨骼和红外模态数据，包含 2 个性能评价标准：CS（Cross-Subject）和CV（Cross-View），CS 按人物来划分训练集和测试集，而 CV按相机来划分训练集和测试集。UTD-MHAD13数据集由 Kinect 摄像头和可穿戴惯性传感器在室内环境中收集，包含 27类动作共861 个视频样本，8 名受试者各重复动作 4 次。在实验中，来自受试者 1、3、5、7的样本数据用于训练，来

26、自受试者 2、4、6、8的样本数据用于测试。N-UCLA14是一个多视角多模态数据集，由 3个Kinect摄像头同时捕捉并由 10 名受试者执行多次。N-UCLA 包含 1 494 个视频序列共 10 个日常动作类别，包含 3 个视角（View1、View2 和 View3）16的RGB、深度和 3D 骨骼模态等 3 种模态数据，以视角划分训练集和测试集。HMDB5115数据集主要来源于网站视频或电影，共有 51 类人体行为的 6 849 个视频，每个动作至少包含 51 个视频，视频分辨率为 320240 像素，动作类型主要包括面部动作、肢体动作、交互动作

27、等。2.2训练过程在网络训练阶段，采用多教师知识蒸馏结构11。首先分别输入光流、骨骼、深度和红外模态数据训练对应网络作为教师网络，然后在知识蒸馏阶段加载训练好的教师网络并将其参数冻结，使知识蒸馏时不会更新教师网络的参数，并将教师网络与学生网络在特征和预测分数上分别求 MSE 损失函数和 KL 散度进行知识蒸馏。在网络测试阶段，仅需将 RGB 模态数据输入到训练好的学生网络中即可。在多模态数据上，将 RGB 模态作为学生网络的输入数据模态，将光流、深度、红外和骨骼模态作为教师网络的输入数据模态。在多模态行为识别数据集上通过将 3D骨骼模态的 x、y轴的坐标按关节点之

28、间的关系绘制成 2D 图像作为骨骼模态，而在常用的单模态行为识别数据集 HMDB51上通过 Openpose17将 RGB模态转换成相应的骨骼模态。在知识蒸馏的损失函数权重feat、KLD和cls的设置上，单教师网络情况下通过调整这几个权重使得 MSE 损失函数、KL 散度和交叉熵损失函数基本相等，多教师网络情况下通过调整这几个权重使得多个教师网络 MSE 损失函数之和、KL 散度之和与交叉熵损失函数基本相等。T 的设置与二阶段教师学生网络6相同，设为 2，其他实验设置均与骨干网络7保持一致。2.3消融实验在消融实验中，HMDB51 和 N-UCLA 数据集分别采用最常用的指标，即 HMDB5

29、1 数据集官方提供的第一个划分 Split1 和 N-UCLA 的 View3 指标进行实验和对比，而NTU 60采用最常用的CS指标进行实验。本文采用骨干网络 3D-ResNeXt-10118在各个数据集中单一模态网络的识别准确率如表 1 所示，文献 19-20 方法在各数据集中单一模态网络的识别准确率如表 2所示。将表 1中单一 RGB 模态网络作为基线与后续多模态融合的性能进行对比，而训练好的光流、骨骼、红外和深度模态在后续实验作为教师网络。由于 HMDB51、UTD-MHAD 和 N-UCLA没有红外模态，同时 HMDB51 没有深度模态数据，在此并没有列出相关结果。表 2列出了其他多

30、模态融合方法在各个数据集中单一模态网络的识别准确率。表1本文方法在各数据集中单一模态网络的识别准确率 Table 1Recognition accuracy of single modality network on each dataset by the method in this paper%模态RGB光流骨骼红外深度NTU 6086.6087.2881.4786.5188.92HMDB5174.5776.2143.99UTD-MHAD92.5890.2389.0791.16N-UCLA94.6169.9380.3991.292832023年 10月 15日Computer Engine

31、ering 计算机工程2.3.1 知识蒸馏在网络不同位置的影响由于网络的不同位置代表不同层次的语义信息，为了进一步探索在不同层次语义信息对应的特征上进行知识蒸馏的效果，分别在骨干网络的不同分层7的特征上对教师网络和学生网络进行知识蒸馏。本文的教师网络和学生网络采用相同的网络结构7来提取不同模态的特征信息，并在对应特征上采用 MSE 损失函数进行知识蒸馏，效果如表 3所示。其中，Layer4、Layer3、Layer2 是 3D-ResNeXt-101网络的网络分层18，Layer4 对应高层次语义信息，Layer2对应低层次语义信息，All代表在上述所有分层中都进行了知识蒸馏。从表 3 中可以

32、看出，在网络高层次语义信息 Layer4层的特征进行知识蒸馏的效果好于在网络其他分层包括多个分层同时进行知识蒸馏的效果，同时，在 Layer4层进行知识蒸馏的效果还好于单独在预测分数层进行知识蒸馏的效果。知识蒸馏时式（1）中温度系数 T 对知识蒸馏效果的影响如表 4 所示。从表 4 中可以看出，当温度系数 T=2 时。在 N-UCLA 和 UTD-MHAD 数据集中效果最好，可以分别取得 95.86%和 94.88%的识别准确率。2.3.2 知识蒸馏的损失函数构成为了研究采用包括 MAE、MSE、MMD、KL 散度等不同的损失函数将教师网络提取的其他模态特征信息及对动作预测结果的分布信息转移到

33、学生网络中的效果，比较在骨干网络 Layer418输出的特征上以及预测分数上采用不同损失函数进行知识蒸馏对识别性能的影响，结果如表 5 所示。实验采用光流作为教师网络进行知识蒸馏，在特征上讨论 MAE和MSE损失函数、在预测分数上讨论 MSE、MMD 损失函数和 KL 散度进行知识蒸馏的效果。从表 5 中可以看出，在特征上采用 MSE 损失函数进行知识蒸馏的效果较好，在预测分数上采用 KL散度进行知识蒸馏的效果较好，而同时在特征和预测分数上采用这2 种方法进行知识蒸馏的效果最好，因此，本文的设计同时在特征上采用 MSE 损失函数、在预测分数上采用 KL散度进行知识蒸馏，使学生网络学习不同模态的

34、特征信息和教师网络对动作预测结果的分布。2.3.3 采用骨骼模态进行知识蒸馏的效果不同于将骨骼信息叠加在 RGB 模态上的姿势模态9，本文将原始骨骼信息作为骨骼模态并研究采用骨骼模态教师网络对 RGB 学生网络进行知识蒸馏的效果，如表 6所示。其中，单一骨骼模态网络的识别准确率仅为 43.99%，远低于单一姿势模态网络的 71.96%，但采用骨骼模态作为单一教师网络的输入进行知识蒸馏的识别准确率达到了 78.37%，高于姿势模态对应的 77.52%，证明了原始的骨骼模态信息的有效性。表2其他方法在各数据集中单一模态网络的识别准确率 Table 2Recognition accuracy of

35、single modality network on each dataset by other methods%方法Two-Stream19Hybrid20模态深度骨骼RGB深度NTU 6089.0979.80UTD-MHAD87.8885.35N-UCLA86.2989.96表 4温度系数对知识蒸馏效果的影响 Table 4The effect of temperature coefficient on knowledge distillation%温度系数124N-UCLA92.8195.8694.77UTD-MHAD93.4994.8893.02表 3NTU 60数据集中在网络不同位置

36、进行知识蒸馏的效果Table 3Effect of knowledge distillation in different locations on the network on NTU 60 dataset%模态RGB+光流RGB+骨骼RGB+红外RGB+深度预测分数87.8887.8487.5487.98Layer488.1688.0487.7288.30Layer387.3687.5787.4387.54Layer287.5987.7187.3987.46All87.3087.5887.6887.78表 5不同损失函数进行知识蒸馏的效果 Table 5Effect of differen

37、t loss functions on knowledge distillation%数据集UTD-MHADNTU 60N-UCLA特征MAE93.6787.9894.99MSE93.9588.1695.64预测分数KL94.4288.5395.21MSE93.7287.8894.55MMD94.1987.9995.21特征+预测分数MSE+KL94.8888.8095.86表 6姿势和骨骼模态进行知识蒸馏的效果 Table 6Effect of pose and skeleton modalities on knowledge distillation%模态RGB姿势骨骼RGB+姿势RGB+

38、骨骼HMDB5174.5771.9643.9977.5278.37284第 49卷第 10期詹健浩，甘利鹏，毕永辉，等：基于知识蒸馏的多模态融合行为识别方法2.3.4 多模态融合的效果采用多教师结构进行多模态融合相比于采用单一教师网络进行多模态融合可以使识别准确率获得进一步提升，但由于不同教师网络的不同组合对多教师知识蒸馏的影响各不相同，因此进一步研究采用多教师知识蒸馏方法进行多模态融合的效果，包括不同模态单教师网络与 RGB 学生网络进行多模态融合的效果以及采用光流、骨骼、红外和深度 4个不同教师网络的不同组合进行多模态融合的效果，如表 7所示，其中加粗表示最优数据。从表 7 中可以看出：

39、对于光流和骨骼模态而言，在所有 4个数据集中光流和骨骼模态作为教师网络与 RGB 模态通过知识蒸馏进行多模态融合都可以获得很好的性能提升，并且当光流和骨骼模态同时作为教师网络进行多模态融合时在所有数据集中都可以达到最好的效果；对于红外模态，在 NTU 60 数据集中进行多模态融合获得了一定的性能提升，但是由于其他数据集没有提供红外模态，因此对于红外模态的研究还需要进一步深入；对于深度模态，采用单教师网络进行知识蒸馏时，在 NTU 60和N-UCLA数据集中效果较好，但在UTD-MHAD数据集中效果较差，而采用多教师知识蒸馏结构时，在 NTU 60 和N-UCLA 数据集中效果较差，在 UTD-

40、MHAD 数据集中准确率反而下降。实验结果表明，光流和骨骼模态的组合作为教师网络的输入进行多教师知识蒸馏的效果最好，初步说明 RGB、光流和骨骼 3个模态数据的互补性较好。同时，在表 7 采用多模态知识蒸馏方法进行多模态融合的实验结果中，当骨骼模态进一步作为教师网络之一进行多模态知识蒸馏时行为识别准确率都得到了有效的提升，如 RGB+光流+骨骼相比于 RGB+光流在各数据集上分别提升 1.29、0.26、0.24 和 1.96 个百分点，RGB+骨骼+深度相比于RGB+深度在 NTU 60、UTD-MHAD 和 N-UCLA 上分别提升了 0.08、0.23、0.24和 1.31个百分点。为了

41、更好地分析本文提出的基于知识蒸馏的多模态融合行为识别方法的效果，对在 RGB、光流、骨骼、红外和深度每个模态上训练的单一模型以及表 7 中典型的几个多教师知识蒸馏模型采用Grad-CAM21进行可视化，如图 2 所示，图中 F、S 和D 分别代表光流、骨骼和深度，P 代表模型对该动作的预测分数，每个动作的第 1行是对应模型的输入，对于知识蒸馏模型，输入为学生网络对应的 RGB 模态数据，第 2行是模型响应的热力图。可以看出，对各模态单一模型，热力图覆盖的区域都有所不同，说明对于不同模态数据，网络聚焦于不同的区域。对于图中“读书”动作，RGB 和深度模型对行为的预

42、测分数分别为 0.026 3和 0.043 7，产生了错误的预测，而光流、骨骼和红外模型预测分数分别为 0.579 5、0.788 3 和 0.927 2，预测正确，在进行跨模态多教师知识蒸馏后，RGB+光流的预测分数为 0.087 6，效果并未得到明显的改善，而同时采用光流和骨骼进行知识蒸馏后预测分数达到了 0.821 2，获得了正确的预测；对于“刷牙”动作，RGB 和光流模型对行为产生了错误的预测，预测分数分别为0.003 3和0.092 7，进行跨模态多教师知识蒸馏后，RGB+光流的预测分数为 0.093 9，效果并未得到明显的改善，而同时采用光流和骨骼进行知识蒸馏

43、后，预测分数达到0.582 9，获得了正确的预测；在图中“头痛”动作中，单一的 RGB、骨骼和红外模型预测分数分别为0.314 2、0.193 6 和 0.091 7，对行为产生了错误的预测，进行跨模态多教师知识蒸馏后，RGB+光流对该类的预测分数提升到了 0.684 3，RGB+光流+骨骼对该类的预测分数提升到 0.993 8，且热力图覆盖效果较好。可视化结果表明，光流和骨骼模态的组合作为教师网络进行多教师知识蒸馏的效果最好。结合上述消融实验，本文提出的基于知识蒸馏的多模态融合行为识别方法采用 MSE 损失函数在骨干网络的 Layer4 层输出的特征

44、上进行知识蒸馏，采用 KL散度在预测分数上进行知识蒸馏，同时采用光流和骨骼模态的组合作为多教师网络对 RGB 模态学生网络进行多教师知识蒸馏。表 7基于知识蒸馏的多模态融合行为识别方法的识别准确率 Table 7Recognition accuracy of multi-modal fusion behavior recognition method based on knowledge distillation%模态RGB光流骨骼红外深度RGB+光流RGB+骨骼RGB+红外RGB+深度RGB+光流+红外RGB+光流+骨骼RGB+光流+深度RGB+骨骼+深度RGB+红外+深度NTU 6086.

45、6087.2881.4786.5188.9288.8088.6188.5388.7789.0690.0989.1188.8588.45HMDB5174.5776.2143.9980.1378.3780.39UTD-MHAD92.5690.2389.0791.1694.8893.2692.7995.1294.1993.02N-UCLA94.6169.9380.3991.2995.8695.8695.6497.8296.0896.952852023年 10月 15日Computer Engineering 计算机工程2.4主流数据集上多模态融合研究的实验对比实验主要就本文提出的基于知识蒸馏的多模态

46、融合行为识别方法在主流的多模态数据集 NTU 60、UTD-MHAD 和 N-UCLA 以及主流的单模态数据集HMDB51中与其他多模态融合算法进行综合实验对比。其中，NTU 60 数据集中使用 CS 和 CV 指标，N-UCLA 数据集中使用最常用的 View3 指标，HMDB51 数据集中使用 3 个 Split 的平均准确率指标。基于 NTU 60 数据集的多模态融合方法识别准确率对比如表 8 所示，其中，第 1 行 3D-ResNeXt-101是 RGB 单模态网络的识别准确率，作为多模态识别准确率提升的对比基准。本文方法对应的 CS、CV指标分

47、别为 90.09%和 94.00%，相比于基准分别提升3.49 和 1.13 个百分点，与其他方法相比也达到了较高的识别准确率。值得注意的是，表格中对比的其他方法19，22-25都是采用多流融合的方法，即在测试阶段同时输入多个模态数据，计算并融合多个模态网络的特征或预测分数，而本文所提出的基于知识蒸馏的多模态融合行为识别方法，在测试阶段只需要使用 RGB 模态数据，不但降低了测试阶段的计算复杂度，而且获得了较高的识别准确率。准确率对比证明了本文提出的基于知识蒸馏的多模态融合行为识别方法能够很好地将多模态特征的互补优势融合到 RGB模态网络中。基于 HMDB51数据集的多模态融合方法识别准确率对

48、比如表 9 所示，其中，第 1 行 3D-ResNeXt-101是 RGB单模态网络的识别准确率，第 2行 LGD-3D26使用 ResNet-101 作为骨干网络，并采用 RGB 和光流融合的方法，它们作为多模态知识蒸馏方法实验的表 8NTU 60数据集上多模态融合方法识别准确率对比 Table 8Comparison of accuracy by the multi-modality fusion methods on NTU 60 dataset%方法3D-ResNeXt-101MFAS22MMTM23Two-stream19IntegralAction24Fusion25本文方法RGB

49、光流骨骼红外深度CS86.6090.0490.1191.1391.7091.8090.09CV92.8794.3194.9094.00图 2单模态模型与多模态知识蒸馏模型的可视化图Fig.2Visualization charts of single-modality models and multi-modality models based on knowledge distillation286第 49卷第 10期詹健浩，甘利鹏，毕永辉，等：基于知识蒸馏的多模态融合行为识别方法对比基准。表格中的数据对比采用常用的 3 个 Split准确率的平均来表示，例如本文方法 3 个 Split

50、指标的准确率分别为 80.39%、82.03%和 81.37%，平均准确率为 81.26%，相比于基准提升了 7.34 个百分点。表 9 中 MARS7和 D3D8网络都是研究 RGB 和光流的多模态融合，MARS7在特征上通过 MSE 损失函数进行知识蒸馏；D3D8在预测分数上通过 MSE 损失函数进行知识蒸馏。本文方法同时在特征上使用MSE 损失函数，在预测分数上使用 KL 散度进行知识蒸馏，并取得了优于 MARS7和 D3D8网络的性能，准确率与之相比分别提升了 1.96 和 2.56 个百分点。本文方法在 HMDB51 上通过 Openpose17将RGB 模态转换成相应的

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于知识蒸馏多模态融合行为识别方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。