基于知识蒸馏的多模态融合行为识别方法.pdf
《基于知识蒸馏的多模态融合行为识别方法.pdf》由会员分享,可在线阅读,更多相关《基于知识蒸馏的多模态融合行为识别方法.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 10期2023年 10月Computer Engineering 计算机工程基于知识蒸馏的多模态融合行为识别方法詹健浩1,甘利鹏1,毕永辉2,曾鹏3,李晓潮1(1.厦门大学 电子科学与技术学院,福建 厦门 361005;2.厦门市美亚柏科信息股份有限公司,福建 厦门 361016;3.厦门市公安局,福建 厦门 361104)摘要:有效利用多模态数据的不同特征能够提高行为识别性能,其核心问题在于多模态融合,主要包括在数据层面、特征层面和预测分数层面融合不同模态数据的特征信息。研究在特征和预测分数 2个层面通过多教师知识蒸馏的多模态融合方法,将多模态数据的互补特征迁移到 RGB 网
2、络,以及采用不同知识蒸馏损失函数和模态组合的行为识别效果。提出一种基于知识蒸馏的多模态行为识别方法,通过在特征上采用 MSE 损失函数、在预测分数上采用 KL散度进行知识蒸馏,并采用原始的骨骼模态和光流模态的教师网络的组合进行多模态融合,使 RGB学生网络同时学习到光流和骨骼教师网络的特征语义信息和预测分布信息,从而提高识别准确率。实验结果表明,该方法在 常 用 的 多 模 态 数 据 集 NTU RGB+D 60、UTD-MHAD 和 N-UCLA 以 及 单 模 态 数 据 集 HMDB51 上 分 别 达 到90.09%、95.12%、97.82%和 81.26%的准确率,在 UTD-M
3、HAD 数据集上的识别准确率相比于单模态 RGB数据分别提升 3.49、2.54、3.21和 7.34个百分点。关键词:行为识别;知识蒸馏;多模态融合;深度学习;多教师网络开放科学(资源服务)标志码(OSID):中文引用格式:詹健浩,甘利鹏,毕永辉,等.基于知识蒸馏的多模态融合行为识别方法 J.计算机工程,2023,49(10):280-288,297.英文引用格式:ZHAN J H,GAN L P,BI Y H,et al.Action recognition method with multi-modality fusion based on knowledge distillation
4、J.Computer Engineering,2023,49(10):280-288,297.Action Recognition Method with Multi-Modality Fusion Based on Knowledge DistillationZHAN Jianhao1,GAN Lipeng1,BI Yonghui2,ZENG Peng3,LI Xiaochao1(1.School of Electronic Science and Engineering,Xiamen University,Xiamen 361005,Fujian,China;2.Xiamen Meiya
5、Pico Information Co.,Ltd.,Xiamen 361016,Fujian,China;3.Xiamen Public Security Bureau,Xiamen 361104,Fujian,China)【Abstract】The multi-modality fusion method is a core technique for effectively exploring complementary features from multiple modalities to improve action recognition performance at data-,
6、feature-,and decision-level fusion.This study mainly investigated the multimodality fusion method at the feature and decision levels through knowledge distillation,transferring feature learning from other modalities to the RGB model,including the effects of different loss functions and fusion strate
7、gies.A multi-modality distillation fusion method is proposed for action recognition,whereby knowledge distillation is performed using the MSE loss function at the feature level,KL divergence at the decision-prediction level,and a combination of the original skeleton and optical flow modalities as mu
8、lti-teacher networks so that the RGB student network can simultaneously learn with better recognition accuracy.Extensive experiments show that the proposed method achieved state-of-the-art performance with 90.09%,95.12%,97.82%,and 81.26%accuracies on the NTU RGB+D 60,UTD-MHAD,N-UCLA,and HMDB51 datas
9、ets,respectively.The recognition accuracy on the UTD-MHAD dataset has increased by 3.49,2.54,3.21,and 7.34 percentage points compared to single mode RGB data,respectively.【Key words】action recognition;knowledge distillation;multi-modality fusion;deep learning;multi-teacher networkDOI:10.19678/j.issn
10、.1000-3428.0065152基金项目:福建省高校产学研联合创新项目(2022H6004);集成电路设计与测试分析福建省高校重点实验室基金;厦门大学马来西亚研究基金(XMUMRF/2019-C4/IECE/0008)。作者简介:詹健浩(1997),男,硕士研究生,主研方向为深度学习、行为识别;甘利鹏,硕士研究生;毕永辉,学士;曾 鹏,警务技术中级、学士;李晓潮(通信作者),教授、博士。收稿日期:2022-07-05 修回日期:2022-10-29 Email:开发研究与工程应用文章编号:1000-3428(2023)10-0280-09 文献标志码:A 中图分类号:TP391.4第 49
11、卷 第 10期詹健浩,甘利鹏,毕永辉,等:基于知识蒸馏的多模态融合行为识别方法0概述多模态融合是将多个模态网络提取出的互补信息在特征或者预测分数层面进行融合,从而获得比单一模态网络更好的识别效果1-2。由于多模态数据是从不同来源或传感器收集的异构数据,因此它们在提供的外观、运动、几何信息、光照、遮挡、背景变化等信息方面各有特点,如 RGB 模态包含丰富的外 观 信 息,但 对 遮 挡、环 境 变 化 或 阴 影 的 干 扰 敏感3,而骨骼模态对视角、背景等变化不敏感但缺乏外观信息。因此,不同模态的优缺点可以互补4。如何融合多模态数据从而获得更好的识别效果是多模态行为识别方法的关键技术5。基于知
12、识蒸馏的多模态融合方法不仅能够充分利用多模态数据的互补优势,而且在推理阶段只需要单个 RGB 模态模型即可完成预测6,从而降低模型复杂度并提高推理速度。知识蒸馏的关键是将教师网络提取的其他模态特征信息及对动作预测结果的分布信息转移到学生网络中。MARS 网络7将光流模态教师网络和 RGB 模态学生网络的特征通过 MSE 损失函数进行知识蒸馏,并将其和学生网络的交叉熵损失函数线性组合进行训练,从而将光流的运动特征信息转移到 RGB 学生网络中。D3D 网络8在光流模态教师网络和 RGB 模态学生网络的预测分数上求 MSE 损失函数进行知识蒸馏,并将其与学生网络的交叉熵损失函数线性组合进行训练,从
13、而使学生网络学习到光流网络对动作预测结果的分布。多视角跨模态知识蒸馏网络6在骨骼模态教师网络与 RGB 模态学生网络的特征和预测分数上分别通过 L1 损失函数和 KL 散度进行知识蒸馏,并将其与学生网络的交叉熵损失函数线性组合进行训练,从而使学生网络同时学习到其他模态的特征信息和教师网络对动作预测结果的分布。这些方法都是利用单一的教师网络进行知识蒸馏,分别通过特征或预测分数的知识蒸馏将其他模态的特征和对动作预测结果的分布信息转移到学生网络上。采用多教师知识蒸馏结构进行多模态融合可以将不同模态的信息同时转移到 RGB 模态学生网络中,通过学习多个教师提取的互补模态信息,获得比单一教师网络知识蒸馏
14、更好的效果6。PERF-Net9 通过 PoseNet10从 RGB 图像中提取骨骼信息,然后叠加在 RGB 模态上作为姿势模态数据,将姿势和光流模态网络同时作为教师网络,在预测分数上分别与RGB 模态学生网络的预测分数求 MSE 损失函数进行多教师知识蒸馏。在基于压缩视频行为识别的研究中,文献 11 分别利用压缩视频编码中的 I、P帧运动向量和 P 帧残差作为教师网络的输入进行知识蒸馏,探索了不同教师网络组合对多教师知识蒸馏的影响,并通过实验发现将 I 帧作为学生网络的输入时单教师知识蒸馏比多教师知识蒸馏的识别准确率更高,而将 P 帧运动向量或 P 帧残差作为学生网络的输入进行多教师知识蒸馏
15、时可以获得更高的识别准确率。从上述研究中得到启发,本文在特征上采用MSE 损失函数、在预测分数上采用 KL 散度进行知识蒸馏,并采用原始的骨骼模态和光流教师网络的组合进行多模态融合。在与本文相似的研究中,多视角跨模态知识蒸馏网络6提取单一的姿势模态数据输入教师网络,并与 RGB 模态学生网络在特征和预测分数上分别使用 MAE 损失函数和 KL 散度同时进行知识蒸馏,而本文进一步研究在特征和预测分数上分别采用不同损失函数进行知识蒸馏的效果,最后在特征上采用 MSE 损失函数、在预测分数上采用 KL 散度同时对学生网络进行知识蒸馏。此外,本文将骨骼和光流模态网络的组合同时作为教师网络对 RGB 模
16、态学生网络进行知识蒸馏。不同于 PERF-Net9,本文仅提取原始的骨骼模态信息进行知识蒸馏,且在预测分数上采用 KL 散度、在特征上采用 MSE 损失函数,从而学习教师网络提取的其他模态数据的特征,同时采用不同模态教师网络包括光流、骨骼、红外和深度模态教师网络的不同组合对 RGB 模态学生网络进行多教师知识蒸馏。1基于知识蒸馏的多模态融合行为识别本文提出的基于知识蒸馏的多模态融合行为识别方法如图 1 所示,其中,虚线框表示 N 个模态的教师网络。各个模态教师网络都提前采用不同模态的数据进行单独训练,知识蒸馏时,教师网络的参数是固定的。对于多模态数据集 D 的训练集和测试集分别 为 Dtrai
17、n和 Dtest,训 练 数 据 可 表 示 为(X0,X1,Xk,XN);y,其中,X0表示学生网络对应的模态数据,Xk表示第 k 个教师网络对应的模态数据,1kN N表示模态数量,y表示样本 X的标签。图 1 中的教师网络fteacherk和学生网络fstudent都采用 3D ResNeXt-101作为骨干网络,将 RGB、光流、骨骼、深度、红外等不同模态的数据,通过 3D CNN 提取时间和空间特征。为了实现语义信息的蒸馏,将4 个 Layer 的 3D ResNeXt-101 网 络 分 为f和f两部分。例 如:当 特 征 知 识 蒸 馏 发 生 在 网 络 的Layer2 层 时,
18、f包 含 了 Layer1 和 Layer2,f包 含 了Layer3、Layer4 和预测分数层;当特征知识蒸馏发生在网络的 Layer3 层时,f包含了 Layer1、Layer2 和Layer3,f包含了 Layer4和预测分数层;依此类推。2812023年 10月 15日Computer Engineering 计算机工程本文所提出的基于知识蒸馏的多模态融合行为识别方法将不同模态的样本数据X1X2XkXN输入模态k对应的已单独训练好并冻结参数的教师网络fteacherk,并将X0输入未训练且可训练的相同结构的 学 生 网 络fstudent对 应 网 络 的 前 面 部 分fteach
19、erk和fstudent,得 到 教 师 网 络 对 应 的 特 征 图Fteacherk和Fstudent,如式(1)和式(2)所示:Fteacherk=fteacherk(Xk)1 k N(1)Fstudent=fstudent(X0)(2)其中:X0为学生网络的输入模态数据;Xk(1kN)为教师网络的输入模态数据。得 到 教 师 网 络 和 学 生 网 络 的 特 征 图Fteacher1Fteacher2FteacherN和Fstudent后,分别输入网络fteacher1fteacher2fteacherN和fstudent后通过 Softmax温 度 激 活 函 数(GSoftma
20、x)得 到 对 应 预 测 分 数Pteacher1Pteacher2PteacherN和Pstudent,如 式(3)和 式(4)所示:Pteacherk=fteacherk(GSoftmax(Fteacherk)1kN(3)Pstudent=fstudent(GSoftmax(Fstudent)(4)为了实现多模态数据的知识蒸馏,使用不同的蒸馏损失函数将教师特征信息和预测分布信息传递到学生网络中。在特征知识蒸馏过程中,使用教师网络构建语义特征,并将这些特征作为知识转移到学生网络对应网络层,从而产生特征监督信息。通过最小化 MSE 损失函数将教师网络和学生网络对应网络层次提取到的语义特征进行
21、知识蒸馏,从而更好地利用多模态数据的互补优势。第k个模态教师网络与学生网络之间的 MSE 损失函数Lfeatk如式(5)所示:Lfeatk=X Dtrain(Fteacherk-Fstudenet)2 1 k N(5)在预测分数上,通过 KL散度使学生网络模仿学习多个教师网络对行为预测结果的分布,第k个模态教师网络与学生网络之间的 KL 散度LKLDk如式(6)所示:LKLDk=X DtrainPteacherkloga(PteacherkPstudent)1 k N(6)其中:Pteacherk是第k个模态教师网络通过 Softmax 温度激活函数后得到的软标签;Pstudent是学生网络通
22、过Softmax 温 度 激 活 函 数 后 得 到 的 软 标 签。引 入Softmax 温度激活函数是为了使预测分数的概率分布更平滑11,避免出现除正确类别之外其他类别预测概率都接近于零分布的情况,从而提供更多教师网络预测结果中与正确类接近的类信息,改善知识蒸馏的 KL散度对齐效果。Softmax温度激活函数如式(7)所示11:Pi=exp(zi/T)j=1nexp(zj/T)(7)其中:n表示分类数;zi表示 Softmax温度激活函数前网络对第i类行为的预测值;T 为温度系数,T 越大,输出的类别分布越平滑。本文将 Softmax 温度激活函数的输出 Pi作为软标签与学生网络对应软标签
23、进行知识蒸馏,使学生网络预测结果的分布尽可能接近教师网络对行为其他模态输入预测结果的分布。将学生网络预测分数通过 Softmax 温度激活函数后作为 q(x)与标签 p(x)求交叉熵损失函数Lcls,将交叉熵损失函数与学生网络和所有教师网络的 MSE损失函数和 KL散度进行线性组合,构成本文设计的图 1基于知识蒸馏的多模态融合行为识别方法Fig.1Action recognition method with multi-modality fusion based on knowledge distillation282第 49卷 第 10期詹健浩,甘利鹏,毕永辉,等:基于知识蒸馏的多模态融合行
24、为识别方法基于知识蒸馏的多模态融合行为识别方法中总体的损失函数L,如式(8)所示:L=k=1N(featkLfeatk+KLDkLKLDk)+clsLcls(8)其中:featk和KLDk是调节第k个模态教师网络与学生网络之间损失函数的权重系数;cls用于调整交叉熵损失函数的权重系数,这些权重在实验部分中的作用是平衡各损失函数值,使其基本保持一致2实验与结果分析2.1相关数据集本文实验采用的行为识别数据集包括多模态数据集 NTU RGB+D 60(NTU 60)12、UTD-MHAD13、Northwestern-UCLA Multiview Action 3D(N-UCLA)14以及常用的单
25、模态数据集 HMDB5115。NTU 6012数据集由 3 台 Microsoft Kinect v2 相机采集,包含 60 类动作共 56 880 个样本,其中含有40 个受测者的 RGB、深度、3D 骨骼和红外模态数据,包含 2 个性能评价标准:CS(Cross-Subject)和CV(Cross-View),CS 按人物来划分训练集和测试集,而 CV按相机来划分训练集和测试集。UTD-MHAD13数据集由 Kinect 摄像头和可穿戴惯性传感器在室内环境中收集,包含 27类动作共861 个视频样本,8 名受试者各重复动作 4 次。在实验中,来自受试者 1、3、5、7的样本数据用于训练,来
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 知识 蒸馏 多模态 融合 行为 识别 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。