基于门控特征融合与中心损失的目标识别.pdf
《基于门控特征融合与中心损失的目标识别.pdf》由会员分享,可在线阅读,更多相关《基于门控特征融合与中心损失的目标识别.pdf(7页珍藏版)》请在咨信网上搜索。
1、DOI:10.3785/j.issn.1008-973X.2023.10.010基于门控特征融合与中心损失的目标识别莫建文,李晋,蔡晓东,陈锦威(桂林电子科技大学信息与通信学院,广西桂林541004)摘要:针对目标活动、光线及摄像头距离等问题,提出一种基于门控特征融合与中心损失的目标识别方法.门控特征融合是为了弥补单一特征信息丢失时,身份识别准确率下降的缺陷.门控结构指导网络对输入的人脸、行人特征进行贡献量评估,再根据贡献量去分配权值,组合产生识别性更强的身份特征.通过添加中心损失函数,在引导网络下减少了特征的类内距离,使得特征更具判别性.实验结果表明,在自建数据集上所提方法的最终识别准确率最
2、高可以达到 76.35%,优于单特征识别方法以及多种融合方法,使用所提的融合损失函数后,平均识别准确率可提高 2.63%.关键词:身份识别;监控场景;特征融合;门控机制;中心距离损失中图分类号:TP391文献标志码:A文章编号:1008973X(2023)10201107Target recognition based on gated feature fusion and center lossMOJian-wen,LIJin,CAIXiao-dong,CHENJin-wei(School of Information and Communication,Guilin University
3、of Electronic Technology,Guilin 541004,China)Abstract:Atargetidentificationmethodbasedongatedfeaturefusionwithcenterlosswasproposed,aimingattheproblemsoftargetactivity,lightandcameradistance.Gatedfeaturefusionwasdesignedtocompensateforthedecreaseinidentityrecognitionaccuracywhenthesinglefeatureinfor
4、mationwaslost.Gatedstructureguidancenetworkevaluatedthecontributionofinputfacialandpedestrianfeatures,andweightswereassignedaccordingtothecontributiontoproduceamorerecognizableidentityfeature.Byaddingacenterlossfunction,theintra-classdistanceofthefeatureswasreducedundertheguidancenetwork,makingthefe
5、aturesmorediscriminative.Thefinalrecognitionaccuracyoftheproposedmethodontheself-constructeddatasetcouldreachupto76.35%,whichwasbetterthanthatofsingle-featurerecognitionmethodsandmultiplefusionmethods.Theaveragerecognitionaccuracycouldbeimprovedby2.63%withtheproposedfusionlossfunction.Key words:iden
6、tification;surveillancescene;featurefusion;gatedmechanism;centerdistanceloss生物特征识别身份的系统非常有吸引力,它们易于使用且安全系数高,因此研究者们对这些人体固有的生理或行为特征的研究也日益增多.Wang 等1提出动态类池化方法来存储和更新身份特征,在不牺牲性能的情况下,节省时间和成本.Zhu 等2提出全局-局部交叉注意和成对交叉注意来实现各类图像间的信息交互,学习到细微特征可以提高行人识别准确率.Ye 等3提出一种基于二维卷积神经网络(twodimensionalconvolu-tionalneuralnetwor
7、k,2D-CNN)和门控循环单元(gatedrecurrentunit,GRU)的深度神经网络(deepneuralnetwork,DNN)模型,实现说话人的身份识别等.当特征采集器获取特征出现误差时,由于现实场景的复杂性,仅仅采用单一生物特征很难维持身份识别的稳定性;当单一生物特征无法满足现实需求时,研究者们便尝试以多生物特征的收稿日期:20220922.网址: 等4使用可见图像生成辅助灰度模态,挖掘可见图片特征与对应图片的红外特征之间的结构关系,解决白天和夜间因存在光线差异的目标身份识别问题.Qi-an 等5有效地结合人脸信息和语音信息,显著地提高个人身份验证系统的性能.Sarangi 等
8、6提出一种基于耳朵和人脸轮廓的多模态生物识别系统,组合 2 个有效的局部特征,产生高维特征向量.在频域和空间域中保留互补信息,弥补了耳朵特征进行身份识别时的缺点,也提高了整体的身份识别准确率.在社区安全问题中,指纹、语音、人脸、行人等则是需要特定的前端设备和安装角度的位置相互配合.现有的监控设备大都不具备这种配合条件,因此在这种场景下动态的目标识别就变得比较困难.目前尚未发现有研究通过人脸和行人特征的融合来解决类似的问题,如何组合人脸特征与行人特征并产生鲁棒性更强的目标身份特征是亟待解决的问题.目前常用的多模态特征融合方法7有联合表示和协调表示等,联合表示常用的是 Concat 方法直接拼接产
9、生维数更高的特征或 Add 方法将 2 个特征向量组合成复合向量,而协调表示则是学习协调子空间中的每个模态的分离但约束表示.Concat 方法是简单拼接的方法,虽然丰富了目标身份特征信息,但是使得冗余信息增加,会对身份判决带来强干扰.受多生物特征融合8的启发,本研究设计出门控特征融合网络(gatedfeaturefu-sionnetwork,GFFN),考虑各部分特征的融合程度,在丰富特征信息的同时,也避免冗余信息带来的误判.针对本研究的目标多分类问题,交叉熵损失函数虽然能实现类间区分,但是类内的距离却没有进行约束.当不同人的穿着或相貌相似时,类间距离减少;当同一人受拍摄角度或者光线强度等影响
10、时,类内距离增大,则会出现类间距离小于类内距离的情况.Dickson 等9发现将平方和误差损失函数与交叉熵损失函数混合使用可以提高网络性能,结合现实应用与 Wen 等10的损失函数融合思想,通过加入中心损失对分类网络进行类内距离约束,使得提取的特征判别性更强.1GFFN 模型由于摄像头角度、抓拍距离、目标活动及光线明暗程度等现实情况的影响,使得监控场景下人脸数据的有效性受限,从而导致人脸识别网络的准确率急剧下降.受多模态特征融合的启发,在实际应用中考虑到人脸与行人特征各自的价值以及在不同场景下所受到的技术约束,对两者各自的优势进行融合应用,采用的门控融合网络可以指导神经网络去综合考虑人脸和行人
11、特征的贡献量,有效地缓解因单生物特征信息模糊而导致识别准确率低的现象.GFFN 模型的整体框架如图 1 所示.模型输入模块特征融合模块损失函数模块图 1 GFFN 模型框架图Fig.1GFFNmodelframe1.1 模型的输入模块QfQpGFFN 模型的输入模块如图 2 所示,为人脸特征,为行人特征.输入待识别的图片,使用 In-sightface 人脸识别模型11和 PCB+RPP 行人识别模型12进行特征提取.PCB+RPP行人特征提取器Insightface人脸特征提取器Qf,Qp首尾拼接6 块 512维特征向量3 072 维行人特征512 维人脸特征QpQf图 2 GFFN 的输入
12、模块Fig.2InputmoduleforGFFN1.2 模型的特征融合模块将得到的 2 个特征送入特征融合模块进行融合,组合出更加丰富且有效的身份特征.1.2.1特征相加融合如图 3(a)所示,相加融合是指特征值相加,通道数不变,将 2 个特征向量组合成复合向量.,1.2.2特征拼接融合如图 3(b)所示,拼接融合是指将 2 个特征进行首尾拼接.当通道数增加时,为向量首尾拼接符.fatt()1.2.3软注意力融合如图 3(c)所示,Shon 等13提出一种基于软注意力的融合方式,在两两输入特征之间进行互补平衡.通过注意力层得到各生物特征的注意力得分:ai=fatt(Qf,Qp).(1)201
13、2浙江大学学报(工学版)第57卷 ai af ap式中:为某生物特征的注意力得分,为人脸特征的注意力得分,为行人特征的注意力得分.最终的加权融合特征为ez=fQx,pQx.(2)ezQxQxQfp式中:为加权融合特征,为经过全连接(fullyconnected,FC)层后的生物特征,为最终的组合特征,为人脸的加权融合系数,为行人的加权融合系数.具体计算过程为f=exp(af)exp(af)+exp(ap),p=exp(ap)exp(af)+exp(ap).(3)QxQxQx1.2.4门控特征融合如图 3(d)所示,门控机制是应用在 GRU 或长短期记忆(longshorttermmemory,
14、LSTM)网络等循环网络中的流量控制部件,使用的门控特征融合结构5.在结合特征融合优势的同时,重点在决策层面进行优化控制.GFFN 设计的目的是将不同的生物特征数据进行组合并找到最优表示.每个对应于与每个生物特征相关联的特征向量,经过双曲正切函数的激活,该函数旨在对特定特征的内部进行映射编码.对于每个激活后的特征,通过一个门控神经元(在图中由 sigmoid 函数输出表示)控制输入.当新 ID 数据被输入到网络时,门控神经元接收拼接后的特征向量作为输入,并使用它们来决定生物特征对整体识别任务做出的贡献量,门控学习机制的数学原理为Qx=tanh(Wi,Qx),(4)S=(WsQf,Qp),(5)
15、Q=SQf+(1S)Qp.(6)tanhWs、WiS式中:为双曲正切函数,为网络学习到的权重参数,为门控网络的权值分配系数,为sigmoid 函数.Q为了不同特征的组合找到最优的表示,模型以人脸 512 维特征和行人 3072 维特征作为输入,都经过一个 FC 层,该层还包括归一化层(batchnor-malization,BN)和 Drop_out 层.BN 层的加入是为了加快网络的训练和收敛、控制梯度爆炸和防止梯度消失;Drop_out 层则可以防止训练过拟合,整体是为了得到更加紧凑和区分性更强的特征.人脸特征和行人特征的输出维度均为 1024,再用双曲正切函数进行激活.最初输入的人脸特征
16、和行人特征进行首尾拼接后,以及经过相同的 FC 层操作后,得到 1024 维融合特征,使用式(4)得到分配 2 个特征的权值系数.最后用权值系数与人脸特征和行人特征分别进行对应元素相乘并相加,得到最终的特征表示,再通过损失层进行 ID 预测分类.1.3 模型的损失函数模块在一般的识别任务中,训练集和测试集的所有类别都会有对应标签,如著名的 Mnist 和 Im-ageNet 数据集,里面包含的每个类别是确定的.大多网络最终采用 Softmax 损失函数进行监督训练,得到的深度特征都具有良好的类间区分性.身份识别任务存在类间复杂及类内多样的问题,预先收集所有测试目标的信息是不切实际的,因此需要网
17、络学习到的特征具有较强的判别性.中心距离损失的设计主要是为了缓解类间距离小于类内距离导致识别有误的情况,通过寻找每一类特征的中心,以度量学习的形式惩罚所学特征与它类中心的距离即缩小同类样本之间的距离.Wen 等10通过以手写数字分类任务为例(Mnist数据集),展示网络最终的输出特征在二维空间的分布.类间距离虽然被区分,但是仍存在类内+损失层损失层损失层损失层(a)(b)(c)注意力层(d)全连接层全连接层全连接层全连接层全连接层全连接层全连接层Q双曲正切激活函数双曲正切激活函数S1SQpQpQpQpQpQpQfQfQfQpQfQfQfQfQf,QpQf,QpQf,Qp图 3 多种特征融合方法
18、图Fig.3Mapofmultiplefeaturefusionmethods第10期莫建文,等:基于门控特征融合与中心损失的目标识别 J.浙江大学学报:工学版,2023,57(10):20112017.2013距离过大的情况,于是提出 CenterLoss 来约束类内距离.本研究借鉴减少类内距离的思想,将门控分类与中心损失结合产生新的损失函数为Lfu=La+Lb=1MMi=1lneWTy,ixiNj=1eWTjxi+2Mi=1?xicy,i?22.(7)LaLbMNxiyiixi RddWTjWTy,icy,iyicy,i Rd式中:为门控分类损失;为中心距离损失;和分别为小批次中的图片数量
19、和类别数;为属于类别的第个特征,;为特征的维数;和为网络训练的权重参数;为特征的第个类中心,;为平衡 2 种损失的权值超参数,经实验效果对比将其设置为 0.2 最佳.门控分类损失与中心距离损失在深度神经网络中的融合结构如图 4 所示.2实验处理与结果分析2.1 实验数据集的制作4106为了抓拍到丰富的行人姿态,在某高校人口流动稳定的路段安装了 12 台监控抓拍设备.在若干天的固定时间段下,收集到约张行人流动图,利用已开源的行人检测和人脸检测技术,裁剪出单个目标行人的整体图片和对应的人脸图片,经过人工数据处理和筛选,最终得到 ID 数为 1392 的行人和人脸数据集(G-campus1392),
20、如图 5 所示.图 5 G-campus1 392 数据集样例Fig.5DatasetofsampleG-campus1392Nu为了验证实验的有效性和稳定性,将数据集以随机抽取的方式分成 3 组(Randomdata1、Ran-domdata2、Randomdata3),如表 1 所示,其中为图片数量.类比公开的行人数据集 Market1501 中训练集和测试集的 ID 数比例,随机抽取的各组数据集中训练集和测试集 ID 数均为 696 个,并且每个 ID 都有 5 组行人人脸库图片用于测试环节的距离度量.由于人脸图片是从行人图片中裁剪得到,以表 1 中的图片数量来表示行人或人脸图片数量.2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 门控 特征 融合 中心 损失 目标 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。