![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于距离损失函数的特征融合模型.pdf
《基于距离损失函数的特征融合模型.pdf》由会员分享,可在线阅读,更多相关《基于距离损失函数的特征融合模型.pdf(7页珍藏版)》请在咨信网上搜索。
1、收稿日期:2023-02-25摇 摇 摇 摇 摇 摇 修回日期:2023-06-27基金项目:中核集团核工业智能化装备及关键技术研究(ZNZBA02)作者简介:林益文(1997-),男,硕士,研究实习员,研究方向为计算机视觉、反应堆智能化;通信作者:陈摇青(1984-),男,硕士,研究员,研究方向为反应堆智能电气设备研发。基于距离损失函数的特征融合模型林益文,杨摇 啸,陈摇 青,邱新媛,任维泽(中国核动力研究设计院,四川 成都 610213)摘摇 要:卷积神经网络在图像识别任务中表现出出色的学习语义特征的能力,实现了相关目标对象的高精度检测,然而其通常只关注图像最具识别能力的特定区域,忽视了部
2、分有价值的语义特征。为提高卷积神经网络的识别能力,提出一种基于距离损失函数的特征融合模型。该方法利用欧氏余弦复合距离损失函数迫使基础模型学习具有差异的特征概念,通过并置特征融合法整合差异化的特征概念进行目标识别。实验使用了多种基准卷积神经网络骨架、数个流行数据集和不同样本量进行多因素交叉分析,从准确率数据和类激活图两个方面证实了该方法能够丰富基础模型语义特征的多样性,提升融合模型的识别性能,并且具有有效性和普遍性,同时利用数学统计方法也揭示了该方法的应用特征与优势。关键词:深度学习;卷积神经网络;语义特征;距离函数;模型融合中图分类号:TP183摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇
3、 摇 摇 摇 摇 文章编号:1673-629X(2023)12-0072-07doi:10.3969/j.issn.1673-629X.2023.12.010Feature Fusion Model Based on Distance Loss FunctionLIN Yi-wen,YANG Xiao,CHEN Qing,QIU Xin-yuan,REN Wei-ze(Nuclear Power Institute of China,Chengdu 610213,China)Abstract:Convolutional neural networks have shown excellent
4、ability to learn semantic features in image recognition tasks and realizedhighly accurate detection of relevant target object.However,it usually only focuses on specific regions of the image with the mostrecognition power,ignoring some valuable semantic features.To improve the recognition capability
5、 of convolutional neural networks,wepropose a feature fusion model based on distance loss function.The Euclidean-Cosine distance loss function is used to force the basemodels to learn differentiated feature concepts,and the concatenation feature fusion method is implemented to integrate differentiat
6、edfeature concepts for the image recognition.Experiments are conducted using different benchmark convolutional neural networks,severalpopular datasets and different sample sizes for multi-factor cross-tabulation analysis.It爷s confirmed that the proposed method can enrichthe diversity of semantic fea
7、tures of the base models,and improve the recognition performance of the fusion model in terms of accuracyvalues and class activation maps.The validity and generality of the proposed method can also be guaranteed in this way.Meanwhile,theapplication characteristics and advantages of the method are al
8、so revealed using mathematical statistical methods.Key words:deep learning;convolutional neural network;semantic feature;distance function;model fusion0摇 引摇 言计算机视觉一直是深度学习算法最成功的应用领域,卷积神经网络(CNN)在众多计算机视觉任务中取得了巨大的发展。通过卷积层的堆叠,神经网络可以从图像中提取更加复杂的语义特征概念,从而在大规模图像识别任务中展现出卓越的识别能力1-3。然而,从图 1 中可以看出,单一的卷积神经网络难以学习到
9、全面的语义特征,由于网络的容量问题,使得其更倾向于集中注意力在最具识别能力的关键特征上,而忽视一些其他有价值的图像特征。模型融合是机器学习中的一种强大方法,能够应用于各种算法并提升其性能,也被广泛应用于深度学习模型中4-5。利用适当的算法策略整合一系列基础模型,能够提高集成模型的表现,使其具有更好的泛化和识别能力。同时,为了强化模型融合的效果,基础模型应当具有尽可能大的多样性,并保持进行独立识别的能力6。为了提升模型中语义特征的多样性,并提升模型的识别性能,该文提出了一种创新的距离损失函数,迫使不同基础模型学习不同的语义特征,同时构建了一第 33 卷摇 第 12 期2023 年 12 月摇 摇
10、 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.12Dec.摇 2023个模型融合框架对提取的语义特征进行整合,以达到从多个角度对物体场景进行识别的目的。针对该方法,基 于 不 同 卷 积 神 经 网 络 骨 架(VGG,ResNet,AlexNet)、不 同 数 据 集(Cifar10,Cifar100,miniImageNet,NEU,BSD,TEX)以及不同样本量(每类 3,5,10,20,50,100)进行了深入研究,开展了多因素交叉实验,最终
11、的实验结果展示了该方法具有有效性和泛化能力,分析得出了其相应的优势区间。图 1摇 针对不同数据集的类激活图样例1摇 方法设计1.1摇 全局特征表征距离损失函数由语义特征表征和距离函数组成。构建全局特征表征,可以解释卷积神经网络学习到的语义特征信息。卷积层的激活输出被广泛用于解释卷积神经网络从图像中学习到的语义特征7,图像化后被称为特征图。文献8指出,特征图是稀疏的、分布式的语义特征表征,所有语义特征都被编码在分布式的卷积单元中,并且特征概念和卷积单元之间存在着多对多的映射关系。在骨架相同的卷积神经网络中,经过不同的训练过程,分解的特征概念与卷积单元的排列方式和映射关系也是不同的7,因此并不能直
12、接比较不同网络间的特征图和特征向量。根据文献9所述,单一特征图携带的特征信息极其有限,且不一定具有实际意义,只有当许多特征图激活同一区域时,这个区域才能被认定为包含实际的特征概念。摇 摇 该文采用叠加的方法来整合特征图中的特征信息,进而形成全局特征表征。如图 2 所示,首先对多通道特征图在相应空间位置上进行点对点求和,形成一个聚合图,尺寸为 h 伊 w 伊 d(其中 h 为特征图的高度,w 为宽度,d 为通道数)的特征图被整合成尺寸为h 伊 w 的聚合图。该方法可以忽略卷积神经网络中卷积单元的不同特征概念分布,更能保留语义特征的空间信息。图 2摇 多通道特征图的融合进一步引入图像滤波器来去除噪
13、音和弱势语义特征,改进聚合图。利用阈值 子 进行像素级的过滤,使得所有高于阈值的像素值都保留,其他像素值则被置为零。A(x,y)=A(x,y)if A(x,y)子0otherwise(1)式中,A 指滤波后聚合图中位于(x,y)的像素值,而A(x,y)指聚合图中位于(x,y)的值。同时,滤波阈值由聚合图的平均值算出,即 子=mean(A),能够对不同聚合图进行动态适应。经过处理,最具识别能力的语义特征概念将被用于计算不同模型之间语义表征的差异,并减少了迫使所有基础模型学习边际特征的风险,否则,基础模型的性能将会大打折扣。此外,位于高层次的卷积单元能提取更多更具识别能力的语义特征,具有优秀的识别
14、和泛化能力7。因此,该方法从基础模型的最后一个卷积层提取特征图,并生成滤波的聚合图作为全局特征表征,用于量化模型间的语义特征表征。从基础模型中生成全局特征表征的流程如图 3 所示。图 3摇 全局特征表征的提取流程1.2摇 距离函数该文使用复合距离函数对不同基础模型中全局特征表征之间的差异进行计算。该距离函数组合了余弦距离和欧氏距离,一方面,余弦距离10可以对高维度特征向量之间的相似性进行有效测量,反映向量方向的相对差异,更关注特征概念的位置。另一方面,欧氏37摇 第 12 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 林益文等:基于距离损失函数的特征融合模型距离呈现了全局特征表征之间内容的
15、差异11,计算全局特征表征数值上的绝对差异,其作用类似于空间注意力机制12-13,提高了关键特征概念的激活程度。使用距离损失函数,不同基础神经网络模型能够在特征空间中学习不同的语义特征,同时每个基础模型也能在卷积单元中激活重要的图像特征概念。由于优化器总是朝着最小值的方向优化损失函数,而该方法需要增大特征表征之间的差异,两基础模型之间的距离损失 dlossi,j如公式(2)所示。dlossi,j=琢*vTivj椰vi椰*椰vj椰+茁*exp(-椰vi-vj椰2)(2)其中,vi和 vj是向量化的全局特征表征,而 琢 和 茁 是距离函数两个部分的权值。距离损失函数由余弦相似度和指数欧氏距离组成。
16、因为全局特征表征的像素值都为正数,余弦相似度取值在 0 和 1 之间。值为 0 则特征表征差异较大,而值为 1 时表示两个基础模型的特征表征非常相似。指数欧氏距离保证了优化器可以在减小损失值的同时增大基础模型间特征表征的差异,同时其函数值具有动态约束的特性,函数值越小,越难继续朝着最小值优化,避免了强迫基础模型对无意义的边际特征进行学习的问题。1.3摇 训练策略训练策略的目标是在训练基础模型的同时显示距离损失函数,并融合基础模型进行分类任务。该文提出对五个基础模型进行联合训练的策略,如图 4 所示。基础模型使用相同的训练样本进行相对独立的训练,同时从卷积层中生成的全局特征表征被用于表示模型学习
17、到的语义特征,利用距离函数量化模型之间的特征差异,对基础模型的学习行为进行联系和制约。图 4摇 基础模型训练框架训练中的损失函数由分类损失和距离损失组成,在式(3)中,第一部分为分类的交叉熵损失,其中 yik是训练样本中第 k 类的真实标签,yik为第 i 个基础模型中对应类的预测概率。第二部分为距离损失,计算模型之间的特征差异。loss=移mi=1(-移nk=1yiklogyik)+移i,j,i屹jdlossi,j(3)经过训练之后,所有基础模型都被整合进一个特征融合模型,在语义特征层面上对模型进行整合。与传统模型融合的方法不同,该文仅使用基础模型的卷积网络层作为特征提取器,并在卷积通道方向
18、上串联卷积单元,进行并置特征融合。然后,融合的特征被送入一个新的分类器中完成分类任务,最终构成一个端到端的神经网络特征融合模型,实现多源语义特征的整合处理过程,增加图像识别的特征多样性。2摇 实验结果与分析2.1摇 实验细节为评估距离损失函数对模型性能的具体作用,验证 实 验 使 用 了 不 同 数 据 集(Cifar10,Cifar100,miniImageNet,NEU,TEX 和 BSD)、不同样本量(每类3,5,10,20,50,100 和 400 张图像)以及不同卷积神经网络骨架(VGG,ResNet 和 AlexNet),从而形成多因素交叉的实验条件,并从多方面展示了实验成果。实验
19、数据集包括 Cifar1014,Cifar10014,miniIma鄄geNet15,NEU,TEX 和 BSD。如图 5 所示,Cifar10 和Cifar100 是物体分类数据集,分别由 60 000 张 32伊32的彩色图像组成,其中 Cifar10 有 10 个类,而 Cifar100有100 个类。miniImageNet 使用了原始 ImageNet 数据集中的 100 个类别,每个类有 600 张 84伊84 的彩色图像,因此具有较高的复杂度,同时减少后的类别数所需要的处理资源要少得多,便于快速建立原型和进行实验。除了基于物体的数据集,实验还测试了 3 个基于表面缺陷的工业数据集
20、。NEU 基于金属表面缺陷,包括 1 800 张 200伊200 的灰度图像,共有 6 个类。TEX显示了纺织品的 5 种缺陷以及正常图像,每类有18 000张 64伊64 的灰度图。BSD 记录了滚珠丝杠驱动器的故障情况,有 21 835 张 150伊150 的彩色图像,分为有故障和无故障两类。因此,实验涉及了具有不同层次语义特征的基于物体和非物体的数据集。同时,将数据集随机分为 60%的训练样本、20%的验证样本和 20%的测试样本,并在训练样本中选取一定均匀分布的样本进行训练,即每类 3,5,10,20,50,100 和 400张图像。实验用基础模型为 VGG163,ResNet123,
21、16和 AlexNet1,使用不同的初始化方式,进而实现相对稳定且不同的初始状态。47摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷图 5摇 数据集 Cifar10,Cifar100,miniImageNet,NEU,TEX 和 BSD实验采用 10-4的学习率和 300 的迭代次数,同时使用图像增强算法,对所有图像进行随机变换,并在训练过程中保存性能最好的模型。由于实验样本选取均匀,为了评估模型对图像目标的识别检测能力,使用准确率作为分类精度的整体评价指标
22、,即识别正确的样本占总样本的百分比,并且准确率越高,表明模型的识别能力越强。同时,生成的类激活图可视化基础模型学习到的语义特征,直观展示了距离损失函数在语义特征层面的作用。2.2摇 实验结果从表 1 可以看出,对于数据集 Cifar10,Cifar100 和miniImageNet,使用距离损失函数能够稳定提升特征融合模型的准确率。例如,在数据集为 miniImageNet,训练样本为每类 100 张,且网络骨架为 ResNet 的实验中,使用距离损失函数的特征融合模型相比于不使用距离损失函数的融合模型提升了 7.96%的分类准确率。表 1摇 针对 Cifar10,Cifar100 和 min
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 距离 损失 函数 特征 融合 模型
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。