小样本轴承故障诊断研究综述_司伟伟.pdf
《小样本轴承故障诊断研究综述_司伟伟.pdf》由会员分享,可在线阅读,更多相关《小样本轴承故障诊断研究综述_司伟伟.pdf(12页珍藏版)》请在咨信网上搜索。
1、2023,59(6)滚动轴承是旋转机械中最关键的部位之一,其运行状态决定机器能否正常运行。当滚动轴承发生故障时会造成巨大的经济损失并威胁到操作人员的生命安全1。随着大数据时代的来临,越来越多基于数据驱动的方法应用于滚动轴承的故障诊断,在数据量充足的情况下这些方法表现出了优越的性能。相关学者总结了大量关于数据驱动的优秀文献综述,例如,Lei等2按照时间线将故障诊断分为三部分:传统机器学习,深度学习和迁移学习,并讨论了如何为机器学习提供大量的数据。Cen 等3综述了最近几年基于数据驱动的研究成果,将其分为浅层机器学习、深度学习和迁移学习三个框架,并总结了各种方法的适用场景。但是基于数据驱动的故障诊
2、断方法存在一个不可避免的弊端:在小样本的情况下,难以取得理想的效果。而在实际生产过程中,由于生产工艺的要求,机器绝大部分的时间都处于正常运转状态,只能获得少量故障样本,这就要求模型具有较高的泛化性能和鲁棒性。小样本条件下的轴承故障诊断问题将成为未来的热门小样本轴承故障诊断研究综述司伟伟1,2,岑健1,2,伍银波1,2,胡学良3,何敏赞3,杨卓洪1,2,陈红花1,21.广东技术师范大学 自动化学院,广州 5106652.广州市智慧建筑设备信息集成与控制重点实验室,广州 5016653.中国石油化工股份有限公司 广州分公司,广州 510726摘要:随着数据时代的来临,基于数据驱动的轴承故障诊断方法
3、表现出了优越的性能,但是此类方法依赖大量标记数据,而在实际生产过程中很难收集到大量的数据,因此小样本的轴承故障诊断具有很高的研究价值。对小样本条件下的轴承故障诊断方法进行了回顾,并将其分为两类:基于数据的方法和基于模型的方法。其中基于数据的方法是从数据角度对原始样本进行扩充;基于模型的方法是指利用模型优化特征提取或者提高分类精度等。总结了当前小样本条件下故障诊断方法的不足,并展望了小样本轴承故障诊断的未来。关键词:小样本;故障诊断;数据扩充;元学习;迁移学习文献标志码:A中图分类号:TP206+.3doi:10.3778/j.issn.1002-8331.2208-0139Review of
4、Research on Bearing Fault Diagnosis with Small SamplesSI Weiwei1,2,CEN Jian1,2,WU Yinbo1,2,HU Xueliang3,HE Minzan3,YANG Zhuohong1,2,CHEN Honghua1,21.School of Automation,Guangdong Polytechnic Normal University,Guangzhou 510665,China2.Guangzhou Intelligent Building Equipment Information Integration a
5、nd Control Key Laboratory,Guangzhou 501665,China3.Guangzhou Branch Company,Sinopec Corp,Guangzhou 510726,ChinaAbstract:With the advent of the data era,bearing fault diagnosis methods based on data-driven have shown superior per-formance,but such methods rely on a large number of labeled data,and it
6、is difficult to collect a large amount of data inthe actual production process,so bearing fault diagnosis with small samples has high research value.In this paper,thebearing fault diagnosis methods under the condition of small samples are reviewed,and divided into two categories:data-based methods a
7、nd model-based methods.The data-based method expands the original samples from the perspective ofdata.The model-based methods refer to the use of models to optimize feature extraction or improve classification accuracy.Finally,the shortcomings of current fault diagnosis methods under the condition o
8、f small samples are summarized,andfuture research directions of bearing fault diagnosis with small samples are prospected.Key words:small samples;fault diagnosis;data expansion;meta-learning;transfer learning基金项目:广东省普通高校创新团队项目(2020KCXTD017);广东省普通高校“人工智能”重点领域专项项目(2019KZDZX1004);广州市重点实验室建设项目(202002010
9、003);广州市农业和社会发展重点研发计划项目(202206010022)。作者简介:司伟伟(1998),男,硕士研究生,研究方向为故障诊断;岑健(1967),通信作者,女,博士,教授,研究方向为故障诊断、建筑电气智能化与节能和机器学习等,E-mail:。收稿日期:2022-08-09修回日期:2022-11-09文章编号:1002-8331(2023)06-0045-12Computer Engineering and Applications计算机工程与应用45Computer Engineering and Applications计算机工程与应用2023,59(6)研究方向。小样本学习
10、已经在自然语言处理、图像分类等领域取得不错的成果,并有很多相关的综述4。例如,Wang等5从数据、模型和算法角度对小样本学习进行分类,其中从数据角度是对小样本进行扩充,增大样本的数量;从模型角度是通过限制模型复杂度、减小假设空间从而利用少量数据进行建模;从算法角度是改进假设空间中对最优解的搜索方法。在图像分类领域,小样本学习是指样本数量只有几十个,通常少于20个6。但在故障诊断领域中,20个样本所包含的信息太少,查阅大量文献后发现,在故障诊断领域中的小样本是指样本数量从几十个到几百个不等。近年来,小样本故障诊断也取得不少成果,例如,Saufi等7在有限样本的条件下,使用粒子群算法来优化堆叠稀疏
11、自编码器的隐藏层超参数,并在两个数据集上分别达到了100%和99%的准确率。Yang等8将小波变换后的时频图输入到结构相似性生成对抗网络(structuralsimilarity generative adversarial network,SSGAN),生成新的样本用以训练分类模型,分类模型采用改进的IMCNN(improved MobileNetv3 convolutional neuralnetwork),实验结果表明所提方法可以扩展小样本,自动检测滚动轴承的故障。此外,在小样本故障诊断综述方面,Pan等9回顾了13种基于生成对抗网络(generativeadversarial netw
12、orks,GAN)的小样本故障诊断方法,并将其分为三类:用于数据增强的深度生成对抗网络、用于迁移学习的对抗训练和其他方法。但是该综述只聚焦于GAN,对于其他的生成模型和小样本故障诊断方法没有涉及。Zhang等10按照故障诊断的流程,将小和不平衡数据集下的故障诊断方法分为基于数据增强策略、基于特征提取策略和基于分类器设计的策略。虽然小样本故障诊断取得了一些成果,但是现有的相关综述较少,且总结得不够全面,很少涉及目前热门的元学习和迁移学习方法。对于小样本轴承故障诊断而言,算法和模型的界限较为模糊,考虑到算法是求解模型的方法,可以将算法和模型归为同一类。本文通过对现有的小样本故障诊断成果进行梳理,并
13、且按照故障诊断流程分为两类:基于数据的方法和基于模型的方法,如图1所示。基于数据的方法指对数据量进行扩充或者提高数据质量,包含的方法有合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE),生成对抗网络、变分自编码(variational auto-encoders,VAE)、TrAdaboost模型;基于模型的方法是指从模型角度优化特征提取过程或者提高分类器的分类精度,包含的方法有迁移学习、元学习、正则化方法、支持向量机(support vector machines,SVM)等。同时,也有些研究人员将以上各种方法结合进行小样
14、本故障诊断。1基于数据的方法小样本故障诊断的核心问题是样本量太小导致无法训练出一个可靠有效,泛化性强的诊断模型。解决这种问题最直观的方法就是利用原始样本生成大量相似的伪样本,然后利用伪样本来辅助训练。接下来从数据角度介绍几种解决小样本问题的方法。1.1SMOTE1.1.1SMOTE理论传统的过采样方法只是对原始数据进行简单的复制,这样仅仅增加样本数量,分类器只能学习到重复的特征,导致模型泛化性能较差,SMOTE在一定程度上解决了这种问题。SMOTE的基本思想是从少数类样本出发,找到邻近的同类样本,并在两者之间生成新的少数类样本,使得样本更加平衡11。其示意图如图2所示。设少数类样本的样本集为X
15、=x1,x2,xn,其中xn为第n个少数类样本,SMOTE具体的算法过程为:(1)对于每一个少数类样本xi,计算其到所有少数类样本的欧氏距离,得到其k个最近的样本。(2)在k个样本中随机选择a个样本(ak),a的大小视少数类样本和多数类样本的比例而定。(3)设xj(j=1,2,a)为这a个小本中的任意一个,利用公式(1)在xi和xj之间随机线性插值合成新的少数类样本xnew。xnew=xi+rand(0,1)|xi-xj(1)原始数据特征提取故障分类SMOTEGANVAETrAdaboost基于数据的方法基于模型的方法辅助数据集正则化元学习迁移学习其他图1小样本故障诊断分类Fig.1Small
16、 sample fault diagnosis classification 多数类 少数类 生成少数类 多数类 少数类 生成少数类多数类少数类生成少数类 多数类 少数类 生成少数类 多数类 少数类 生成少数类图2SMOTE示意图Fig.2Schematic of SMOTE462023,59(6)已经有学者将SMOTE引入故障诊断。其主要利用合成少数类样本训练分类模型,得到更高的诊断精度12。SMOTE是一种经典的平衡数据的算法,少数类样本也可视为小样本,所以SMOTE同样适用于小样本的故障诊断。对于小样本问题,SMOTE从数据扩充的角度出发,在少数类样本之间随机线性插值合成新的样本。传统的
17、过采样方法生成的样本只包含重复的特征,容易导致分类模型过拟合。SMOTE合成的则是原始数据中不存在的新样本,将合成样本与原始样本混合作为分类模型的训练集,此方法对小样本分类精度具有显著提升13。1.1.2SMOTE的应用及不足SMOTE的应用都是基于其合成能力,但是SMOTE存在边缘分布的问题。针对此,有研究人员提出了相应的改进模型14。例如 Chen 等15提出了一种改进的SMOTE模型用以解决合成样本分布边缘化的问题,该模型基于样本距离聚类中心越远越好的原则,引入区域水平和样本稀疏性的概念。在三种不同工况的轴承数据集下,改进 SMOTE 模型的G-mean 值比 SMOTE 高5%,证明了
18、这种改进的模型能够更好地平衡数据集,解决了合成少数类样本冗余的问题。此外,根据数据被误分类的重要程度,Wei等16提出了SCOTE(sample-characteristic oversampling techniquE)模型,该模型用k最近邻模型过滤噪声,分类器选择最小二乘支持向量机对样本进行分类,根据少数类样本被误分类的情况进行重要性排序,最后合成少数类样本。经实验验证,在小样本条件下平均准确率达到95%。虽然 SMOTE 能够合成少数类样本,但是传统的SMOTE模型存在以下问题:(1)在近邻选择时,k值的选择较为主观,当k值选取过小时,生成的样本在局部重叠。(2)SMOTE无法克服数据分
19、布边缘化的问题。具体来说就是当少数类样本分布在分类边界时,新合成的样本也会分布在边界上,且越来越接近分类边界。对小样本而言,SMOTE通过对距离的度量合成少数类样本,新样本与原始样本存在一定的差异。这种差异可能会增加数据的多样性,使得合成的数据包含更多的特征;另一方面,这种差异也可能会模糊分类边界,例如当少数类样本分布在多数类样本数据中,合成的样本存在于分类边界处,会使得分类边界更加模糊。1.2GAN1.2.1GAN理论随着深度生成模型表现出强大的生成能力,该模型也逐渐被引入轴承故障诊断中。GAN是一种最常用的生成模型,在2014年由Goodfellow等17提出。GAN网络是基于零和博弈思想
20、建立的,即博弈中一方收益另一方必然损失。GAN由一个生成器G和一个判别器D组成,生成器G的输入为随机噪声z,一般满足均匀分布或者正态分布等常见分布,输出为生成的数据xg,判别器D的输入为真实数据xr和生成器输出xg,判别器输出为判断结果,其基本模型如图 3 所示。通过模型训练,生成器G的目标是生成更加相似的假样本,判别器D的目标则是不断提高判别真假样本的能力,两者不断博弈最后达到纳什均衡。此时生成的伪样本具有真实样本的特征,可用于辅助训练。设X=x1,x2,xn为真实的n个样本,这些数据满足Pdata(x)分布,且相互独立,z为满足Pz分布的随机噪声。生成器G通过输入z到输出G(z)学习到一个
21、隐式分布Pg(x),GAN 的目的是通过模型训练使得Pg(x)不断地逼近真实数据的分布Pdata(x),即要使得Pg(x)分布与Pdata(x)分布尽可能相似,而 JS(Jensen-Shannon)散度可以描述两个概率分布的差异,其定义为公式(2):JS(Pdata(x)|Pg(x)=12Pdata(x)|Pg(x)+Pg(x)|Pdata(x)(2)Pdata与Pg越相似JS散度越趋向于0。判别器的目标是最大化Pdata(x)和Pg(x)之间的差异,生成器 G的目标是最小化两者之间的差异。训练目标函数可用公式(3)表示:minGmaxDV(G,D)=ExPdatalnD(x)+EzPzln
22、(1-D(G(z)(3)其中,ExPdata为满足Pdata分布的真实数据期望,D(x)表示判别器的输出,G(z)表示生成器的输出,EzPz表示满足隐式分布Pz的噪声的期望。在网络的训练中,先固定生成器G训练辨别器D,然后固定判别器D训练生成器,如此交替训练直至达到纳什均衡。GAN通过生成数据来扩充数据集,GAN最初用于二维图像的生成,所以在小样本轴承故障诊断中,通常用于生成含有故障信息的图像。最常见的做法是对原始数据进行小波变换或者短时傅里叶变换得到时频图,再将其输入GAN生成新的时频图。当然,GAN也可以生成一维信号,这种一维信号可以是原始信号,也可以是对原始信号进行特征提取后的特征信号。
23、小样本问题归根结底是因为样本量不足,难以训练出一个高性能的分类模型,而GAN是最为热门的深度真/假判别器生成器xrxgz图3GAN结构图Fig.3Structure of GAN司伟伟,等:小样本轴承故障诊断研究综述47Computer Engineering and Applications计算机工程与应用2023,59(6)生成模型,可以生成较高质量的样本。在小样本故障诊断中,GAN通过对抗思想生成的样本具有真实、多样的特点,这些样本包含更多的故障信息。分类模型能够从中学习到更多故障特征,以此提高分类精度。1.2.2GAN的应用及不足GAN具有优秀的生成能力,但是GAN也存在梯度消失、模式
24、崩溃等问题18。针对GAN的种种问题,有学者提出了不同的变体GAN作为解决方法19-22。其中很多方法也被引入了轴承故障诊断领域9,23。例如Liu等24将变分自编码与GAN相结合,该方法用编码器学习真实数据的特征,再将这些特征作为生成器的输入,为了避免模式崩溃对辨别器增加梯度惩罚,最后在生成器中加入特征匹配模块防止过拟合,该方法在两个轴承数据集中都取得了98%以上的准确率。此外,一个好的初始化网络参数可以缩短模型收敛时间,所以Dixit等25将模型无关的元学习(model agnostic meta learning,MAML)与有条件的辅助分类器生成对抗网络(conditional aux
25、i-liary classififier GAN,CACGAN)相结合。在样本很少的情况下,用MAML来初始化和更新网络参数,再利用条件标记和辅助分类器生成样本。该模型在轴承数据集下的分类准确率为99.26%。虽然GAN能够在一定程度生成与真实数据相似的数据。但是GAN还存在以下的一些缺点:(1)梯度消失问题。当Pdata分布和Pg分布没有一点重叠时,判别器可以很轻易地分辨真假,又因为生成器G的梯度更新信息来自于判别器D,当判别器性能过高时,生成器只能得到很少的反馈导致其学习过程减慢甚至停止。(2)模式崩溃问题。当生成器生成一小部分类别的数据时,判别器给予较高的评价,导致生成器生成的数据局限在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 小样 轴承 故障诊断 研究 综述 司伟伟
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。