基于欧式距离聚类的自适应过采样方法.pdf
《基于欧式距离聚类的自适应过采样方法.pdf》由会员分享,可在线阅读,更多相关《基于欧式距离聚类的自适应过采样方法.pdf(16页珍藏版)》请在咨信网上搜索。
1、PRINTING AND DIGITAL MEDIA TECHNOLOGY STUDY Tol.226 No.5 2023.10印刷与数字媒体技术研究 2023年第5期(总第226期)RESEARCH PAPERS研究论文基于欧式距离聚类的自适应过采样方法董洪荣1,付亚军1,张 帅1,余亚强2,陈 军2,谢德红3*(1.江苏劲嘉新型包装材料有限公司,淮安 223005;2.湖北强大包装实业有限公司,红安 438400;3.南京林业大学 信息科学技术学院,南京 210037)摘要 很多分类器难以识别不平衡数据中的少数类,给缺陷检测等众多应用带来了挑战。当前许多过采样方法虽可有效增加少数类样本,但
2、却存在类重叠增加的风险。本研究提出了一种基于欧式距离聚类的自适应过采样方法。该方法采用基于欧式距离的构造覆盖算法对少数类进行聚类,然后自适应识别出相对安全和靠近分类边界的少数类聚类,再在此聚类内采用SMOTE采样步骤合成新少数类样本。通过10个不平衡数据集以及G-mean、F1-measure、AUC等指标验证。实验结果显示,与现有过采样方法相比,该方法在大多数数据集上,G-mean、F1-measure和AUC三个指标均最优。结果表明,本研究方法有效弥补现有分类的缺陷,获得较好分类结果。关键词 不平衡数据;分类;欧式距离;聚类;机器学习中图分类号 TP181文献标识码 A文章编号 2097-
3、2474(2023)05-26-16DOI 10.19370/10-1886/ts.2023.05.003Adaptive Oversampling Method Based on Euclidean Distance ClusteringDONG Hong-rong1,FU Li-jun1,ZHANG Shuai1,YU Ya-qiang2,CHEN Jun2,XIE De-hong3*(1.Jiangsu Jinjia New Style Packaging Material Co.Ltd.,Huaian 223005,China;2.Hubei Qiangda Packaging Ind
4、ustry Co.,Ltd,Hongan 438400,China;3.College of Information Science and Technology,Nanjing Forestry University,Nanjing 210037,China)Abstract It is hard for many classifiers to identify minority class samples in imbalanced data,which poses challenges for many applications such as defect detection.Many
5、 state-of-art oversampling methods can effectively generate synthetic samples of minority class,but they have the risk of increasing overlap between minority and majority classes.In this study,an adaptive oversampling method based on Euclidean distance clustering was proposed.With this method,all mi
6、nority class samples were clustered into each sub-cluster based on Euclidean distance clustering.Then,all sub-clusters of the minority class were adaptively labelled as safe and borderline according to its distance to the border boundary of majority class.Finally,new synthetic samples of the minorit
7、y class were generated using 收稿日期:2023-04-09 修回日期:2023-05-12 *为通讯作者本文引用格式:董洪荣,付亚军,张帅,等.基于欧式距离聚类的自适应过采样方法J.印刷与数字媒体技术研究,2023,(5):26-41.2023年5期印刷与数字媒体技术研究.indd 262023年5期印刷与数字媒体技术研究.indd 262023/10/7 16:20:122023/10/7 16:20:1227研究论文董洪荣等:基于欧式距离聚类的自适应过采样方法0 引言在信用风险评估1-2、医学诊断3-5、缺陷预测6、轴承故障诊断7等分类应用中,数据集均不平衡,
8、且少数类至关重要8。但是,绝大多数分类器容易忽略少数类样本,导致少数类样本无法正确分类9。因此,提高少数类样本的被识别率至关重要。目前,针对少数类的识别问题,可分两类方法:算法层面的方案和数据层面的方案9。算法层面的方案主要通过改进传统的分类器或优化分类器的性能来提高对少数类的识别率10。数据层面的方案分为欠采样11、过采样12和混合采样13。采样方法通过调整多数类或少数类的样本数目使得类不平衡的数据集达到均衡来满足分类器的分类要求。鉴于欠采样存在删除重要信息、导致后期分类出现欠拟合的危险14,过采样具有更好的适用性15。SMOTE(Synthetic Minority Over-sampli
9、ng Technique)16 作为典型的过采样方法,在很多应用中取得了较好的分类效果。SMOTE只是简单地在相邻两个少数类样本之间利用线性插值法产生一个新的样本,并未考虑多数类样本的分布情况。然而,多数类样本的部分可能导致新产生的样本为噪声样本或加剧两类样本重叠程度,而给分类器带来新的挑战17-18。文献19认为,好的过采样方法不应增加分类难度及分类器分类挑战。Borderline-SMOTE20和ADASYN21考虑多数类样本的分布,减少了噪声样本的产生,但增加重叠性的问题仍未得到有效改善。Safe-level-SMOTE22选取远离重叠区域样本进行过采样,有效避免了增加重叠性问题,但由于
10、新样本离分类超平面较远,决定分类超平面的信息量较少。为了解决重叠性增加的问题,Cluster-SMOTE23采用K-均值聚类方法将少数类分为若干个聚类区域,再用SMOTE在聚类区域内进行过采样。此聚类区域中,大多数样本为少数类样本,并无法确定是否存在多数类样本。由此,Cluster-SMOTE只是在一定的程度上降低重叠性的增加。MWMOTE17利用欧几里德距离给每个少数类样本赋予权重,并依据权重选取用于过采样的候选样本,确保新生成样本在少数样本分布内部,以减少重叠性的增加。A-SWUO 24利用半无监督层次聚类算法自适应地获得不同大小的少数类聚类区域,减少聚类区域存在多数类样本的可能性。综上所
11、述,上述方法在不同程度上缓解样本噪声和重叠性增加的问题,但仍待进一步完善。本研究在上述方法的启发下,提出了一种称为基于欧式距离聚类的过采样方法。该方法主要目的是在适宜的少数类聚类内部合成新样本,以避免合成样本加剧类与类之间的重叠并提高少数类的被识别率。在此方法中,先采用基于欧式距离对少数类样本进行聚类,再根据K近邻算法计算每一个少数类聚类的近邻样本中多数类的占比,以此为依据选择相对安全和相对靠近分类边界的少数类聚类作为适宜过采样的聚类。然后,在选择的聚类中,依据样本分布的密度和聚类与其近邻多数类样本的平均欧式距离,自适应地计算合成样本数目。最后,采用SMOTE 16 在聚类内生成新少数类样本。
12、1 算法描述基于欧式距离聚类的自适应过采样方法包括4个主要步骤:构造少数类聚类;自适应获得适SMOTE oversampling within each selected sub-cluster.Ten imbalanced datasets,as well as G-mean,F1-measure,and AUC metrics were evaluated.The experimental results showed that,compared with some state-of-art oversampling methods this method performs best in
13、 the dataset when evaluated by G-mean,F1-measure,and AUC metrics.This result indicated that the proposed method effectively compensates for the shortcomings of the classifiers and achieves good classification results.Key words Imbalanced Data;Classification;Euclidean distance;Clustering;Machine lear
14、ning2023年5期印刷与数字媒体技术研究.indd 272023年5期印刷与数字媒体技术研究.indd 272023/10/7 16:20:122023/10/7 16:20:1228印刷与数字媒体技术研究2023年第5期(总第226期)宜过采样的少数类聚类;自适应适宜过采样聚类的大小;生成综合少数类样本。在步骤中,使用一种基于欧式距离的构造覆盖算法对少数类进行全局聚类,在每次迭代中不考虑已经形成聚类的少数类样本,以确保识别出所有的少数类聚类。在步骤中,根据 K近邻算法计算得到的少数类聚类的近邻多数类样本的平均值,自适应选择出适宜过采样的聚类。在步骤中,根据聚类本身的密度和近邻多数类与其的
15、平均距离确定每一个适宜过采样的聚类所被分配的过采样权重。在步骤中,提出了一种基于SMOTE的两步过采样方法、在适宜过采样的聚类内部生成相应数量的新少数类 样本。1.1 基于欧式距离的构造覆盖算法不同于K-均值聚类算法25,基于欧式距离的构造覆盖算法是一种面向全局的聚类方法。在此方法中,为了消除数据变量间的量纲关系,需先对数据进行规范化预处理。在本研究的构造覆盖算法中,首先在不平衡数据集中随机选择一个少数类样本作为聚类中心,再计算每一个多数类样本与聚类中心之间的欧式距离,并将最小的距离值看作阈值。然后,寻找剩余的少数类样本中是否存在与聚类中心的欧式距离小于等于阈值的样本。若存在,则将这些少数类样
16、本与聚类中心之间距离最大的值记为,这样构成一个以该聚类中心为圆心、半径r为和的平均值的聚类;若不存在,则该聚类中心单独形成一个聚类,半径r等于2。这之后,重复上述内容直到构成所有的少数类聚类。此聚类方法的具体步骤如下所示。步骤1:数据规范化预处理。数据归一化到-1,1。步骤2:构造少数类聚类。假设不平衡数据集X的特征维数是n,其中,少数类为P=p1,p2,ppnum,多数类为Q=q1,q2,qqnum,pnum是少数类的样本数,qnum是多数类的样本数,X=PQ。从少数类P中随机选择一个样本作为聚类中心pc,然后根据下列步骤计算此聚类的半径值r。1)计算聚类中心pc与多数类样本的欧式距离,如式
17、(1)所示。()()()2211,1,2,nnciciciD p qpqpqiqnum=+(1)2)计算阈值,即聚类中心pc与最接近它的多数类样本之间的距离,如式(2)所示。()min,1,2,ciD p qiqnum=(2)3)计算聚类中心pc与其他少数类样本之间的距离如式(3)所示,然后通过式(4)求出距离在(0,区间内的最大值,记为。()()()2211,1,2,nncjcjcjD ppppppjpnum=+(3)()()max,0,1,2,cjcjD ppD ppjpnum=(4)4)计算聚类半径r,如式(5)所示。2r+=(5)根据式(2)式(6)可以得到一个以pc为中心、r为半径的
18、少数类聚类,将已经形成聚类的少数类样本标记为“已被学习”。步骤3:不考虑标记为“已被学习”的样本,重复上述步骤2,直到所有的少数类样本都被标记为“已被学习”。最终得到m个少数类聚类,合集为Cmin=c1,cm,对应的每一个聚类的半径的合集为。1.2 自适应获得适宜过采样的少数类聚类大多数过采样方法根据K近邻算法来选择适宜过采样的少数类样本,一般分为两个方向。第一种是选择近邻中多数类样本的个数在区间内的少数类样本进行过采样22,这些样本远离分类边界,简称为安全少数类样本;另外一种是选择近邻中多数类样本的个数在区间内的少数类样本进行过采样20,这些少数类样本在分类边界附近,简称为边界少数类样本。在
19、第一种方法中,合成样2023年5期印刷与数字媒体技术研究.indd 282023年5期印刷与数字媒体技术研究.indd 282023/10/7 16:20:132023/10/7 16:20:1329研究论文董洪荣等:基于欧式距离聚类的自适应过采样方法本容易造成欠采样问题,而在第二种方法中,合成样本容易增加类与类之间的重叠,泛化少数类的范围,降低分类器的性能。这两种方法中的K值都需要自定义,K值的大小直接影响了少数类样本被分为安全少数类样本还是边界少数类样本。为了解决上述问题,本研究提出了一种自适应获得适宜过采样的少数类聚类的方法。在该方法中,首先计算每一个少数类聚类ci,i=1m中所含样本的
20、数目,再将K值设置为这些数目中的最大值。然后,对于内部含有两个及以上样本的少数类聚类,根据这些聚类近邻中多数类样本的分布情况,选择一些相对安全和相对靠近分类边界的少数类聚类作为适宜过采样的聚类。值得注意的是,本研究的方法对于内部只含有一个样本的少数类聚类不做过采样处理。自适应获得适宜过采样的少数类聚类的方法的具体步骤如下。步骤1:自适应得到K值,计算公式如式(6)所示。(6)其中,Num(ci)表示统计少数类聚类ci中样本数量的函数。步骤2:筛选出ci中内部含两个及以上样本的聚类,其集合记为。步骤3:通过式(7)计算聚类nci近邻的多数类样本数的平均值Hi。(7)其中,ij是指聚类nci中第j
21、个少数类样本的K个近邻样本中属于多数类的样本数目。步骤4:选择Hi值在区间内的少数类聚类作为适宜过采样聚类。将h个适宜过采样的少数类聚类的合集记为,对应聚类半径的合集为。1.3 自适应适宜过采样聚类的大小在基于欧式距离聚类的自适应过采样方法中,建议在适宜过采样的少数类聚类内部生成新样本。这样做的目的是为了避免新样本与原始多数类样本发生重叠,并减少新样本对少数类范围的泛化。在此之前,需要根据聚类的密度和聚类与近邻多数类样本的平均欧式距离这两个因素来对每一个适宜过采样的聚类分配权重,然后根据权重自适应得到聚类内部需要合成的新样本的数目,即适宜过采样聚类的大小。根据上述因素对适宜过采样聚类赋予权重的
22、原因有两点:第一点,聚类的密度越小,说明其内部样本的离散性越高,合成样本与聚类内部样本重叠的概率低,对分类的帮助更大;第二点,聚类与近邻多数类样本的平均欧式距离越大,说明此少数类聚类离分类边界越远,则在其内部生成的样本更安全。由上述可知,密度越小且离多数类越远的适宜过采样聚类,其被赋予的权重越大,此聚类也越大。具体的步骤如下。步骤1:通过式(8)计算适宜过采样聚类mci的密度density(mci)。(8)步骤2:计算适宜过采样聚类mci与其近邻多数类样本的平均欧式距离。(9)其中,pi是聚类mci中的第个少数类样本;qi()是pi的K个近邻样本中的第个多数类样本,且K值依据经验设置为5;i是
23、pi的K个近邻样本中标签为多数类的样本的总数目;D(pi,qi()是指pi与qi()之间的欧式距离;Num(mci)代表聚类mci内所含的样本总数。步骤3:分配适宜过采样聚类mci的过采样权重Wi。为了使合成的样本更安全且有助于分类,本研究的方法旨对聚类的密度density(mci)越小和与近邻多数类样本的平均欧式距离越大的聚类分配更大的权重。为了方便计算,将聚类的密度density(mci)2023年5期印刷与数字媒体技术研究.indd 292023年5期印刷与数字媒体技术研究.indd 292023/10/7 16:20:132023/10/7 16:20:1330印刷与数字媒体技术研究2
24、023年第5期(总第226期)转换为,f(mci)越大则意味着聚类mci的密度越小。已知,density(mci)与这两个因素对聚类mci所应分配权重的影响是不同的。由于目前无法确定哪一个因素的影响力更大,在本研究的方法中引入了一个常数参数G,G的范围在区间(0,1)内,其最佳值取决于数据集。有关对参数G 选择合理值的进一步建议,将在后文中进行论述。式(10)是分配聚类mci的过采样权重Wi的具体公式。(10)其中,G是指聚类的密度这一因素对该聚类所分配权重的影响的比重,1-G则是指聚类与其近邻多数类的平均欧式距离这一因素对该聚类所分配权重的影响的比重。步骤4:自适应适宜过采样聚类mci的大小
25、。在这一步中,通过将聚类mci的权重除以所有权重的和,可以得到聚类mci的分配概率gi,然后根据分配概率gi和多数类样本数与少数类样本数的差值自适应得到聚类mci的大小,具体的公式如式(11)、式(12)所示。(11)(12)其中,Ni是指第i个适宜过采样聚类内需要生成的综合少数类样本的数量。1.4 生成综合少数类样本传统的SMOTE合成的样本处在两个少数类样本的连线之间。在本研究中,如果在适宜过采样的少数类聚类中直接采用SMOTE,合成样本所处的范围具有一定的局限性。为此,本研究提出了一种基于SMOTE的两步过采样方法,在每一个适宜过采样的少数类聚类内生成综合少数类样本。此方法将生成的样本限
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 欧式 距离 自适应 采样 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。