基于非平衡问题的高斯混合模型卷积神经网络.pdf
《基于非平衡问题的高斯混合模型卷积神经网络.pdf》由会员分享,可在线阅读,更多相关《基于非平衡问题的高斯混合模型卷积神经网络.pdf(12页珍藏版)》请在咨信网上搜索。
1、第41卷 第4期2023年7月应用科学学报JOURNAL OF APPLIED SCIENCESElectronics and Information EngineeringVol.41 No.4Jul.2023DOI:10.3969/j.issn.0255-8297.2023.04.010基于非平衡问题的高斯混合模型卷积神经网络徐红1,矫桂娥2,3,张文俊31.上海海洋大学 信息学院,上海市 2013062.上海建桥学院 信息学院,上海市 2013063.上海大学 上海电影学院,上海市 200072摘摘摘要要要:为了提升分类模型对非平衡数据的分类性能,提出一种 EMWRS(expectati
2、on-maximization weighted resampling)抽样算法和 WCELoss(weighted cross entropy lossfunction)损失函数,在数据预处理阶段采用高斯混合模型得知数据分布特点,根据其聚类结果分析每个聚类簇中样本权重,以及样本分布和对应权重对数据进行采样,降低数据集不平衡程度;再依据样本比例权重对少数类和多数类赋予不同的代价损失,构建卷积神经网络模型,提高非平衡数据集的分类准确性。构建的卷积神经网络以 F1 和 G-mean 为评价指标,在UCI(university of California irvine)公共数据集 adult 上与
3、SMOTE(synthetic minorityover-sampling technique)和 ADASYN(adaptive synthetic sampling)等多种经典算法进行比较,结果显示在这两种评价指标中所提模型均为第一,这表明改进后的卷积神经网络模型能够很好地提高少数类分类正确率。关键词:非平衡数据;高斯混合模型;样本加权;代价损失;卷积神经网络中图分类号:TP183文章编号:0255-8297(2023)04-0657-12Gaussian Mixture Model Convolution Neural NetworkBased on Imbalanced Problem
4、XU Hong1,JIAO Guie2,3,ZHANG Wenjun31.School of Information,Shanghai Ocean University,Shanghai 201306,China2.School of Information,Shanghai Jianqiao University,Shanghai 201306,China3.Shanghai Film Academy,Shanghai University,Shanghai 200072,ChinaAbstract:Imbalanced data classification is a challengin
5、g task in big data mining.Thedistribution of imbalanced data seriously affects the classification performance of models,especially for minority classes.In this paper,an expectation-maximum weighted resampling(EMWRS)algorithm and weighted cross entropy Loss(WCELoss)function are proposedto improve the
6、 classification performance of imbalanced data.The proposed approach uti-lizes a Gaussian mixture model to preprocess the data and employs weighted samplingand cost-sensitive learning to construct a convolutional neural network model.The con-structed convolutional neural network is evaluated using F
7、1 and G-mean as indicators,收稿日期:2021-09-25基金项目:校级重点科研项目(No.sjq17007);江苏省研究生科研与实践创新基金(No.SJCX20_1352)资助通信作者:矫桂娥,副教授,研究方向为数字媒体及应用、大数据分析及可视化。E-mail:658应用科学学报第41卷and compared with various classic algorithms such as SMOTE(synthetic minor over sam-pling technique)and ADASYN(adaptive synthetic sampling)on
8、the adult datasets of UCI(university of California irvine).The experimental results demonstrate that the proposedmodel outperforms ADASYN and other classical algorithms in terms of F1 and G-meanon UCI adult datasets,which indicates that the proposed model effectively enhances theaccuracy of minority
9、 classification.Keywords:imbalance data,Gaussian mixture model,sample weighting,cost loss,convo-lutional neural network非平衡问题是在数据集中不同类别分布差异较大,即样本数量多的类为多数类,拥有少量样本的类为少数类,类别分布不平衡的数据集增加了分类任务的难度,但是在分类任务中对于少数类的检测非常的重要。比如银行用户防诈骗检测、医疗疾病诊断、客户流失数据检测、设备故障检测等1-5。传统的分类学习器适合类别平衡分布的数据集,在对非平衡数据集分类时,模型会受多数类样本影响导致分类结果
10、向多数类倾斜,从而会有少数类分类错误,但在数据挖掘中少数类的信息价值更高,因此更准确地判别少数类,对于非平衡分类问题的研究非常重要。研究人员对该类问题的解决方法主要有两大主流方法:数据层面和算法层面。数据层面的方法主要是对原始数据进行重采样6和特征处理,改变数据分布状态,在数据预处理阶段降低类别非平衡程度,采样方法主要有欠采样、过采样和融合7。欠采样算法主要通过舍弃部分多数类样本,以达到样本类别的平衡;过采样算法根据某些规律生成少数类样本,来解决数据集中的不平衡问题;融合采样方法则融合了欠采样算法和过采样算法,舍弃部分多数类样本,增加少数类样本,进而平衡非平衡样本的分布。这些方法都是在数据层面
11、的调整,让数据在输入分类模型前就实现分布平衡,但这种简单生成新样本的过采样方法在一定程度上会生成噪声样本,非但起不到提高检测少数类精确率的效果,还会对多数类的判别产生混淆影响。算法层面的方法主要有集成方法8和代价敏感方法9,其思路是设计一个特定用于非平衡分类的算法。集成学习思想是将弱学习器组合成一个强学习器,弱学习器之间是否互通又将集成学习划分为 Boosting 和 Bagging 两类集成学习算法。代价敏感算法是针对传统分类器而提出的一种类似惩罚策略的算法,对于不同类别分类错误赋予不同大小的惩罚来构建分类学习器,一般是少数类分类错误代价更高。算法层面的改进方法,目的是解决特定非平衡问题,实
12、际应用中有多种特定的非平衡算法,其中卷积神经网络因为其优越的特征提取性能而广泛应用于非平衡问题中。卷积神经网络的发展在计算机视觉、自然语言等领域都取得了较好的成果,卷积神经网络可以用较少的参数获得更好的性能,作为一种高效的数据挖掘方法,许多研究人员将其用于解决非平衡问题。为解决非平衡问题,在数据预处理阶段对非平衡数据集抽样较多采用过采样的方法,其中经典的过采样方法有 SMOTE 等。该类算法的主要特点是依据少数类样本的某些规律生成更多少数类样本,但很多数据集的规律与 SMOTE 生成样本所依据的规律并不相关。按照过采样方法生成的样本会有很大概率生成噪声样本,进而影响分类效果降低多数类的正确率。
13、因此,本文在数据预处理阶段提出了一种新的过采样方法 EMWRS(expectation-maximumweighted resampling)抽样算法,该方法将高斯混合模型与加权采样算法相结合,通过采样算法对数据进行预处理,降低训练数据集的不平衡程度。高斯混合模型是一种概率密度聚类算法,在预测数据分布概率方面有较好的分类效果。该模型会计算出数据点的分布概率,即归属于哪个单模型,对于数据集中这些样本分布概率表明算法对分类结果的把握程度,考虑到数据的统计特征。高斯混合模型考虑了多数类和少数类原始数据的分布概率,以及其相关统计第4期徐红,等:基于非平衡问题的高斯混合模型卷积神经网络659特征和重叠范
14、围。EMWRS 抽样算法在对原始数据的选择上更加注重少数类的分布特征,抽样较高质量的少数类新样本,本采样算法避免了生成大量噪声样本的弊端,使模型分类效果更好。1相关工作1.1数据预处理许多研究成果表明,数据预处理可以有效提高非平衡分类模型的性能。目前数据预处理方法主要是通过改变原始数据分布降低数据类别分布不平衡程度,使用最多的预处理方法是重采样算法,通过对非平衡数据集进行重采样,使得采样后的数据集类别分布平衡。数据预处理阶段的重采样技术主要包括过采样和欠采样。过采样算法的主要目的是得到更多的少数类样本,以此达到数据分布平衡,但这种简单生成新样本的方式,会使生成的新样本具有很大的不确定性,生成的
15、少数类样本质量不高,极易产生过拟合问题,为了解决这一问题,文献 10 提出了一种在少数类邻近线性合成新样本的 SMOTE 方法,弥补了简单生成新样本的不足,可以避免一定的过拟合情况,但该方法合成的新样本有一定重复性,部分样本会变成噪声样本。因此,研究人员在此基础上将 SMOTE 和欠采样方法相结合,对少数类进行 SMOTE 进行过采样,在多数类中进行随机欠采样,该方法会过多地生成新的少数类样本,在一定程度上降低样本噪声的影响。文献 11 提出了 Borderline-SMOTE 算法,用边界上的少数类样本来合成新样本,以此改善样本类别分布不平衡的问题。文献 12 提出了 ADASYN(adap
16、tive synthetic sampling)算法,针对 SMOTE 算法盲目生成样本的缺点进行了改进,利用少数类样本的密度分布来计算少数类样本合成样本的数目,让少数类样本合成更多样本平衡数据分布。为解决数据非平衡问题文献 13 提出了基于样本难聚性为指标对样本加权的采样方法,该方法对数据集中数据依据样本进行加权,在抽样操作中被选中的概率由样本权重决定。1.2卷积神经网络中的非平衡问题卷积神经网络是深度学习中的经典代表算法,在图像、视觉、数据挖掘和自然语言等领域都得到广泛关注14-16,卷积神经网络具有高效快速提取特征的学习能力,所以在数据挖掘领域也被广泛应用,许多研究学者将其应用于非平衡问
17、题。卷积神经网络的特征提取能力很强,并且卷积神经网络模型中的参数量也较小,一个卷积神经网络模型集成了特征提取与分类输出两个主要功能块。经典的神经网络模型由数据输入层、特征提取层卷积层、特征池化层、分类全连接层和结果输出层构成。卷积神经网络将输入数据进行特征提取、降维、归一、分类等操作,输出对数据的处理结果,整个训练学习流程都在一个模型中进行。卷积神经网络模型的训练过程是模型在训练数据集中学习最优模型权重的过程。在训练过程中,网络模型以最小的损失函数为目标函数,在不断的训练中更新网络权重使损失函数达到尽可能的小,在处理非平衡问题时,研究人员提出了很多针对卷积神经网络损失函数的改进方法。较经典方法
18、是代价敏感方法,对少数类和和多数类赋予不同大小的代价,并将类别代价与损失函数结合,该类方法可以有效解决非平衡分类问题。文献 17 提出了线性指数损失的增量代价敏感学习,文献 18 提出了一种焦点损失函数,用于解决红细胞形态分类的非平衡问题,文献 19 还采用重加权方式改进交叉熵损失函数,将对数权重和有效样本权重线性组合为损失函数的权重,并在医学影像中取得了较好的效果。文献 20 还将过采样方法与代价敏感方法相结合,在数据预处理阶段和神经网络的损失函数都做出和改进用以预测破产数据660应用科学学报第41卷非平衡问题。对于非平衡数据分类问题,本文采用的卷积神经网络结构,如图 1 所示。在数据预处理
19、中采用 EMWRS 抽样算法对原始数据进行采样,神经网络对采样之后降低不平衡度的数据集进行分类,卷积神经网络结合 WCELoss 损失函数优化分类模型。从图 1 中的结构来看,卷积神经网络卷积组由 3 个特征提取的卷积层和特征降维的最大池化层对输入数据处理,经过分类层输出分类结果,模型中激活函数采用线性整流函数(rectified linear unit,ReLU),卷积层由 ModuleList 组合而成,并将所需模型参数自动添加到整个网络中。经过卷积神经网络的训练,原始数据损失函数作为衡量模型分类结果和真实标签的差异程度的目标函数,将根据模型对输出的分类结果赋予样本相应的权重损失并反馈给模
20、型,模型依据损失函数进行下一轮训练,以此逐步提高模型对于非平衡数据的分类准确性。?N(batch_size)Conv2d_1(1,128,(2*d),2)Conv2d_1(1,128,(2*d),2)Conv2d_2(1,128,(3*d),2)Conv2d_3(1,128,(4*d),2)?Z(i)MaxPool_1(2*2,2)MaxPool_2(2*2,2)MaxPool_3(2*2,2)图 1 卷积神经网络结构Figure 1 Convolutional neural network structure2高斯混合模型及 EM 算法2.1高斯混合模型高斯混合模型是由多个单个高斯模型组成的
21、混合模型,混合模型能够表示数据的总体分布,并且可以拟合任意形状。高斯混合模型具有较好的数学性质和良好的计算性能,实际中的数据集都较复杂,混合模型能够很好地拟合复杂的数据集。鉴于高斯混合模型的这个优点,本文在数据预处理阶段采用混合模型对数据集进行整体概率分布的拟合。高斯混合模型是表示多个高斯概率密度函数的统计模型,是高斯分布函数的线性组合,表示为p(x|,)=KXk=1kN(x|k,k)(1)式中:N(x|k,k)是高斯混合模型中的第 k 个高斯分布概率密度函数,数据均值为 k,为协方差,N 是数据维度;,是高斯混合模型中的参数;k表示样本 x 从 K 个高斯分布中第4期徐红,等:基于非平衡问题
22、的高斯混合模型卷积神经网络661选取时,第 k 个高斯模型的权重,也称为混合系数,其关系为kXk=1k=1,0 6 k6 1(2)混合高斯模型的本质是融合多个单高斯模型,使得模型更复杂,从而能够拟合更多数据样本。如果在高斯混合模型中,合理设置单个高斯模型的数量和相互权重,就可以拟合任意形状分布的数据。假设 X=x1,x2,xnT是 n 个 N 维独立分布的数据集,Z=z1,z2,znT,zi维样本观测值 xi所对应的隐含变量,即随机取一个样本数据点 xi归属的类别。根据高斯混合模型表达式中的概率密度 N(x|k,k),k=1,2,K,概率分布均值为k,协方差 k可知,对于每一个高斯分布来说,其
23、概率密度分布函数为N(x|k,k)=1(2)N2|k|12exp(x k)T1(x k)2)(3)对于 n 个 N 维独立分布的数据集来说,数据 X 分布服从于 N(RN,RNN),均值为(=(1,2,k),协方差为 =E(x x)(x x)T)且 =1,2,k,得到 X的联合概率密度为p(x|,)=nYj=1(KXk=1kN(xj|k,k)(4)因此对于多元高斯混合模型来说,参数 =,,高斯混合模型加入了隐含变量,通过样本的联合概率最大来估计模型参数,得到最佳的数据分布,可以尽可能地拟合该样本分布。2.2EM算法最大期望(expectation-maximization,EM)算法根据各类模
24、型分布和采样数据可以分别采样数据来源类别,并得到各子模型的参数。EM 算法主要有两个功能:一是对每个数据点计算其归属于哪一个单模型的期望;二是更新模型参数,模型最优化对模型计算新一轮迭代的模型参数。步骤 1对一个 n 个样本的数据集,k 个子分部概率模型,计算数据点的归属概率 p(x|),迭代最优模型参数。对数据点的分布期望计算式为Q(|(old)=EZ(lgp(x,Z|)|x,(old)=KXk=1nXi=1(Zik)lgk+KXk=1nXi=1(Zik)lgN(xi|k)(5)式中:对 的求值就是对模型参数的迭代更新,(old)是高斯混合模型中参数在 EM 算法中上一次的迭代值;(Zik)
25、表示对 xi来说由第 k 个高斯分布生成的概率,也称后验概率,其表达为(Zik)=kN(xi|k,k)KPk=1kN(xi|k,k)(6)662应用科学学报第41卷步骤 2在步骤 1 中采用最大似然方法求解模型参数为(new)k=1nnXi=1(Zik)(7)(new)k=1n(new)knXi=1xi(Zik)(8)(new)k=1n(new)knXi=1(Zik)(xi(new)k)(xi(new)k)T(9)步骤 2求 Q 的极大化,每进行一次迭代,模型参数就进行一次更新,迭代的过程就是参数矫正,最终似然函数达到局部最大,给定迭代停止条件直到算法收敛。EM 算法是高斯混合模型的一种迭代算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 平衡 问题 混合 模型 卷积 神经网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。