基于NaN-Bicluster SMOTE的非均衡信贷数据分类研究及应用.pdf
《基于NaN-Bicluster SMOTE的非均衡信贷数据分类研究及应用.pdf》由会员分享,可在线阅读,更多相关《基于NaN-Bicluster SMOTE的非均衡信贷数据分类研究及应用.pdf(13页珍藏版)》请在咨信网上搜索。
1、ISSN 10049037,CODEN SCYCE4Journal of Data Acquisition and Processing Vol.38,No.6,Nov.2023,pp.1482-1494DOI:10.16337/j.10049037.2023.06.021 2023 by Journal of Data Acquisition and Processinghttp:/Email:sjcj Tel/Fax:+8602584892742基于 NaNBicluster SMOTE 的非均衡信贷数据分类研究及应用何亮,徐海燕,陈璐(南京航空航天大学经济与管理学院,南京 211106)
2、摘要:为了有效评估非均衡信贷数据中的借款人信用风险,基于合成少数过采样技术(Synthetic minority oversampling technique,SMOTE)、自然近邻(Natural neighbor,NaN)和双聚类(Bicluster)构建了NaNBicluster SMOTE 方法以改进 SMOTE。首先使用无参数的自然近邻设定采样样本选取的逻辑规则,规避了r近邻划分样本时产生的不稳定性;其次基于自然近邻稳定结构规定安全范围设定的逻辑规则,避免合成样本成为噪声样本;然后使用双聚类挖掘局部规则,以合成样本继承局部规则的方式改进SMOTE合成公式;最后,在Prosper小额贷
3、款平台的非均衡信贷数据集上将NaNBicluster SMOTE与若干采样方法和机器学习模型进行对比分析,并进一步使用统计检验方法验证其性能的优越性。关键词:小额贷款;信用风险;合成少数过采样技术;自然近邻;双聚类中图分类号:TP181 文献标志码:AResearch and Application of Imbalanced Credit Data Classification Based on NaNBicluster SMOTEHE Liang,XU Haiyan,CHEN Lu(College of Economics and Management,Nanjing University
4、 of Aeronautics&Astronautics,Nanjing 211106,China)Abstract:To assess borrower s credit risk using imbalanced data,we propose an improved SMOTE,called NaN-Bicluster SMOTE,which is based on synthetic minority oversampling technique(SMOTE),natural neighbor(NaN)and bicluster.Firstly,we use parameterless
5、 NaN to set logical rules for sampling sample selection,avoiding the instability caused by r nearest neighbor partitioning of samples.Secondly,based on the neighbor relationship of stable structure,we set logical rules that specify security range to avoid samples becoming noise samples.Then,we use b
6、icluster to mine local rules,synthetic samples inherit local rules,and synthetic formula is improved.Finally,we apply several sampling methods and machine learning models,carry out various experiments of NaN-Bicluster SMOTE and comparative models on Prosper s credit data,and further use statistical
7、testing methods to verify the performance of NaN-Bicluster SMOTE.Key words:microloans;credit risk;synthetic minority oversampling technique(SMOTE);natural neighbor(NaN);bicluster基金项目:国家自然科学基金面上项目(71971115);国家自然科学基金青年项目(72201126);智能决策与数字化运营工业和信息化部重点实验室项目(NJ2023027)。收稿日期:20220713;修订日期:20221005何亮 等:基于
8、NaNBicluster SMOTE的非均衡信贷数据分类研究及应用引 言小额贷款作为小额度的持续性信贷形式1,在缓解个人及中小企业的资金约束、推动经济持续增长的过程中,发挥着不可替代的作用2,已经成为一种主要的信贷模式。然而,越来越多的小额贷款平台因为借款人的信用风险而蒙受巨大损失,甚至濒临破产和倒闭34,因此,有效甄别信用优质的借款人对信贷行业的健康发展有着深远影响。机器学习模型可以有效甄别借款人的信用风险,借助于信贷数据对借款人的信用进行“违约”与“非违约”风险的分类评估。决策树(Decision tree,DT)5、逻辑回归(Logistic regression,LR)6、K 近邻(K
9、 nearest neighbor,KNN)7、支持向量机(Support vector machine,SVM)89和神经网络(Neural network,NN)10等机器学习模型已被广泛用于评估信用风险,并被证实具有较好的性能。而在现实信贷数据中,“违约”借款人占比极少,与“非违约”借款人的数量差异极大,这种差异使得信贷数据具有非均衡特征。机器学习模型在处理非均衡数据时,往往过多地学习“非违约”的多数类样本,对“违约”的少数类样本识别欠缺,致使机器学习模型对“违约”的少数类样本识别能力近乎为零,无法分类出关键的“违约”借款人也就不具备实际应用价值。如何妥善处理信贷数据的非均衡特征,提升机
10、器学习模型的分类能力,成为信用风险评估中亟待解决的问题。现有研究中,非均衡数据的处理方式可分为成本敏感方法11、算法级方法12和数据级方法13。数据级方法使用最为广泛,包含欠采样方法和过采样方法。两种采样方式虽然同样易受噪声和边界样本的影响,但欠采样方法丢失过多数据,数据原有特性被破坏,而过采样方法的对象是决策者关注的“违约”少数类样本,应用场景较欠采样方式更为广泛。合成少数过采样技术(Synthetic minority oversampling technique,SMOTE)14是一种著名的过采样方法,通过在邻近的少数类样本之间进行随机线性插值合成新少数类样本,从而达到数据均衡,被运用于
11、信用风险评估15、虚假评论识别16及工业故障检测17等诸多领域。然而,诸多研究表明 SMOTE 的合成过程易受噪声和边界样本影响,均衡化后的数据往往不符合预期1819,因此,改进合成过程以此提升 SMOTE的均衡能力至关重要。采样方式和合成公式是 SMOTE 改进的两个主要方向。采样方式的改变是指在指定区域内合成少数类样本。Han等20认为处于正负类之间的边界样本被误分的概率较大,于是基于在边界区域合成样本的思想构建了 Borderline SMOTE,但其忽视了噪声的影响;Bunkhumpornpat等21通过计算安全水平范围,提出了 SafeLevel SMOTE,将合成的少数类样本置于安
12、全区域,但合成的少数类样本过于靠近多数类样本,从而干扰了分类过程;赵冬雪等22融合采样方式和粗糙集属性约简技术,构建动态集成的分类模型;邢延等23使用类别混叠度作为采样的依据,指导非均衡数据的分类;吴志峰等24综合使用逐级优化递减欠(Optimization of decreasing reduction,ODR)采样算法和数据清洗方法,构建了融合自适应变核参数模型(ODRBSMOTETOMEK adaptive support vector machine,OBTAdaptiveSVM),以提升分类性能。改变合成公式旨在弥补线性随机插值带来的噪声样本过度泛化且随机性较强的不足。Li 等25通
13、过计算少数类样本与其自然近邻(Natural neighbor,NaN)样本的属性差值,替代传统SMOTE 的属性差值计算,使得合成样本与少数类样本具有更多的相似性,并消减噪声样本的影响;Soltanzadeh 等26构建了边界约束的合成少数过采样技术(Rangecontrolled synthetic minority oversampling technique,RCSMOTE),通过计算属性的范围,融合差分计算并设计了一套全新的合成公式,但对高维属性的数据运算较为缓慢。现有研究对传统 SMOTE 进行了多方改进,但采样样本选取、合成公式制定仍存在部分欠缺之处,具体如下:(1)现有研究通过
14、r近邻(rnearest neighbor,NNr)划分安全样本、边界样本和噪声样本,以此选定边界样本进行采样。然而,该种划分方式严重依赖于近邻参数r的设定,整个合成过程对参数取值1483数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023极为敏感,存在较大的不稳定性。(2)在边界样本的少数类样本和其r近邻少数类样本合成新样本时,无法保证少数类样本与r近邻少数类样本同时处于安全范围,存在合成样本置于多数类范围内的现象,成为噪声样本并混淆了分类边界。(3)随机线性差值的合成公式忽视了合成样本与少数类样本之间的关联规
15、则,合成样本应继承少数类样本的规则,以体现两者的相关性。针对现有研究中存在的问题,本文在 SMOTE 基础上,借助于无参数设定并提供稳定结构的自然近邻、用以挖掘数据隐藏的局部信息及表达同类数据关联规则的双聚类(Bicluster)2728,构建了NaNBicluster SMOTE,以此从采样样本选取、安全范围设定和合成公式制定多个角度改进 SMOTE。首先,使用无参数的自然近邻设定采样样本选取的逻辑规则,找出可疑样本并用离群度对可疑样本进行边界样本和噪声样本的甄别,取代依赖于参数设定的r近邻样本划分方式,更为客观地选取参与采样的边界样本;其次,对于边界样本中的少数类样本,借助自然近邻的稳定结
16、构规定安全范围设定的逻辑规则,规避合成样本置于多数类范围的情形;然后,在安全范围内,通过双聚类提取局部规则,使得合成样本继承少数类样本的局部规则,从而实现合成公式的改进;最后,结合 Prosper小额贷款平台的信贷数据,与已有的多种采样方法和机器学习模型进行大量的对比分析,并使用统计检验方法验证本文所提的 NaNBicluster SMOTE方法在信贷数据上的均衡性能。1 理论分析1.1SMOTE(1)基础理论SMOTE 通过少数类样本xmini、xminj的随机线性插值合成新少数类样本xnew,实现数据的均衡化20,合成公式可表示为xnew=xmini+gap(xmini-xminj)(1)
17、式中gap表示 01 之间的随机数。对于任意一个少数类样本xmini,挑选其 r 近邻集合中的少数类样本xminj,通过式(1)合成新的少数类样本xnew。(2)理论不足现有研究中 SMOTE的采样样本选取、合成公式制定仍有待完善,具体问题可归纳为以下 3点:第一,采样样本的选取过程严重依赖于参数设定。现有研究通过r近邻集合中少数类样本的个数r,实现安全样本S(r/2 r r)、边界样本B(0 r r/2)和噪声样本N(r=0)的划分,并对边界样本进行过采样,如图 1(a)所示。但该过程依赖近邻参数 r的设定,不同 r得到的边界样本集合是不同的,使 SMOTE的性能存在较大不稳定性。图 1SM
18、OTE采样样本选取及安全范围示意图Fig.1Schematic diagram of sample selection and safe range setting for SMOTE sampling1484何亮 等:基于 NaNBicluster SMOTE的非均衡信贷数据分类研究及应用第二,无法保证合成过程处于安全范围。在图 1(b)中,Bmini为边界样本中的少数类样本,Bmini,r近邻为Bmini的r近邻集合中的少数类样本,在Bmini和Bmini,r近邻之间合成新少数类样本Bmini,new,但参与采样的样本Bmini与Bmini,r近邻未处于安全合理的范围,使得合成样本Bmin
19、i,new处于多数类样本的范围之内,成为不符合预期的噪声样本。第三,合成公式的制定有较大提升空间。式(1)中的xmini体现合成样本与原样本的相似性,gap(xmini-xminj)则体现了二者的差异性,在一定程度上权衡了相似性和差异性,但尚未充分体现xmini、xminj和xnew之间的内在关联规则。1.2自然近邻自然近邻相较于r近邻,是一种无参数设定的检测技术29,被广泛运用于异常值检测30和分层聚类31等领域;其原理是不断搜索每个样本的r近邻,直到每一个样本都有一个相互的r近邻,形成稳定结构,此时自然近邻的特征值等于r32,且每个样本的自然近邻集合的元素个数均不同,可以表述为(xi)(x
20、j)(r n)(xi xj)(xi NNr(xj)(xj NNr()xi)(2)式中:xi和xj分别表示两个不同的样本;NNr(xi)表示xi的r近邻集合;NNr(xj)表示xj的r近邻集合。在一个稳定结构中,对于任意一个xi,都存在与之不同的xj,使得xi与xj互为r近邻。自然近邻的定义如式(3)所示,被看作为稳定结构中构成的友邻关系xi NaN(xj)xj NN(xi)xi NN(xj)(3)式中NaN(xj)表示xj的自然近邻集合。xi属于xj的自然近邻集合的充要条件是,在稳定结构中,xj是xi的近邻,且xi是xj的近邻。1.3双聚类相较于传统聚类搜寻的全局信息,双聚类挖掘了数据隐藏的局
21、部信息,用以表达同一类数据的关联规则27。其原理是同时对矩阵的行和列进行聚类,寻找具有紧密联系的子矩阵,即为双聚类结果,如图 2所示。在图 2中,依据平均平方残差删除无关联的行或者列,得到平均平方残差在阈值范围内的子矩阵,进而归纳出局部规则,具体定义如下33。m n的数据集构成原始矩阵A,G为m个样本的集合,C为n个属性的集合,xij为第i个样本的第j个属性值。双聚类结果为Bicluster=(I,J),其中I为G的子集,J为C的子集,子矩阵Bicluster的平均平方残差H(I,J)的计算公式为H(I,J)=1|I|Ji I,j J(xij-xIj-xiJ+xIJ)2(4)图 2双聚类示意图
22、Fig.2Schematic diagram of bicluster1485数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023式 中:xiJ表 示Bicluster第i行 的 平 均 值,xiJ=1|Jj Jxij;xIj表 示Bicluster第j列 的 平 均 值,xIj=1|Ii Ixij;xIJ表示Bicluster的平均值。通过设定子矩阵Bicluster的最大平均平方残差,决定Bicluster中行列的添加与删除,(0,1)。越小,允许的最大平均平方残差越小,表明子矩阵的内在联系越紧密,则Bicl
23、uster和局部规则的规模越小;反之,Bicluster和局部规则的规模越大3435。2 NaNBicluster SMOTE方法构建为完善 SMOTE 的理论不足,构建了 NaNBicluster SMOTE 方法的框架结构,依据该框架结构依次介绍本文工作。2.1NaNBicluster SMOTE框架构建基于自然近邻、双聚类和 SMOTE,构建了 NaNBicluster SMOTE 方法,分为采样样本选取、安全范围设定和局部规则提取与合成公式改进 3个阶段,具体如图 3所示。第一阶段,采样样本选取。使用无参数的自然近邻设定逻辑规则,得出非均衡数据中的可疑样本。设定离群度阈值,甄别出可疑样
24、本中的边界样本和噪声样本,删除噪声样本减少其造成的不利影响,选取边界样本参与采样。替代了r近邻的样本划分方式,增强了模型输出结果的稳定性。第二阶段,安全范围设定。使用自然近邻的稳定结构设定逻辑规则,为边界样本中的少数类样本设定合理安全的范围,避免合成样本处在多数类样本范围内、成为扰动 SMOTE均衡性能的噪声样本。第三阶段,局部规则提取与合成公式改进。在安全范围内,使用双聚类提取各个范围内少数类样本的局部规则,充分体现安全范围内少数类样本的共有特性。通过合成样本继承局部规则的方式,实现 SMOTE合成公式的改进。2.2基于自然近邻的采样样本识别使用自然近邻设定可疑样本识别的逻辑规则。若样本自然
25、近邻中存在与其分类标签不一致的样本,则该样本称为可疑样本(Suspicious sample,SE);若样本的标签与其所有自然近邻标签完全一致,则该样本称为正常样本(Normal sample,NE),其定义分别如式(5)和式(6)所示。xi SE(xj)(xj NaN()xi)(l()xi l(xj)(5)图 3NaN-Bicluster SMOTE方法框架图Fig.3Framework of NaN-Bicluster SMOTE1486何亮 等:基于 NaNBicluster SMOTE的非均衡信贷数据分类研究及应用xi NE(xj)(xj NaN()xi)(l()xi=l(xj)(6)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于NaN-Bicluster SMOTE的非均衡信贷数据分类研究及应用 基于 NaN Bicluster SMOTE 均衡 信贷 数据 分类 研究 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。