基于SHAP值的类重叠识别方法对FSVM的改进.pdf
《基于SHAP值的类重叠识别方法对FSVM的改进.pdf》由会员分享,可在线阅读,更多相关《基于SHAP值的类重叠识别方法对FSVM的改进.pdf(11页珍藏版)》请在咨信网上搜索。
1、引用格式:曹玉茹,高洋洋,李祈萱基于 SHAP 值的类重叠识别方法对 FSVM 的改进J.微电子学与计算机,2023,40(10):9-19CAO Y R,GAO Y Y,LI Q X.Improvement of FSVM by the method of class overlap recognition based on SHAP valueJ.Microelectronics&Computer,2023,40(10):9-19.DOI:10.19304/J.ISSN1000-7180.2022.0859基于 SHAP 值的类重叠识别方法对 FSVM 的改进曹玉茹,高洋洋,李祈萱(上海对
2、外经贸大学 统计与信息学院,上海 201620)摘要:在分类问题中,类重叠现象会大大影响分类模型的效果,针对类重叠样本的识别问题,提出了一种基于SHAP 值的类重叠识别新方法,基于 SHAP 值构造出样本在所属类中的分类作用能力隶属属性,对类间重叠样本进行有效识别,然后利用仿真实验验证了基于 SHAP 的类重叠识别方法的适用性;将样本的分类作用能力归一化后构造出样本隶属度度量,并将该隶属度应用于模糊支持向量机(Fuzzy Support Vector Machine,FSVM)算法后得到FSVM_SHAP 模型,通过在多个经典二分类数据集上实验得到了较好的效果,体现了该模型的有效性.关键词:二
3、分类;类重叠;SHAP 模型;隶属度;FSVM中图分类号:TP181 文献标识码:A 文章编号:1000-7180(2023)10-0009-11Improvement of FSVM by the method of class overlap recognitionbased on SHAP valueCAO Yuru,GAO Yangyang,LI Qixuan(School of Statistics and Information,Shanghai University of International Business and Economics,Shanghai 201620,C
4、hina)Abstract:In the classification problem,the phenomenon of class overlap will greatly affect the effectiveness of theclassification model.A new method of class overlap recognition based on SHAP values is proposed for the identification ofclass overlap samples.Based on the SHAP value,the membershi
5、p attribute of the samples classification ability in the classto which it belongs is constructed to effectively identify the overlapping samples between classes.The applicability of theclass overlap recognition method based on SHAP is verified by using simulation experiments;After normalizing thecla
6、ssification capability of samples,the membership measure of samples is constructed and applied to the fuzzy supportvector machine(FSVM)algorithm to obtain FSVM_SHAP,The model has been tested on several classic binary data setsand achieved good results,which reflects the effectiveness of the model.Ke
7、y words:binary classification;class overlap;SHAP model;degree of membership;FSVM 1引言当不同类别样本同属于特征空间的重叠区域时,会产生类重叠问题.研究表明,处于类重叠区域的不同类样本具有相似的取值,所以,在边界模糊的重叠区域,传统的分类器较难找到可行的解决方案,分类算法的表现通常较差1.在目前的研究中,类重叠区域可通过朴素贝叶斯、支持向量数据描述等方法进行识别2,3,例如:Yang提出了结合三种欠采样方法的边界噪声因子(BNF)表示边界噪声程度4,而 Trappenberg 将重叠样本视为一个新类,赋予不同的类别
8、标签进行建模学习5.Devi 将重叠区域视为异常值样本,使用 one-classSVM 进行检测,并改进了 Tome-link 用以消除重叠情 收稿日期:2022-12-13;修回日期:2023-01-09 40 卷 第 10 期微 电 子 学 与 计 算 机http:/Vol.40No.102023 年 10 月MICROELECTRONICS&COMPUTEROctober 2023况6.基于支持向量机改进的模糊支持向量机(FuzzySVM,FSVM)能够更好地解决异常值和噪声问题,通过为不同样本赋予隶属度,以反映其重要性,被广泛应用于类重叠分类问题7.隶属度函数的构造是模糊支持向量机的核
9、心,目前比较常见的有基于类中心距离7、基于到类内超平面距离8等方法.由于基于类中心距离的隶属度方法7对于数据分布的规则形状依赖较大,基于样本点到类内超平面距离的隶属度计算方法8改进了传统的依赖分布规则形状的距离计算模式,但缺点是对类别非对称的复杂分布,隶属度计算方式仍不合适,会导致错误评估样本分类重要性.另外对于类不均衡数据,类重叠对分类效果的影响更加明显,Lee 构建了基于 KNN 和 FSVM 的重叠敏感边缘分类器(OSM)来解决类不平衡和重叠问题,但识别效果非常依赖于 KNN 分类器,因而精度一般9.Batuwita 提出了专门针对类不平衡数据的FSVM-CIL 算法,该方法对不平衡数据
10、有效,但却牺牲了整体的预测效果10.上述方法基于距离识别类重叠并赋予代表样本分类重要性程度的隶属值,均有依赖样本分布的局限性,而考虑到 SHAP 后置解释模型能解释前置模型训练后的数据特征在分类过程中的作用力大小与方向,可以直接帮助区分已知类别数据中分类作用较弱的样本(即类间重叠点),从而避免由于类别非对称等复杂分布导致的样本重要性错误评估.本文提出了一种基于 SHAP 值计算样本分类作用的方法,解决了类重叠识别问题并将相应的样本隶属度值用在 FSVM中取得更为鲁棒的决策超平面以及更好的分类效果.文章研究内容包括:(1)提出了一种新的类重叠识别方法,来筛选类间重叠样本;(2)构造一种新的基于样
11、本分类作用的隶属度计算方式,并应用于模糊支持向量机,改善类重叠区域上超平面训练效果;(3)实验论证该方法的有效性.2相关概念及理论 2.1SHAP 模型可解释性逐渐成为近年来机器学习的重要方向,SHAP(Shapley Additive exPlanation)是在 2017 年由 Lundberg&Lee 在11中提出的一个模型可解释性框架,可以解释多种机器学习模型的输出.SHAP 将每个特征都视为“贡献者”,对样本中的每个特征变量,计算出重要性值,达到解释的效果.在进行局部解释时,SHAP 的核心是计算每个特征变量的 ShapleyValue.iFiShapley Value 起源于合作博
12、弈论,对于第 个特征的边际贡献值计算如下:i=SFFi|S|!(|F|S|1)!|F|!(fSFi(S Fi)fS(S)(1)FS FFiFifSFiFifS式中,是所有特征的集合;是除去特征后所有的特征子集;代表特征存在时训练的模型;是其余保留的特征训练的模型.特征值的Shapley 值是其对于总预测的贡献在所有可能的特征组合上加权和.2.2模糊支持向量机 2.2.1FSVM 简介支持向量机(Support Vector Machine,SVM)是一种基于结构风险最小化的分类器,通过求解二次规划问题寻找支持向量,从而训练出将数据分为两类的最佳超平面12.SVM 的特点决定了其对于训练样本的噪
13、声和异常值特别敏感,当数据中存在噪声或者野点时,当前分类超平面通常并非最优.为解决 SVM 对于异常值和噪声的过拟合问题,文献 7 在支持向量机算法上进行了改进,提出了模糊支持向量机(FSVM).两者的不同之处在于,FSVM中每个样本都被赋予了属于其类别的模糊样本权重即模糊隶属度,以表征其重要性.S=(x1,y1,s1),(xn,yn,sn)xi Rdyi 1,+1 si0 si 1假定训练样本集合为,其中,是样本的模糊隶属度,同时.FSVM 求解最优分类超平面问题则转化为求解下列目标函数的最优解:min12w2+Cni=1sii(2)s.t.yi(wTxi+b)1i,i=1,2,ni 0,i
14、=1,2,nC 0isi式中,是惩罚参数;是松弛因子,表示样本被错分的程度,模糊隶属度 越小,样本的重要性越低,其在目标函数中的作用越小,训练超平面受其影响也越小.2.2.2隶属度函数构造隶属度的计算策略对于 FSVM 的性能至关重要,本文总结了几种隶属度构造方法.(1)基于类中心距离的隶属度函数该方法计算样本点到其所属类中心的距离,样本隶属度的大小和距离成正比,隶属度表达式7为:si=1|xi x|R+(3)|xi x|式中,表示样本到类中心的距离;R 表示类半10微电子学与计算机2023 年径;预先设置,用以保证隶属度不为 0.(2)基于类内超平面距离的隶属度函数 x+xw=x+x基于样本
15、点到类内超平面的距离8在一定程度上可以降低对数据分布形态的要求且能够更好体现各样本点对构建分类超平面的贡献度,本文将其记为 FSVM_IHD 方法.记正负类样本的类中心分别为,;为法向量,正负类样本到其分类超平面的距离分别为:di+=|wT(xi x+)|w|,di=|wT(xi x)|w|(4)基于类内超平面距离的隶属度函数计算公式如下:si=1di+D+,yi=+11diD+,yi=1(5)D+D0 si 1式中,代表正负类样本与各自类内超平面的最大距离;是一个较小的正数,以保证.(3)基于不平衡样本的隶属度函数不平衡数据样本在实际应用中会严重影响分类器的效果,FSVM_CIL10算法结合
16、了模糊支持向量机和类不平衡学习方法,对每个样本基于其自身的重要程度赋予不同的模糊隶属度值,使得 SVM 分类器能够同时解决类别不均衡问题和噪声/异常值问题.在 FSVM_CIL 算法中,隶属度函数定义如下:s+i=f(x+i)r+si=f(xi)r(6)f(xi)xir+rx+i0,r+xi0,rr+=1,r=rr D then do14:DD1+D215:ELSE16:CONTINUE17:TMean(SP_Sortedi:i+1)18:EndIF19:EndFor20:ReturnTA在得到各类中 SP 值向量的阈值 T 后可以选出各类中的类重叠部分样本,如 类中重叠样本:OLA=I1(S
17、PA)XA,ifE(SPA)E(SPB)I2(SPA)XA,ifE(SPA)E(SPB)(13)I1(SPi)=0,ifSPi TA1,ifSPi TA(14)I2(SPi)=0,ifSPi TA1,ifSPi TA(15)OLASPASPBXAI1I2TA式中,A,B 为两类;为 A 类中的重叠样本集合;,分别为A 类和B 类的SP 向量;为A 类的样本集合;,为指示函数;为根据 OTSU 方法得到的 A 类样本 SP 值向量分割阈值;为哈达玛积运算.4基于类重叠识别的模糊支持向量机 4.1构造隶属度函数为表示样本对所属类别分类作用能力的相对大小即类隶属程度,需要根据类作用方向对各类 SP
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 SHAP 重叠 识别 方法 FSVM 改进
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。