直觉模糊的结构化最小二乘孪生支持向量机.pdf
《直觉模糊的结构化最小二乘孪生支持向量机.pdf》由会员分享,可在线阅读,更多相关《直觉模糊的结构化最小二乘孪生支持向量机.pdf(14页珍藏版)》请在咨信网上搜索。
1、Mar.2024Electronics and Information EngineeringJOURNALOF APPLIED SCIENCES2024年3 月Vol.42No.2第42 卷第2 期应学科用报学DOI:10.3969/j.issn.0255-8297.2024.02.015直觉模糊的结构化最小二乘李生支持向量机张法滢1,2,吕莉 1,2,韩龙哲1,2,刘东晓1,2,樊棠怀1,21.南昌工程学院信息工程学院,江西南昌330 0 9 92.南昌工程学院南昌市智慧城市物联感知与协同计算重点实验室,江西南昌330 0 9 9摘要:针对最小二乘李生支持向量机(least squares
2、twin supportvectormachine,LS-TSVM)对噪声或是异常数据敏感和忽略数据内在结构信息的问题,提出了一种直觉模糊的结构化最小二乘李生支持向量机(intuitionfuzzyand structuralleast squarestwin supportvectormachine,IF-SLSTSVM)。首先采用孤立森林对输入样本点进行预处理;然后通过直觉模糊数的概念,赋予输入样本点不同的权重以减少噪声或是异常数据对分类超平面产生的影响;最后采用K-Means算法,以协方差的形式获取输入样本点之间的结构信息。IF-SLSTSVM在LS-TSVM的基础上,考虑了输入样本点在
3、特征空间中的分布信息及输入样本点之间的关系,提高了模型的鲁棒性。实验采取UCI数据集,在0%、5%、10%以及2 0%的不同比例噪声环境对IF-SLSTSVM算法的有效性进行验证。结果显示相较于6 种对比算法,IF-SLSTSVM算法有更好的鲁棒性。关键词:支持向量机;孤立森林;结构信息;直觉模糊;聚类:协方差中图分类号:TP391文章编号:0 2 55-8 2 9 7(2 0 2 4)0 2-0 350-14Intuition Fuzzy and Structural Least Squares TwinSupport Vector MachineZHANG Fayingl,2,ILYU L
4、il,2HAN Longzhel,2,LIU Dongxiaol,2,FAN Tanghuail,21.School of Information Engineering,Nanchang Institute of Technology,Nanchang 330099,Jiangci,China2.Nanchang Key Laboratory of IoT Perception and Collaborative Computing forSmart City,Nanchang Institute of Technology,Nanchang 330099,Jiangci,ChinaAbst
5、ract:Addressing the sensitivity of the least squares twin support vector machine(LS-SVM)to noise or abnormal data,and its tendency to overlook intrinsic structural in-formation in the data,this paper introduces an intuition fuzzy and structural least squarestwin support vector machine(IF-SLSTSVM).Fi
6、rstly,the input sample points undergopreprocessing using isolated forest.Subsequently,leveraging the concept of intuitionisticfuzzy,varying weights are assigned to the input sample points to mitigate the impact of收稿日期:2 0 2 2-11-0 2基金项目:国家自然科学基金(No.62066030);江西省重点研发计划项目(No.20192BBE50076,No.2 0 2 0 3
7、BBG L-73225)资助通信作者:吕莉,教授,研究方向为智能计算与计算智能、大数据与人工智能。E-mail:l v l i 6 2 3 16 3.c o m351第2 期张法滢,等:直觉模糊的结构化最小二乘李生支持向量机noise or abnormal data on the classification hyperplane.Finally,the K-Means algorithm isemployed to extract structural information,represented in the form of covariance,amongthe input samp
8、le points.Built upon LS-SVM,IF-SLSTSVM takes into account the distri-bution information of input sample points in the feature space and their interrelationships,thereby enhancing the models robustness.Experimental validation is performed usingthe UCI dataset in noise environments with different prop
9、ortions of 0%,5%,10%,and20%.The results demonstrate that the IF-SLSTSVM algorithm exhibits superior robust-ness compared to six other evaluated algorithms.Keywords:support vector machine,isolated forest,structural information,intuition fuzzy,clustering,covariance支持向量机(supportvectormachine,SVM)是Vapni
10、k等 1】在19 9 5年提出的一种基于最小化结构风险和最大化间隔原理的监督学习方法 2 。SVM通过求解一个凸二次规划问题(quadratic programmingproblems,Q PPs)得到一个分类超平面,对数据进行二元分类。由于QPPs问题的求解过程计算复杂度较高,导致SVM计算速度较慢。为解决该问题,Jayadeva等 3 在2 0 0 7 年提出了李生支持向量机(twin supportvector machine,T-SVM),旨在寻找两个不平行的超平面,使每个超平面尽可能靠近一类样本并且远离另一类样本。T-SVM将SVM中规模较大的QPPs问题转化为两个规模较小的QPPs
11、问题,提高了SVM 的计算速度。为进一步提高T-SVM 的计算速度,文献 4 在文献 5 的基础上,提出了最小二乘李生支持向量机(least squares twin support vectormachine,LS-TSVM),LS-T SVM用等式约束替代不等式约束,通过求解线性方程替代复杂的QPPs问题,已广泛应用于模式分类 6 聚类 7-8 、图像识别 9-10 和异常检测 1-13 等领域。虽然LS-TSVM在计算速度方面有较大的提升,但是依然存在一些问题:1)对噪声和异常数据非常敏感,尽管支持向量机有严格的数学基础,使其理论更加可靠和稳定,但是其依赖输入样本点的数量以及每一个样本点
12、的质量;2)未考虑数据内在的结构信息,大多数的LS-TSVM改进算法专注于分解数据本身,而忽略了数据内在的结构紧密性信息。针对以上问题,研究人员提出了许多LS-TSVM的改进算法。为了克服样本中噪声和离群点的影响,文献 14 使用一种指数函数计算输入样本点的密度值,并将此密度值用于正、负两类所有输入样本点误差量的权重计算,可以有效去除交又噪声对数据分类的影响。文献 15为每个超平面引入一个能量因子,改变LS-TSVM中超平面与另一类点距离为1的约束,同时根据先验知识选择不同的能量参数,减小噪声或是异常数据对算法的影响。文献 16 在文献 15 的基础上,将正则化项引入每个目标函数,最大化分类超
13、平面的间隔,确保优化问题正定以实现结构风险最小化,从而最小化泛化误差的上界。文献 17 将K近邻隶属度函数和类内超平面的隶属度函数结合,并加入正则化项和额外的约束条件,降低算法对噪声的敏感性。为了获取样本中的结构信息,文献 18 使用K最近邻图分别表征类内紧密性和类间可分性,充分利用样本之间的相似信息,实现更高的分类精度和更好的泛化能力。文献 19 在文献18的基础上加入多视图学习,从不同角度利用类间和类内K近邻尽可能多地挖掘样本中的潜在信息,提高算法的分类精度。文献 2 0 通过WardsLinkage层次聚类算法以协方差矩阵的形式获取类内的结构信息,最小化每个类内各个簇之间的紧密度,以提高
14、算法的泛化能力。文献 2 1 通过加入Lp范数图正则化项利用数据中嵌入的几何信息,降低噪声对算法性能的影响。虽然上述的LS-TSVM改进算法都能取得更优的分类效果,但是大多数都将重点放在解决单一问题上。文献 2 2 同时将样本的模糊隶属度和结构信息引入到目标函数中,通过使用第42 卷352应用科报学学模糊隶属度表明,不同样本对分类超平面的不同作用,同时利用结构信息进一步提高算法的泛化能力。但文献 2 2 在模糊隶属度函数的确定上只是简单考虑了样本点与其所在类的关系,而对于情况复杂的样本点,不能很好地进行处理,容易导致分类错误。综上所述,本文提出了一种直觉模糊的结构化最小二乘李生支持向量机(in
15、tuitionisticfuzzy structural least squares twin support vector machines,IF-SLSTSVM)。首先,通过孤立森林对输入样本点进行预处理;其次,对于每个样本点而言,通过直觉模糊数中的隶属度函数、非隶属度函数以及直觉指数,得到输入样本点最终的得分函数,赋予其一个0 1之间的权重,体现不同样本点对最优分类超平面的不同贡献;最后,通过K-Means算法,获取样本点之间的结构信息,使得IF-SLSTSVM具有更好的鲁棒性。实验选取了6 种对比算法对IF-SLSTSVM性能进行验证,结果表明IF-SLSTSVM具有更高的分类精度及鲁
16、棒性。1相关工作1.1LS-TSVM假设在Rn空间中训练数据集定义为D=【(c i,y i)l i=1,2,,m,其中ai是输入样本点,yiE+1,-1)是对应的样本标签。D有m个训练样本,每个样本有n个属性,其中正类样本m1个,负类样本m2个,分别用矩阵A和B来表示。LS-TSVM在保留T-SVM优势的基础上,降低了T-SVM在求解QPPs问题过程中的计算复杂度。线性LS-TSVM的最优分类超平面Tw1+b1=0和Tw2+b2=0,可通过下面的约束优化问题进行求解7min(Aw1+e1b1)/2+2一w1,b12(1)s.t.-(Bw1+e2bi)+2=e2minl(Bw2+e2b2)12+
17、25T51w2,b222(2)s.t.(Aw2+eib2)+S1=e1式中:A为正类样本矩阵;B为负类样本矩阵;IIl为L2范数;Ci和c2为惩罚参数:S1和S2为松弛变量;e1和e2是一个适当维度的单位向量。将约束条件替换至目标函数中可求得其最优分类超平面的解为W1=-(FTF+ETE)-1FTe2(3)b1C1W2=(ETE+=FTF)-IETe1(4)b2C2式中:E=Aei,F=Be 2 ,因为上式存在逆矩阵,为保证矩阵可逆,一般将逆矩阵改写为(FTF+ETE+I)-1;是一个极小的正数,可取10-16;是一个单位矩阵,用以解决矩阵“奇异性”问题。对于测试点,其决策函数为aTw1+b1
18、aTw2+b2f()=arg min(5)wTW1W2W2e2353第2 期张法滢,等:自觉模糊的结构化最小乘李生支持向量机非线性LS-TSVM的模型可表示为下面的约束优化问题min1,1(6)s.t.-(K(B,CT)u1+e21)+E2=e2min1 K(B,CT)u2+e221/+C2T52-2,222(7)s.t.(K(A,CT)u2+e12)+i=ei式中:C=ATBTjT;K 为选择的核函数。同线性LS-SVM的求解方式相同,求得两个非平行的分类超平面K(T,CT)u1+1=0和 K(T,CT)u2+2=0 的解如下u1=-(HTH+GTG)-1 HTe2(8)C171山2=(GT
19、G+=HTH)-1GTe1(9)C22式中:G=K(A,CT)ei;H=K(B,CT对于测试点,其决策函数为K(c,CT)u1+bilK(a,CT)aT u2+b2lf()=arg min(10)uTK(c,CT)ui/uTK(a,CT)u21.2孤立森林孤立森林(isolation forest,i Fo r e s t)算法是由文献 2 3 提出的一种直接刻画样本与样本之间疏离程度的无监督异常检测算法。由于其对样本差异的描述不通过距离、密度等指标进行,避免了高阶运算,因而被广泛使用。该算法在异常数据检测中具有准确率高、速度快且在高维数据上表现较好,因此本文采取孤立森林算法用于噪声或是异常数
20、据的检测。IForest认为噪声或是异常数据更容易落入叶子结点,这意味着噪声或是异常数据在孤立树(isolation tree,i T r e e)上距离根节点最近。因此可通过计算训练样本点在已构建的孤立森林模型下的平均路径长度求其异常值,其处理效果取决于iTree 的数目与样本数据量 2 4。对于任一个样本点d,根据其在每棵iTree中的路径长度h(d),可通过式(11)和(12)计算其异常值,从而评价其异常情况。c(m)=2H(m-1)-2(11)m-E(h(d)s(,m)=2(12)c(m)式中:m为每棵iTree上的样本总数;c(m)用于对样本子集的路径长度进行归一化处理;H(d)为在
21、每棵树中的高度且H(d)=ln d+,=0.57 7 2 156 6 49 为欧拉常数,s(c,m)E0,1为的异常分数,E(h(d))为在所有iTree中所有路径长度h(d)的期望。第42 卷354应用报科学学1.3直觉模糊集在实际问题中,人们通常对客观事物有一种非此即彼的概念,当情况变得错综复杂时,很难有一个明确的逻辑对其进行归属判断。19 6 5年,文献 2 5 提出模糊集的概念,通过隶属度信息帮助人们在不确定的情况下给出更好的决策信息。而模糊集只表示事物肯定的程度,未考虑否定以及犹豫的情况。于是在19 8 6 年,文献 2 6 提出了直觉模糊集的概念,通过事物的隶属度信息,非隶属度信息
22、和决策指数更好的描述了事物的详细信息。定义1诊设非空集合X是一个给定论域,则X上的一个直觉模糊集A可以表示为 2 6 A=(a,A(c),UA()lc E X)(13)式中:A()和A()分别是样本点的隶属度函数和非隶属度函数,满足A()E0,1,U A(c)0,1 以及0 A()+A()l。对于X中的每个直觉模糊子集,称A()为的直觉指数,它表示对A犹豫程度的度量,可以定义为TA()=1-A(c)-VA()(14)显然,对于每个EX,有0 A()1成立。的得分函数定义为 2 7 H(a)=2-(a.)-(i)1-(ci)(15)定义2 设=(i,)是一个直觉模糊数,定义s(i)=i为的记分函
23、数,h(i)=i+U;为i的精确函数,遵循以下原则 2 8 :1)若存在s(1)s(2),则2的排序优于1;2)若存在s(1)=s(2),则当h(1)h(2)时,1的排序优于2;当h(1)=h(2)时,Q2和1排序相同。1.4K-Means 算法K-Means算法是一种采用距离作为相似度评价指标的聚类算法该算法认为两个样本点的距离越近,则相似度越大。K-Means通过随机选取K个点最为初始质心,通过不断迭代更新质心,最终将所有样本点分入K个簇中。K-Means算法具有聚类效果较好,且需要进行调优的参数较少等优点,因此本文采取该算法对样本进行聚类。通过K-Means算法得到样本的协方差矩阵,可以
24、更好地确定样本之间的相似度。样本的协方差矩阵反映了样本之间的相对位置关系以及样本分布形状,通过分析协方差矩阵可以得到样本的结构信息,从而获得更准确的样本相似度度量。假设通过K-Means算法得到K个簇,其中正类样本Ki个,负类样本K2个,计算每个簇的协方差矩阵并求和m1Ci(16)m1式中:c为任一簇的簇中心;m为簇内样本数。K1pi=lci-Cp:ll,P=ZxTpiX(17)=1K2ni=lci-Cnall2,N=ZxTmiX(18)=1355第2 期张法滢,见模糊的结松化最小乘李生支持向量机式中:pi和ni分别为正类样本和负类样本第i簇中所有样本点到簇中心的距离,X为任一簇的样本矩阵;P
25、和N分别为正类样本和负类样本的协方差矩阵之和。2IF-SLSTSVM2.1直觉模糊数为使SVM算法有更好的鲁棒性,常选择适当的模糊函数来确定不同样本点的权重,来减少噪声和离群点对最优分类超平面的影响。但模糊函数只能给出样本点有多大程度属于其所在类,而对较复杂的情况,很难做出正确的决定。例如:位于两个类边界的样本对于两个类有相同的隶属度,容易给出不正确的决策信息,进而导致分类错误。如果给两个类边界的样本赋予较小的权重,赋予与边界距离较大的样本更大的权重,不仅可以减少噪声或异常数据对最优分类超平面的影响;同时可以尽可能最大化分类超平面间隔,使算法具有更好的分类精度。直觉模糊数考虑了样本点的隶属度、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 直觉 模糊 结构 最小 孪生 支持 向量
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。