非负拉格朗日松弛优化的子空间聚类算法.pdf
《非负拉格朗日松弛优化的子空间聚类算法.pdf》由会员分享,可在线阅读,更多相关《非负拉格朗日松弛优化的子空间聚类算法.pdf(14页珍藏版)》请在咨信网上搜索。
1、收稿日期:网络出版时间:基金项目:国家自然科学青年基金(,);江苏省自然科学青年基金(B K ,B K );中国博士后科学基金(T ,M );江苏省博士后科学基金(K C)作者简介:朱东霞(),女,江苏大学硕士研究生,E m a i l:q q c o m黄龙霞(),女,副教授,E m a i l:h l x i a u j s e d u c n通信作者:贾洪杰(),男,副教授,E m a i l:j i a h j u j s e d u c n网络出版地址:h t t p s:d o i o r g/j i s s n d o i 敭 j 敭i s s n 敭 非负拉格朗日松弛优化的子空
2、间聚类算法朱 东 霞,贾 洪 杰,黄 龙 霞(江苏大学 计算机科学与通信工程学院,江苏 镇江 )摘要:传统的子空间聚类和谱聚类中普遍使用谱松弛方法聚类,需要先计算拉普拉斯矩阵的特征向量.特征向量中包含负数,根据元素的正负可以直接得到二类聚类的结果.对于多类聚类问题,需要递归地进行二划分,或在特征向量空间中使用k m e a n s算法聚类,分配类簇标签是间接的,这种后处理的聚类方式会增加聚类结果的不稳定性.针对谱松弛的问题,提出了一种非负拉格朗日松弛优化的子空间聚类算法,在目标函数中集成了自表示学习和秩约束.通过非负拉格朗日松弛来求解相似性矩阵和隶属矩阵,并保持隶属矩阵的非负性.在这种情况下,
3、原来的隶属矩阵就变成了类簇的后验概率,当算法收敛时,只需将数据点分配给具有最大后验概率的类簇,即可得到聚类结果.与已有的子空间聚类和谱聚类方法相比,所提出的算法设计了新的优化规则,可以实现类簇标签的直接分配,不需要额外的聚类步骤.最后,给出了算法的收敛性证明.在个基准聚类数据集上的大量实验表明,所提算法的聚类性能优于近几年来的子空间聚类方法.关键词:聚类算法;自表示;优化;非负拉格朗日松弛;子空间聚类中图分类号:T N 文献标识码:A文章编号:()S u b s p a c e c l u s t e r i n ga l g o r i t h mo p t i m i z e db yn
4、o n n e g a t i v eL a g r a n g i a nr e l a x a t i o nZHUD o n g x i a J I A H o n g j i e HU ANGL o n g x i a S c h o o l o fC o m p u t e rS c i e n c ea n dC o mm u n i c a t i o nE n g i n e e r i n g J i a n g s uU n i v e r s i t y Z h e n j i a n g C h i n a A b s t r a c t S p e c t r a l
5、 r e l a x a t i o n i sw i d e l yu s e d i n t r a d i t i o n a l s u b s p a c e c l u s t e r i n ga n ds p e c t r a l c l u s t e r i n g 敭 F i r s t t h ee i g e n v e c t o ro ft h eL a p l a c i a nm a t r i xi sc a l c u l a t e d 敭 T h ee i g e n v e c t o rc o n t a i n sn e g a t i v e
6、n u m b e r s a n dt h er e s u l to f t h e w a yc l u s t e r i n gc a nb e o b t a i n e dd i r e c t l ya c c o r d i n g t o t h ep o s i t i v e a n dn e g a t i v e o f t h e e l e m e n t s 敭F o rm u l t i w a yc l u s t e r i n gp r o b l e m s w a yg r a p hp a r t i t i o ni sa p p l i e
7、dr e c u r s i v e l yo rt h ek m e a n si su s e di ne i g e n v e c t o r s p a c e 敭 T h ea s s i g n m e n to ft h ec l u s t e rl a b e l i si n d i r e c t 敭 T h ei n s t a b i l i t yo fc l u s t e r i n gr e s u l t sw i l li n c r e a s eb yt h i sp o s t p r o c e s s i n gc l u s t e r i
8、n g m e t h o d 敭 F o rt h el i m i t a t i o no fs p e c t r a lr e l a x a t i o n as u b s p a c ec l u s t e r i n ga l g o r i t h m o p t i m i z e db yn o n n e g a t i v eL a g r a n g i a nr e l a x a t i o ni sp r o p o s e d w h i c hi n t e g r a t e ss e l f r e p r e s e n t a t i o nl
9、 e a r n i n ga n dr a n kc o n s t r a i n t s i nt h eo b j e c t i v e f u n c t i o n 敭 T h e s i m i l a r i t ym a t r i xa n dm e m b e r s h i pm a t r i xa r es o l v e db yn o n n e g a t i v eL a g r a n g i a nr e l a x a t i o na n dt h en o n n e g a t i v i t yo f t h em e m b e r s h
10、 i pm a t r i xi sm a i n t a i n e d 敭 I nt h i s w a y t h e m e m b e r s h i p m a t r i x b e c o m e st h ec l u s t e rp o s t e r i o rp r o b a b i l i t y 敭W h e nt h ea l g o r i t h mc o n v e r g e s t h ec l u s t e r i n g r e s u l t s c a nb eo b t a i n e dd i r e c t l yb ya s s i
11、 g n i n g t h ed a t ao b j e c t t o t h e c l u s t e rw i t ht h e l a r g e s t p o s t e r i o rp r o b a b i l i t y 敭 C o m p a r e dw i t ht h e e x i s t i n gs u b s p a c e c l u s t e r i n ga n ds p e c t r a l c l u s t e r i n gm e t h o d s t h ep r o p o s e da l g o r i t h md e s
12、 i g n san e wo p t i m i z a t i o nr u l e w h i c hc a nr e a l i z et h ed i r e c ta l l o c a t i o no f 年月第 卷第期西安电子科技大学学报J OURNA LO FX I D I ANUN I V ER S I TYF e b V o l N o c l u s t e r l a b e l s w i t h o u ta d d i t i o n a lc l u s t e r i n gs t e p s 敭 F i n a l l y t h ec o n v e
13、r g e n c eo ft h ep r o p o s e da l g o r i t h mi sa n a l y z e dt h e o r e t i c a l l y 敭 G e n e r o u se x p e r i m e n t so nf i v eb e n c h m a r kc l u s t e r i n gd a t a s e t ss h o wt h a t t h ec l u s t e r i n gp e r f o r m a n c eo f t h ep r o p o s e dm e t h o d i sb e t t
14、 e r t h a nt h a to f t h er e c e n t s u b s p a c ec l u s t e r i n gm e t h o d s 敭K e yW o r d s c l u s t e r i n ga l g o r i t h m s s e l f e x p r e s s i o n o p t i m i z a t i o n n o n n e g a t i v eL a g r a n g i a nr e l a x a t i o n s u b s p a c ec l u s t e r i n g引言聚类作为一种无监督
15、技术,目前已被广泛应用于机器学习、计算机视觉、数据分析和统计研究等领域.过去几十年中,已经开发出了大量的聚类算法,例如k m e a n s、谱聚类、层次聚类、D B S C AN、深度聚类等等,聚类在各种应用中得到了广泛的研究.然而,在处理高维数据时,标准聚类算法的性能会受到不利影响,并且在处理大规模数据集时,它们的时间复杂度会显著增加.为了解决维数灾难,文献 首次提出了子空间聚类的概念.子空间聚类受到了越来越多的关注,它假设数据点来自多个低维子空间,在聚类的过程中能够为每个类簇找到相应的特征子空间 .基于子空间学习方法的直观解释,子空间聚类因其良好的性能而得到了广泛的探索.因此,开发了许多
16、子空间聚类算法,包括基于迭代、代数、统计和谱聚类的方法.在这些方法中,谱聚类方法是研究的热点,因为谱聚类是从谱图划分发展而来的,具有良好的聚类目标函数.代表性工作有低秩表示(L o w R a n kR e p r e s e n t a t i o n,L R R)和稀疏子空间聚类(S p a r s eS u b s p a c eC l u s t e r i n g,S S C).其中,L R R发现子空间的低秩结构,而S S C发现数据点的稀疏表示.在此基础上,研究者们开展了大量的工作来加速子空间聚类.例如,A B HA D I OMHE N等提出了一种基于耦合低秩表示的方法,通过构
17、建一个流形恢复结构来纠正数据的低秩表示的不足,然后得到一个服从k块对角性质的聚类投影矩阵来学习理想的相似性矩阵.在这些聚类方法中,相似性度量和数据聚类通常分成两个独立的步骤,因此学习到的数据相似性可能不是数据聚类的最佳相似性,并导致次优结果.另一方面,在谱松弛中,离散簇指示符的连续近似可以由相似图的拉普拉斯矩阵的特征向量获得.由于特征向量项有正负号,因此谱聚类最适合用于使用单个特征向量的二类聚类问题.当应用于多类聚类时,分配聚类成员成为间接的.通常的解决方法有两种:第种方法是递归地应用二类谱聚类;第种方法首先对特征向量所跨越的空间进行嵌入,然后借助额外的聚类方法(例如k m e a n s)来
18、完成聚类.这种后处理的不确定性会增加原始性能的不稳定性.谱松弛存在的问题是理想的聚类指标是非负的,但特征向量的解包含许多负项.在这种情况下,很难识别集群成员.如果隶属矩阵H的元素是非负的,那么这个类簇分配问题就会变得容易.为了解决这个问题,文中在子空间聚类中引入了非负拉格朗日松弛方法,以保持隶属矩阵的非负性.此时,计算的隶属矩阵成为聚类后验概率.在收敛时,只需将数据对象分配给具有最大后验概率的类簇,直接得到聚类结果.这是相对于谱松弛的一个主要优势,除了解决类簇分配问题外,这种附加的可解释性在理论上也很有吸引力.在此基础上,文中提出了一种非负拉格朗日松弛优化的子空间聚类算法(N o n n e
19、g a t i v eL a g r a n g i a nR e l a x a t i o nS u b s p a c eC l u s t e r i n g,N L R S C),它可以在一个统一的框架中学习数据的相似性和类簇标签.首先利用子空间聚类的自表达特性,即每个示例相对于整体数据的线性表示来捕获数据的全局结构;然后加入拉普拉斯矩阵来保持数据之间的块连通性,加强了数据的类内相似性;最后,使用非负拉格朗日松弛优化方法求解非负的隶属矩阵,直接分配类簇成员,避免传统谱聚类算法后处理带来的不确定性.与近几年先进的技术相比,该方法在有效性方面获得了很大的提高.总之,文中的主要贡献如下:(
20、)提出了一种非负拉格朗日松弛优化的子空间聚类算法,引入非负拉格朗日松弛,处理多类聚类问题.()学习相似性和聚类可以在迭代优化过程中相互促进,直接获得聚类结果,不需要额外的步骤来进行聚类,避免后处理带来的不确定性.第期朱东霞等:非负拉格朗日松弛优化的子空间聚类算法()构造了有效的乘法更新规则求解该模型,并进行了全面的理论分析,保证了算法的收敛性.()大量的实验结果证明了该方法的有效性.相关工作子空间聚类是探索数据潜在特征结构的一种非常有用的方法.它的目的是寻找数据点的最优子空间,其中每个数据可以表示为其他点的线性组合,并最小化重建损失以获得组合系数.该系数被视为对应点之间的相似性,它可以捕捉数据
21、的全局结构.过去的几年中,子空间聚类领域提出了许多方法.比如一些方法选择观测数据矩阵X作为独立和不相交子空间的字典,如最小二乘回归(L e a s tS q u a r e sR e g r e s s i o n,L S R)、S S C 和L R R.此外,一些文献还提出了许多改进的方法,如单纯形稀疏表示(S i m p l e xS p a r s eR e p r e s e n t a t i o n,S S R),提出可以使用具有适当约束的稀疏表示来计算样本对之间的亲和力,通过自动生成拉普拉斯图来显著降低计算成本,并对异常值和噪声具有鲁棒性.基于干净字典的低秩稀疏子空间聚类(L o
22、 w R a n ka n dS p a r s eS u b s p a c eC l u s t e r i n gw i t haC l e a nd i c t i o n a r y,L R S C),通过结合S S C和L R R,将子空间的并集拟合到一个包含从子空间中提取并被噪声破坏的数据点的集合,目标是将破坏的数据矩阵分解为干净且自表示的字典和一个噪声矩阵.在子空间的多种方法中,基于谱图的子空间聚类通常具有良好的性能.因此,谱聚类方法是近年来研究的热点,应用最为广泛.谱聚类在执行k m e a n s聚类之前对数据的相似性矩阵进行低维嵌入.每对数据点之间的相似性利用了数据中的流
23、形信息,因此谱聚类方法通常比k m e a n s算法表现出更好的性能.然而,这种方法的性能在很大程度上取决于相似性矩阵.许多基于相似度的聚类方法分为两个独立的步骤,包括相似性矩阵计算和后续的谱聚类.然而,相似性度量具有挑战性,因为它通常受到许多因素的影响,例如度量、邻域大小和数据规模,都可能导致性能不理想.大多数研究人员将重点放在相似性矩阵的优化和改进上,以获得更好的聚类性能 .例如,CHE N等 提出了一种自适应低秩表示的方法,将采用正交约束的自适应词典学习策略集成到低秩表示模型中来同时获得投影矩阵和低秩特征.然而,这些方法的最后一步,通常需要将一种简单的聚类方法应用于学习的指标矩阵,如k
24、 m e a n s.但是这种后处理操作的不确定性将增加聚类结果的不稳定性.为了解决该问题,N I E等 提出了一种基于拉普拉斯矩阵秩约束的聚类方法.该方法结合了F r o b e n i u s范数,通过最小距离获得仅具有连通分量的邻接矩阵,因此邻接矩阵可以直接用于完成聚类任务.它可以避免进一步后处理带来的不确定性.但是,F r o b e n i u s范数对许多实际情况中存在的异常值和噪声非常敏感,如何减少这些负面影响也是一个待解决的问题.最近,自表达已成功地应用于子空间恢复 和低秩表示,它以其他点的线性组合表示每个数据点,通过求解优化问题,自动从数据中学习相似性信息.这种方法不仅可以揭
25、示低维结构,而且对噪声和数据规模具有鲁棒性.受此启发,KANG等 提出了一个学习全局结构和秩约束的模型.该模型在核空间中同时学习隶属矩阵和相似性信息.Z HU等 提出了一种低秩稀疏子空间(L o w r a n kS p a r s eS u b s p a c e,L S S)聚类方法.该方法首先通过在样本自表示框架中进行特征选择和子空间学习,将原始数据投影到它们的低维空间,然后利用秩约束和直接从原始数据中获得的亲和矩阵构造一个动态的内在亲和矩阵.通过自表示并对数据施加稀疏约束;由于两个点仅在它们来自同一子空间时才连接,稀疏子空间聚类可以保证同一子空间内的数据亲和力.然而,另一方面,来自同一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 非负拉格朗日 松弛 优化 空间 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。