基于非负矩阵分解的均方残差多视图聚类算法.pdf
《基于非负矩阵分解的均方残差多视图聚类算法.pdf》由会员分享,可在线阅读,更多相关《基于非负矩阵分解的均方残差多视图聚类算法.pdf(7页珍藏版)》请在咨信网上搜索。
1、收稿日期:2023-03-03摇 摇 摇 摇 摇 摇 修回日期:2023-07-05基金项目:国家自然科学基金(62273248);山西省自然科学基金(202103021224285)作者简介:郝敬琪(1997-),女,硕士研究生,研究方向为计算机视觉;通信作者:胡立华(1982-),女,副教授,硕导,研究方向为计算机视觉、人工智能与模式识别、机械产品逆向工程。基于非负矩阵分解的均方残差多视图聚类算法郝敬琪,胡立华,张素兰,张继福(太原科技大学 计算机科学与技术学院,山西 太原 030024)摘摇 要:针对高维海量数据,现有的多视图聚类方法存在无法发现高维视图隐藏信息、聚类效果差等问题。结合均
2、方残差(Mean Squared Residue,MSR)思想,提出了一种基于非负矩阵分解的均方残差多视图聚类方法(Mean Squared Residue Non-negative Matrix Factorization,MSRNMF)。首先,采用改进的非负矩阵分解方法结合流形学习、希尔伯特-施密特独立性准则计算各单视图的系数矩阵,不仅降低了多视图中各个视图的维度,而且有效地提取了高维数据中的隐藏信息;其次,采用谱聚类算法对各单视图的系数矩阵进行聚类,获得单视图聚类簇;接着,利用均方残差思想,针对各单视图聚类结果进行融合,得到最终多视图聚类结果;最后,以标准数据集和古建数据集为对象进行验证
3、,实验结果表明该算法在精度上优于 MVCF,GPSNMF,GPMVNMF,DMF 和 MCLES,在古建筑集上效果明显,进而验证了算法的有效性。关键词:均方残差;非负矩阵分解;流行正则化;希尔伯特-施密特独立性准则;谱聚类中图分类号:TP391 摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)12-0065-07doi:10.3969/j.issn.1673-629X.2023.12.009Mean Square Residual Multi-view Clustering Algorithm Based onNon-negative
4、Matrix FactorizationHAO Jing-qi,HU Li-hua,ZHANG Su-lan,ZHANG Ji-fu(School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024,China)Abstract:For high-dimensional massive data,the existing multi-view clustering methods have some problems,such as failing to d
5、iscoverthe hidden information of high-dimensional view and poor clustering effect.With the idea of mean square residuals(MSR),a method ofclustering with mean squared residue based on non-negative matrix factorization(MSRNMF)is proposed.Firstly,the improved non-negative matrix factorization method co
6、mbined with manifold learning and Hilbert-Schmidt independence criterion is used to calculate thecoefficient matrix of each single view,which not only reduces the dimensions of each view in the multi-view,but also effectively extractsthe hidden information in the high-dimensional data.Secondly,spect
7、ral clustering algorithm is used to cluster the coefficient matrix ofeach single view,and the single view cluster is obtained.Then using the idea of mean square residual,the clustering results of each singleview are fused to obtain the final multi-view clustering results.Finally,standard data sets a
8、nd ancient construction data sets are used forverification.The experimental results show that the accuracy of the proposed algorithm is better than that of MVCF,GPSNMF,GPMVNMF,DMF and MCLES,and the effectiveness of it is verified.Key words:mean squared residue;non-negative matrix factorization;manif
9、old regularization;Hilbert-Schmidt independence criterion;spectral clustering0摇 引摇 言聚类分析作为机器学习的主要研究分支,是一种广泛使用的无监督学习技术。在没有使用任何先验知识的条件下,按照对象间的相似程度,将不同的对象划分为不同的簇,确保每个簇内的对象尽可能相似,而不同簇间的对象尽可能相异。目前,聚类分析已广泛应用在科学 数据分析1、商业2、生物学3、医疗 诊断4、文本挖掘5等领域。多视图聚类(Multi-View Clustering,MVC)主要包括基于 k-means 的方法6、基于图的方法7以及基于子空
10、间的方法8等。相较单视图聚类,多视图聚类方法充分考虑到数据的多样性和多面性,能够处理异常值和噪声,从而获得更好的聚类性能,因此成为聚类分析中的研究热点。然而,针对高维、海量的数据,现第 33 卷摇 第 12 期2023 年 12 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.12Dec.摇 2023有的多视图聚类方法中仍然存在以下问题:(1)多视图数据集维度过高时,现有的多视图聚类方法很难发现隐藏信息;(2)大多数多视图方法融合过程仅考虑各单
11、视图内部的局部特征,无法平衡每个视图的重要性。针对上述问题,结合非负矩阵分解和均方差残差思想,提出了一种基于非负矩阵分解的均方残差多视图聚类方法。该方法首先采用非负矩阵分解思想,在相关误差矩阵中加入鲁棒低秩约束,使系数矩阵的内部结构信息和误差矩阵中一些有用的判别信息得到充分的挖掘,并解决维度过高无法发现隐藏信息的问题;其次利用均方残差对每个视图结构进行自适应融合,使不同视图的结构在算法更新过程中得到融合和改变,从而平衡各单视图之间的重要性。论文的创新点包括:(1)设计了一种改进的非负矩阵分解方法,提高单视图矩阵分解的鲁棒性和稀疏性;(2)提出了一种自适应单视图融合方法,改进了各单视图之间融合的
12、效果;(3)结合上述方法,提出了一种基于非负矩阵分解的均方残差多视图聚类方法;(4)采用标准数据集和古建筑图像,验证了算法的有效性。1摇 相关工作随着信息技术的飞速发展,数据的规模出现海量、多源、异构、高维等特点。针对上述数据,传统的单视图聚类存在聚类效率低、聚类效果差等问题,而多视图聚类方法可从不同角度分析数据,进而提高聚类效果,因此,受到了研究者的广泛关注。目前,多视图聚类算法可分为三类:基于 k-means的方法、基于图的方法以及基于子空间的方法。(1)基于 k-means 的方法:该方法首先对多视图数据的各单视图采用 k-means 聚类生成单视图聚类结果,然后对各单视图的聚类结果进行
13、融合,最后得到最终聚类结果。典型方法有:2004 年 Bickel 等人9提出了扩展的 k-means 的方法,处理具有两个条件独立视图的情况。但是该方法只能处理两个视图的情况,无法处理三个或更多视图的情况。为了解决三个或更多视图聚类的问题,2016 年 Rai 等人10将部分视图聚类(PVC)算法扩展到 k 部分视图场景。其次扩展了 k部分视图算法,包括将视图拉普拉斯正则化。使得该算法能够利用每个视图中数据分布的内在几何结构。2018 年 Zhang 等人11提出了一种基于 k-means 的两级加权融合多视图聚类方法,有效解决了三个及以上视图的情况,但没有考虑各单视图的结构和不同视图的融合
14、。(2)基于图的方法:该方法的核心思想是将多视图聚类问题转化为图分割问题12并进行谱聚类操作。但是,该类算法也存在一些问题,图谱聚类的最终结果完全依赖于构造的相似矩阵,然而不同的构造方法会影响聚类结果,因此构造理想的相似矩阵成为研究热点13。近年来,许多学者对谱聚类算法中相似矩阵的构造方法做了进一步研究与改进。典型方法有:2000年 Shi 等人7通过高斯核函数构造相似矩阵。2001 年Ng 等人14提出 NJW 算法,通过高斯核函数构造相似矩阵,并采用全连接构造方法。2010 年 Zhang 等人15利用两个样本点之间的局部密度求相似矩阵。2016年 Nie 等人16通过局部连通性为每个数据
15、点分配自适应和最优邻居来学习相似矩阵。2018 年 Xie 等人17采用样本点与样本点的近邻点之间的欧氏距离作为局部标准差构造相似矩阵。2018 年 Zhan 等人18联合优化图矩阵,充分利用视图之间的数据相关性进行多视图聚类,并且可以处理任意数据集,即使它们包含负值。2020 年 Liang 等人19构造每个视图的邻接图来保持每个视图的几何信息,并推导出相应的基于交替迭代规则的乘法更新算法。然而这些文献中构造的相似矩阵都是固定的,不能很好地挖掘和利用数据结构。(3)基于子空间的方法:该方法试图揭示多视图共享的公共潜在子空间,子空间多视图方法利用矩阵分解来设计。利用各种矩阵分解方法,可寻找出隐
16、藏在原始数据中的低维结构,便解决了“维度魔咒冶的问题。典型方法有:2016 年 Zhou 等人20提出稀疏多视图矩阵分解算法,旨在根据方差的视图特异性对特性进行优先级排序。2017 年 Zhao 等人21提出了一种通过图正则化半非负矩阵分解的深度多视图聚类算法,关键是通过半非负矩阵分解构建深层结构,以寻求具有一致知识的公共特征表示,从而促进聚类。2020 年Chen 等人22提出了一个统一的框架,联合了学习潜在嵌入表示、相似信息和聚类指标矩阵。然而,上述方法应用到高维海量多视图数据中,存在以下问题:利用非负矩阵分解的子空间聚类算法进行降维时,不仅会丢失数据的隐藏信息,而且降维维度的不确定性也导
17、致了后序算法的不稳定性;并且大部分多视图聚类算法没有平衡每个视图的重要性,仅仅考虑了各个视图内部的局部特征,没有考虑到视图之间的联系。2摇 基础知识2.1摇 非负矩阵分解给定矩阵 X 沂 Rm伊n,m 为对象特征个数,n 为对象数量,将其非负矩阵分解23为基矩阵 U沂 Rm伊k和系数矩阵 V 沂 Rk伊n,k 为分解维度,具体定义如下:定义1(非负矩阵分解):给定一个矩阵 X,其非负66摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷矩阵分解过程可描述为:X
18、抑 UVs.t.U 逸 0,V 逸 0(1)定义2(非负矩阵的误差 Ex):Ex为给定矩阵X与基矩阵系数矩阵乘积 UV 之间的误差,Ex的计算公式如下:Ex=椰X-UV椰2F=移i=m,j=ni=1,j=1(xij-ui,*v,j)2s.t.U 逸 0,V 逸 0(2)其中,*表示点积。2.2摇 流形正则化流形正则化24是由 Tenenbaum 等人于 2000 年提出的一种方法,具体定义如下:定义 3(流形正则化 O2):设 Vi和 Vj表示系数矩阵的第 i 列和第 j 列。利用 F-范数计算列之间的偏差,以测量多视图中的低维表示的平滑度。流行正则化过程定义为:O2=12移ni,j=1椰V(
19、s)i-V(s)j椰2FW(s)ij=移ni=1(V(s)i)TV(s)iD(s)ii-移ni=1(V(s)i)TV(s)j=tr(V(s)D(s)(V(s)T)-tr(V(s)W(s)(V(s)T)=tr(V(s)L(s)(V(s)T)(3)其中,W(s)ij表示 s 视图中 xi和 xj之间的相似度,如果样本点 xj在样本点 xi的近邻内则有 Wij=xTixjmax(xTx),tr为矩阵的迹,L(s)=D(s)-W(s)是 s 视图的拉普拉斯矩阵,其中 D(s)为对角矩阵且 D(s)ii=移nj=1W(s)ij。2.3摇 希尔伯特-施密特独立性准则希尔伯特-施密特独立性准则(Hilber
20、t-SchmidtIndependence Criterion,HSIC)25是一种基于核的独立性度量方法,具体定义如下:定义 4(HSIC 的一般形式):给定 n 个样本点和不同视图 V(s),V(w),则视图 V(s)和视图 V(w)的关联性HSIC 被定义为:HSIC(Z,V(s),V(w)=摇 摇(n-1)2tr(K(s)H K(w)H)(4)其中,Z:=(x1,y1),(x2,y2),(xn,yn)沂 V(s)伊V(w),hij=啄ij-1/n 是中心矩阵,啄ij为 n 阶单位阵,K(s)和 K(w)是两个内积矩阵。3摇 文中算法3.1摇 问题定义基于图正则化概念分解的多视图聚类方法
21、采用非负矩阵分解方法实现数据从高维到低维的映射表示,利用视图之间的数据相关性进行多视图聚类,从多视图数据中学习亲和图,以解决视图之间的相关性问题,同时避免利用单个图构造亲和图。然而针对高维海量数据,该算法具有以下问题:(1)非负矩阵分解将矩阵X 分解为基矩阵 U和系数矩阵 V 的乘积,但是,此过程是近似分解,导致数据缺失从而增加矩阵分解的误差;(2)使用低维系数矩阵 V 代替高维矩阵 X 进行多视图聚类时,视图内部潜在信息存在难以解释的问题,使得低维数据不能完全映射高维数据;(3)现有的多视图聚类算法不能充分挖掘视图之间的差异性和互补性,导致了聚类结果不准确。3.2摇 算法步骤针对上述问题,提
22、出了基于非负矩阵分解和均方残差的多视图聚类方法(MSRNMF)。首先,对多视图数据中各单视图矩阵进行改进后的非负矩阵分解,得到各单视图的系数矩阵;其次,为了保持多视图内部结构和视图之间的联系,使用流形正则化和 HSIC 以自适应的方式获得潜在表示,得到改进后的系数矩阵;然后,对多视图下各单视图进行谱聚类;最后,依据各单视图聚类结果,再结合均方残差的思想对聚类结果进行融合,得到最终多视图下聚类结果。算法流程如图1 所示。Noise L21 normNuclear normNMFspectralclusteringMSRHSICX(1)V(1)V()tV()tV(1)C()tC图 1摇 算法流程3
23、.2.1摇 系数矩阵的改进输入 t 个多视图数据集,其中 X(1),X(s),X(t)为第 s 个视图中的数据集。每一个 X(s)有 n 个实例,每个实例有 m 个特征,因此 X(s)=x(s)1,x(s)2,x(s)n 沂 Rm伊n。依据非负矩阵分解的思想,每个视图均可分解为基矩阵和系数矩阵,设第 s 个视图的非负矩76摇 第 12 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 郝敬琪等:基于非负矩阵分解的均方残差多视图聚类算法阵分解为 U(s)沂 Rm伊k和 V(s)沂 Rk伊n。根据非负矩阵分解的特点,矩阵 X(s)可以分解为U(s)和 V(s)。非负矩阵分解是一种近似分解,为了减少分解
24、过程中的误差,很多算法常使用定义 2 最小化误差矩阵。然而,Ex忽视了数据间的稀疏性和鲁棒性,增加了矩阵的误差。针对上述问题,在误差 Ex中使用 L21范数代替 F-范数,以提高分解的稀疏性和鲁棒性。为了充分利用数据的内在信息,添加了给定矩阵 X 和基矩阵 U 之间的误差,即误差矩阵Eu,并对其使用核范数。结合上述改进思想,提出了一种改进的非负矩阵误差。具体的:定义 5(改进的非负矩阵误差 O1):O1=椰Ex椰21+椰Eu椰*(5)s.t.Ex=X-UV,Eu=X-U,U 逸 0,V 逸 0其中,椰椰21=移i椰椰2,椰椰*=移i啄i,啄i表示矩阵的第 i 个奇异值。由于改进的非负矩阵分解没
25、有考虑视图内部数据间结构特征的完整性,低维潜在表示存在难以解释的问题,进而导致视图内部联系不紧密、结构不一致。为保证每个视图内部的局部几何结构,针对上述问题,利用流形正则化以保持矩阵内部结构的不变性。为了进一步加强不同视图之间的相互学习和双向融合,添加了 HSIC 模块,以便于在模型优化过程中实现视图之间的互连、相互学习和信息集成。综合改进的非负矩阵分解、流行正则化和 HSIC三部分知识,更新系数矩阵 V(s)的目标函数可由以下公式给出。定义 6(更新系数矩阵 V(s)的目标函数):移ts=1姿1椰E(s)x椰21+椰E(s)u椰*+摇 摇 姿s移tw=1,s屹wHSIC(V(s),V(w)+
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 矩阵 分解 均方残差多 视图 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。