基于层次对比学习的半监督节点分类算法.pdf
《基于层次对比学习的半监督节点分类算法.pdf》由会员分享,可在线阅读,更多相关《基于层次对比学习的半监督节点分类算法.pdf(9页珍藏版)》请在咨信网上搜索。
1、摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇基基于层次对比学习的半监督节点分类算法李雅琪1摇 摇 王摇 杰2摇 摇 王摇 锋1摇 摇 梁吉业1摘摇 要摇 大多数用于半监督节点分类的图对比学习方法需要通过繁琐的图数据增强方式得到两个视图,而且这些数据增强方式会不可避免地改变图语义信息,限制现有图对比学习方法的效率和适用性.为此,文中提出基于层次对比学习的半监督节点分类算法.算法无需进行图数据增强,而是将图神经网络不同层次的表示作为对比的视图进行学习,从而缓解繁
2、琐的搜索以及语义的破坏.此外,设计一种半监督对比损失,有效利用少量的标记信息和大量的无标记信息以提供丰富的监督信号和改进节点的表示.最后,在四个基准数据集上对节点分类任务的实验验证文中算法的有效性.关键词摇 半监督节点分类,图对比学习,图数据增强,半监督对比损失,图神经网络引用格式摇 李雅琪,王 杰,王 锋,梁吉业.基于层次对比学习的半监督节点分类算法.模式识别与人工智能,2023,36(8):712-720.DOI摇 10.16451/ki.issn1003鄄6059.202308004中图法分类号摇 TP 391Semi鄄Supervised Node Classification Alg
3、orithm Based onHierarchical Contrastive LearningLI Yaqi1,WANG Jie2,WANG Feng1,LIANG Jiye1ABSTRACT摇 Most graph contrastive learning methods for semi鄄supervised node classification obtain twoviews by cumbersome data augmentation.Moreover,the above data augmentation inevitably changes thegraph semantic
4、 information,limiting the efficiency and applicability of the existing graph contrastivelearning methods.Therefore,a semi鄄supervised node classification algorithm based on hierarchicalcontrastive learning is proposed in this paper.In the proposed algorithm,graph data augmentation isunnecessary and t
5、he representations of different hierarchies of the graph neural network are learned ascontrasted views to alleviate the tedious search and the semantic destruction.In addition,a semi鄄supervised contrastive loss is designed,and a small amount of labeled information and a large amount ofunlabeled info
6、rmation are effectively utilized to provide rich supervised signals and improve the noderepresentations.Finally,node classification experiments on four benchmark datasets validate theeffectiveness of the proposed algorithm.Key Words摇 Semi鄄Supervised Node Classification,Graph Contrastive Learning,Gra
7、ph Data Augmenta鄄tion,Semi鄄Supervised Contrastive Loss,Graph Neural NetworkCitation摇 LI Y Q,WANG J,WANG F,LIANG J Y.Semi鄄Supervised Node Classification AlgorithmBased on Hierarchical Contrastive Learning.Pattern Recognition and Artificial Intelligence,2023,36(8):712-720.收稿日期:2023-06-25;录用日期:2023-08-
8、24Manuscript received June 25,2023;accepted August 24,2023国家自然科学基金项目(No.62276158,U21A20473)资助Supported by National Natural Science Foundation of China(No.62276158,U21A20473)本文责任编委 王士同Recommended by Associate Editor WANG Shitong1.山西大学 计算机与信息技术学院摇 太原 0300062.太原科技大学 计算机科学与技术学院 摇 太原 0300241.School of Co
9、mputer and Information Technology,Shanxi Uni鄄versity,Taiyuan 0300062.College of Computer Science and Technology,Taiyuan Uni鄄versity of Science and Technology,Taiyuan 030024第 36 卷摇 第 8 期模式识别与人工智能Vol.36摇 No.82023 年 8 月Pattern Recognition and Artificial IntelligenceAug.摇2023摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 摇摇摇摇摇摇摇摇摇摇摇摇
10、摇摇摇摇摇摇摇摇摇 摇 近年来,深度学习在很多领域都具有长足的进展1-2,但是深度学习的成功需要使用大量的标记数据.然而,在许多实际问题中,标记样本的获取是相当困难的,需要耗费巨大的人力、物力和财力,通常无标记样本的数量远大于标记样本的数量.因此,如何使用少量的标记数据结合大量的无标记数据进行训练是机器学习领域广泛关注的问题之一3.半监督学习(Semi鄄Supervised Learning,SSL)4是应对上述问题的主流方法之一.SSL 能够在没有外界干预的情况下,同时利用少量的标记样本和大量的无标记样本进行学习,改善学习性能.目前,半监督学习方法大致可分为5 类:生成式方法5、半监督 SV
11、M(Semi鄄Supervised Support Vector Machine)6、图半监督学习7-8、基于分歧的方法9和基于深度学习的方法10-11.其中,图半监督学习由于其概念清晰、可解释性强且性能优越,受到学者们越来越多的关注.图半监督学习的基本思想是利用标记样本和无标记样本构建一个反映数据分布信息的图,再利用该图将标记从标记样本“传播冶 到无标记样本.Perozzi 等12提出 DeepWalk,在图中利用截断随机游走方式获取局部信息,学得节点的潜在表示.Defferrard 等13提出切比雪夫网络 Chebyshev,利用切比雪夫多项式近似图卷积核.Velic姚kovic等14提出
12、GATs(Graph Attention Networks),引入图注意力机制,聚合每个节点的邻居节点,自适应地为不同的邻居节点分配权重.然而,图半监督学习在标记样本较少时性能退化严重,使用更少的标注代价学习高效的模型是图半监督学习面临的挑战之一.研究者们通过直接增强监督信息和间接增强监督信息的方式缓解标记样本过少的问题.直接增强监督信息的方法包括标签传播或自训练技术.Zhu 等15提出基于高斯随机场与调和函数的半监督学习方法,构造相似度矩阵,让每个样本的类标记信息在空间中传播.Sun 等16提出 M3S(Mulit鄄stage Self鄄Supervised),基于 DeepCluster1
13、7,在每个训练阶段为未标记节点分配伪标记.You等18提出 Node Clustering,利用节点特征之间的相似性进行聚类,将簇索引作为自监督学习的伪标记,分配给所有节点.Li 等19训练图卷积神经网络(Graph Convolutional Network,GCN)20,利用特征提取增强监督信息.但标签传播或自训练技术存在一些缺点,如伪标记错误的累积.尤其是当标记节点特别稀疏时,会引入大量的噪声,影响标记的传播过程.间接增强监督信息的方法是指通过挖掘数据的分布信息发现潜在规律,从而弥补监督信息的不足.在这方面,图自监督学习通过精心设计的代理任务而不依赖人工标注提取信息,从数据中挖掘自身的监
14、督 信 息,从 而 学 习 到 对 下 游 任 务 有 价 值 的表示21-23.图自监督学习方法包括预测式自监督学习方法、生成式自监督学习方法和图对比学习方法(Graph Contrastive Learning,GCL).预测式自监督学习方法将数据中自生成标记作为监督信号进行学习.生成式自监督学习方法将完整的图或子图作为监督信号,用于重构输入数据的特征或结构.图对比学习方法通过区分正对和负对进行训练.其中,图对比学习方法由于具有强大的学习表示性能成为当下研究的热点.图对比学习通过图数据增强为每个节点生成多视图表示,同一节点生成的节点表示视为正例对,而从不同节点生成的节点表示视为负例对.图对
15、比学习的主要目标是在最大化正例对的一致性的同时最小化负例对的一致性24.代表性的图对比学习方法如下.Velic姚kovic等25提出 DGI(Deep Graph Infomax),最大化节点局部特征与图的全局性特征之间的互信息,得到图中节点的表示.Hassani等26提出Contrastive Multi鄄viewGraph Representation Learning,对比一阶邻居和图扩散编码,提高方法性能.Peng等27提出GMI(Gra鄄phical Mutual Information),把传统互信息的思想推广到图域,利用图形互信息测量输入和高层隐藏表示之间的相关性.Zhu等28提
16、出GRACE(Graph Con鄄trastive Representation Learning),采用去除边和屏蔽节点特征两种不同策略,进行图数据增强.Zhu等29在拓扑层面上,设计基于节点中心性度量的图数据增强方案,突出重要的连接结构,在节点属性层面上,向不重要的节点特征添加更多的噪声,从而破坏节点特征.Suresh等30提出AD鄄GCL(AdversarialGCL),引入信息瓶颈原则,在数据增强时保留图本身的特性,避免在训练过程中获得冗余信息.Chu等31提出 CuCo(Curriculum Contrastive LearningFramework for Self鄄Supervi
17、sed Graph鄄Level Repre鄄sentation),使用评分函数对负样本进行排序.Zhu等32提出 RoSA(Robust Self鄄Aligned Framework),利用图的拓扑信息和属性信息进行非对齐节点级对比,用于节点级的图表示学习.尽管图对比学习方法已得到广泛研究,但是存317第 8 期摇 摇 摇 摇 李雅琪等:基于层次对比学习的半监督节点分类算法在如下不足:1)通过反复试错为每个数据集手动选择数据增强方案;2)引入昂贵的领域特定知识作为指导以获得数据增强;3)大多会改变图语义信息,丢弃一些重要的节点和边,使模型学习对不重要的节点和边缘扰动不敏感29.因此,图对比方法
18、中保持图的语义,同时减少人工的干预是必要的.基于上述分析,本文提出基于层次对比学习的半监督节点分类算法(Semi鄄Supervised Node Classi鄄fication Algorithm Based on Hierarchical ContrastiveLearning,SSC鄄HCL).不使用图数据增强的方式生成视图,而是将不同层次的图神经网络(GraphNeural Network,GNN)表示作为相关视图进行对比,保留图的语义信息.在此基础上,设计半监督对比损失,结合半监督任务和对比学习,可以有效利用少量标记信息提供监督信息,改进节点表示,进而改善节点分类任务的效果.一方面可以
19、缓解繁琐的搜索,学习更好的节点表示,另一方面可以对不同跳邻居学到的节点表示进行约束,缓解由于数据增强及深度加深带来的语义破坏问题.在 4 个基准数据集上的实验验证 SSC鄄HCL 的优越性.1摇基于层次对比学习的半监督节点分类算法1.1摇图半监督学习问题定义设 G=(V,着)表示一个无向图,其中,V=v1,v2,vN表示 N 个节点的集合,包括 l 个标记样本Dl=(x1,y1),(x2,y2),(xl,yl),yi沂 1,2,C,C 表示样本的类别,和 u 个无标记样本Du=(xl+1),(xl+2),(xl+u),通常,l 垲 u.着 哿 V 伊 V 表示节点之间的边集.X 沂RN伊F表示
20、节点的特征矩阵,F 表示特征维度,Y 表示节点的标记矩阵.A=aij 沂 RN伊N表示节点的邻接矩阵.D=diag(d1,d2,dN)表示 A 的度矩阵,di=移jaij表示顶点 i 的度.图半监督学习的目标是学习一个函数 f,最终输出标记矩阵 Y卒.1.2摇图神经网络图神经网络的目标是学习一个编码器f(X,A)沂 RN伊F忆,以图的特征和结构作为输入,产生低维的节点嵌入,即 F忆 垲 F.GCN 的卷积层传播公式为H(l+1)=(滓D-12A D-12H(l)W(l),其中,A=A+IN表示无向图G 的邻接矩阵A和单位矩阵 IN的和,D 表示A 的度矩阵,W(l)表示权重矩阵,H(l)表示第
21、l层激活矩阵,滓()表示非线性激活函数,例如ReLU()=max(0,).1.3摇算法介绍本文提出基于层次对比学习的半监督节点分类算法(SSC鄄HCL),框架如图 1 所示.SSC鄄HCL将原始图G=(X,A)的结构和特征作为输入,采用 GCN 对图进行编码,在学习的过程中,将不同层次上得到的嵌入表示作为不同的视图,用作对比学习.同时,使用半监督对比损失,最大化多个视图上学得表示的一致性,通过迭代优化学习节点的表示.?GCNz21z31?XYz11z61z51z41z81z71GCNGCNz12z22z32z52z62z72z82z42z13z23z33z63z53z43z83z73?Y2Y1
22、Y5.图 1摇 SSC鄄HCL 结构图Fig.1摇 Structure of SSC鄄HCL417模式识别与人工智能(PR&AI)摇 摇 摇第 36 卷摇 摇具体地,SSC鄄HCL(以三层为例)通过在图 G 上应用 GCN,得到第 1 层 第 3 层视图表示:Z1=(滓A卒XW)0,Z2=(滓A卒Z1W)1,Z3=(滓A卒Z2W)2,其中,A卒=D-12A D-12表示归一化邻接矩阵.然后,将层次视图设计为对比视图,以增大正例对的相似性、降低负例对的相似性为目的,改进图的嵌入表示.半监督对比损失同时利用大量的无标记样本和少量的标记样本,为仅使用无标记样本的对比学习提供丰富的监督信息,帮助模型学
23、习更好的节点表示,进一步提高模型性能.在学习的过程中,使用评分函数衡量节点编码特征的相似度,目标是尽可能地增大同一类别的节点之间的相似度,尽可能地减小不同类别的节点之间的相似度,指导学习过程.半监督对比损失分为两部分:监督对比损失和无监督对比损失.SSC鄄HCL 的半监督对比损失机制如图 2 所示.使用xi表示视图中的节点,如果xi为标记节点,xi的正例为与它具有同类的标记节点,负例为与它具有不同类的标记节点,即图2 中的紫色箭头和蓝色箭头指向的节点分别表示节点 xi的正例和负例.如果 xi为无标记节点,xi的正例为另一个视图上它本身,负例为除 xi之外的其它节点,即图 2 中的绿色箭头和红色
24、箭头指向的节点分别表示节点 xi的正例和负例.?图 2摇半监督对比损失机制示意图Fig.2摇Schematic diagram of semi鄄supervised contrastiveloss mechanism无监督对比损失表示如下:lsuc=12n移ni=1(lsuc(xi)+ls+1uc(xi),其中,lsuc和ls+1uc分别表示第s层和第s+1层次中对于无标记节点 xi的成对的无监督对比损失.通过内积衡量节点表示之间的相似度,得到 lsuc(xi),即将正例对之间的相似度和负例对之间的相似度进行对比.lsuc(xi)可以形式化地表示为lsuc(xi)=-lgexp(掖zsi,zs
25、+1i业)exp(掖zsi,zs+1i业)+移j屹iexp(掖zsi,zsj业)+移j屹iexp(掖zsi,zs+1j业),其中,zsi和 zs+1i表示从不同的视图中学习得到的节点 xi的第 i 行的表示,掖 业 表示内积.ls+1uc(xi)的计算方法与 lsuc(xi)类似,可以形式化地表示为ls+1uc(xi)=-lgexp(掖zs+1i,zsi业)exp(掖zs+1i,zsi业)+移j屹iexp(掖zs+1i,zs+1j业)+移j屹iexp(掖zs+1i,zsj业),摇 摇同时,为了充分利用稀缺但有价值的标记样本,使用监督对比损失为学习节点表示提供额外的监督信号.监督对比损失表示如下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 层次 对比 学习 监督 节点 分类 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。