多视图对比增强的异质图结构学习方法.pdf
《多视图对比增强的异质图结构学习方法.pdf》由会员分享,可在线阅读,更多相关《多视图对比增强的异质图结构学习方法.pdf(24页珍藏版)》请在咨信网上搜索。
1、 软件学报 ISSN 1000-9825,CODEN RUXUEW E-mail: Journal of Software,2023,34(10):44774500 doi:10.13328/ki.jos.006883 http:/ 中国科学院软件研究所版权所有.Tel:+86-10-62562563 多视图对比增强的异质图结构学习方法 邴 睿1,袁 冠1,2,孟凡荣1,王森章3,乔少杰4,王志晓1 1(中国矿业大学 计算机科学与技术学院,江苏 徐州 221116)2(矿山数字化教育部工程研究中心,江苏 徐州 221116)3(中南大学 计算机学院,湖南 长沙 410083)4(成都信息工程大
2、学 软件工程学院,四川 成都 610225)通信作者:袁冠,E-mail: 摘 要:异质图神经网络作为一种异质图表示学习的方法,可以有效地抽取异质图中的复杂结构与语义信息,在节点分类和连接预测任务上取得了优异的表现,为知识图谱的表示与分析提供了有力的支撑.现有的异质图由于存在一定的噪声交互或缺失部分交互,导致异质图神经网络在节点聚合、更新时融入错误的邻域特征信息,从而影响模型的整体性能.为解决该问题,提出了多视图对比增强的异质图结构学习模型.该模型首先利用元路径保持异质图中的语义信息,并通过计算每条元路径下节点之间特征相似度生成相似度图,将其与元路径图融合,实现对图结构的优化.通过将相似度图与
3、元路径图作为不同视图进行多视图对比,实现无监督信息的情况下优化图结构,摆脱对监督信号的依赖.最后,为解决神经网络模型在训练初期学习能力不足、生成的图结构中往往存在错误交互的问题,设计了一个渐进式的图结构融合方法.通过将元路径图和相似度图递增地加权相加,改变图结构融合过程中相似度图所占的比例,在抑制了因模型学习能力弱引入过多的错误交互的同时,达到了用相似度图中的交互抑制原有干扰交互或补全缺失交互的目的,实现了对异质图结构的优化.选择节点分类与节点聚类作为图结构学习的验证任务,在 4 种真实异质网络数据集上的实验结果,也表明该异质图结构学习方法是可行且有效的.与最优对比模型相比,该模型在两种任务下
4、的性能均有显著提升.关键词:异质图;图神经网络;图结构学习;自监督学习;图对比学习 中图法分类号:TP18 中文引用格式:邴睿,袁冠,孟凡荣,王森章,乔少杰,王志晓.多视图对比增强的异质图结构学习方法.软件学报,2023,34(10):44774500.http:/ 英文引用格式:Bing R,Yuan G,Meng FR,Wang SZ,Qiao SJ,Wang ZX.Multi-view Contrastive Enhanced Heterogeneous Graph Structure Learning.Ruan Jian Xue Bao/Journal of Software,2023
5、,34(10):44774500(in Chinese).http:/ Multi-view Contrastive Enhanced Heterogeneous Graph Structure Learning BING Rui1,YUAN Guan1,2,MENG Fan-Rong1,WANG Sen-Zhang3,QIAO Shao-Jie4,WANG Zhi-Xiao1 1(School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116,China)2(E
6、ngineering Research Center of Mine Digitalization of Ministry of Education,Xuzhou 221116,China)3(School of Computer Science and Engineering,Central South University,Changsha 410083,China)4(School of Software Engineering,Chengdu University of Information Technology,Chengdu 610225,China)Abstract:As a
7、heterogeneous graph representation learning method,heterogeneous graph neural networks can effectively extract complex 基金项目:国家自然科学基金(62272461,71774159,62272066,61871686);中国博士后科学基金(2021T140707);江苏省博士 后科学基金(2021K565C)本文由“知识赋能的信息系统”专题特约编辑高宏教授、陈华钧教授、赵翔教授、李瑞轩教授推荐.收稿时间:2022-07-04;修改时间:2022-08-18,2022-12-1
8、4;采用时间:2022-12-28;jos 在线出版时间:2023-01-13 4478 软件学报 2023 年第 34 卷第 10 期 structural and semantic information from heterogeneous graphs,and have achieved excellent performance in node classification and connection prediction tasks,which provides strong support for the representation and analysis of knowl
9、edge graphs.Due to the existence of some noise interaction or missing interaction in the heterogeneous graph,the heterogeneous graph neural network incorporates erroneous neighbor features when nodes are aggregated and updated,thus affecting the overall performance of the model.In order to solve the
10、 above problems,this study proposes a heterogeneous graph structure learning model enhanced by multi-view contrastive.Firstly,the semantic information in the heterogeneous graph is maintained by using the meta path,and the similarity graph is generated by calculating the feature similarity between t
11、he nodes under each meta-path,which is fused with the meta-path graph to optimize the graph structure.By comparing the similarity graph and meta-path graph as different views,the graph structure is optimized without the supervision information,and the dependence on the supervision signal is eliminat
12、ed.Finally,in order to solve the problem that the learning ability of neural network model is insufficient at the initial stage of training and there are often error interactions in the generated graph structure,this study designs a progressive graph structure fusion method.Through incremental weigh
13、ted addition of meta-path graph and similarity graph,the weight of similarity graph is changed in the fusion process,it not only prevents erroneous interactions from being introduced in the initial stage of training,but also achieves the purpose of using the interaction in similarity graph to suppre
14、ss interference interaction or complete missing interaction,thus the structure of heterogeneous graph is optimized.The node classification and node clustering are selected as the verification tasks of graph structure learning.The experimental results on four real heterogeneous graph datasets prove t
15、hat the heterogeneous graph structure learning method proposed in this study is feasible and effective.Compared with the optimal comparison model,the performance of proposed model has been significantly improved under two evaluation metrics.Key words:heterogeneous graph;graph neural network;graph st
16、ructure learning;self-supervised learning;graph contrastive learning 异质信息网络(也称为异质图)是由多种类型的实体与交互组成的网络结构,常用于建模现实世界中实体间的复杂交互关系,如知识图谱实体关系构建、社交网络多种角色建模等.异质图表示学习通过将图中节点映射为低维且稠密的表示向量,保留异质图中潜在的结构特性与语义信息,对帮助人们理解实体复杂交互中的潜层结构关系与语义信息起到了关键的作用,为不同的应用(如推荐系统1,2、异常用户检测3、蛋白质作用预测4、交通流量预测5以及知识图谱信息表示6)提供了关键的特征信息支持.图神经网络
17、(graph neural networks,GNNs)作为一种有效的图表示学习工具,因其强大的特征捕获能力,近年来受到了众多研究人员的关注.目前,多数图神经网络(例如:GCN7在谱域上定义了图的卷积操作,通过归一化拉普拉斯矩阵与节点特征矩阵相乘,实现节点表示的更新;GAT8将注意力机制引入节点邻域特征的聚合过程,在更新节点表示时区分了不同邻居的重要性),其目标都是在同质图(只包含一种节点类型与一种边类型的图)上学习节点的表示,无法在学习过程中区分异质图中多类型的节点与边所带来的不同影响,因此不能直接将上述模型应用于异质图的表示学习中.为了将图神经网络扩展至异质图,用于抽取多类型复杂网络中的潜
18、在特征,例如知识图谱中的实体关联信息和社交网络中的多角色交互信息,研究人员提出了异质图神经网络(heterogeneous graph neural network,HGNN),并在异质图表示学习中取得了较优的表现,为复杂信息系统提供了新的知识分析技术.现有的 HGNN 模型,如 HAN9、MAGNN10以及 HGT11,使用了注意力机制加权的聚合目标节点的同类型内以及类型之间的邻域节点特征,并将聚合后的特征作为目标节点更新的表征.该类模型都遵从消息传递的方式(聚合节点的原始邻居或元路径邻居的表征)学习节点的表征.在基于消息传递的 HGNN 模型中,消息的传递是根据原始图中的交互关系执行的,即
19、原始图的结构(邻接矩阵)直接决定了一个节点该聚合哪些节点的表征作为自身的表征.而从现实的复杂交互中构建的异质图,通常会由于人为采集数据过程中的不规范操作或采集标准不统一等因素,使得构建的异质图中存在与实际情况不相符的噪声连接并且缺失必要的连接.例如图 1 所示的 DBLP 异质学术网络,该异质学术网络包含了 3 位作者 A1、A2与 A3,3 篇文章 P1、P2与 P3以及文章所属的两种会议 C1和 C2.图 1(a)展示了这些实体在现实中真实的连接关系,而在数据采集的过程中,由于数据构建错误导致构建的异质图中丢失了一部分交互(如 A3与 P2之间的交互)且添加了噪声交互(如 P3原本属于C2
20、,但由于数据记录不当,产生出了与C1的交互).此类存在拓扑结构错误的图数据可以视为受到了结构干扰或结构攻击,使得神经网络聚合具有误导性的特征,产生了错误的预测结果,严重影响了图神经网络模型的学习性能12,13.这样存在交互错误的异质图结构同样也会直接输入到现有的 HGNN 模型中,作为其消 邴睿 等:多视图对比增强的异质图结构学习方法 4479 息传递的范式,引导节点特征的聚合.而现有的 HGNN 既无法消除原始图中的噪音交互,也无法补全图中的缺失交互,使得模型学习的节点表征没有聚合正确的邻域特征,进一步导致学习到的节点表征存在特征偏差,严重影响了 HGNN 模型在下游任务(如节点分类、节点聚
21、类)上的表现.因此,如何学习出优化的异质图结构,抑制错误交互带来的不相关特征,是提升 HGNN 模型性能表现的关键问题.AuthorPaperConference撰写被发表(a)DBLP异质学术网络示例被撰写发表(b)带有交互错误的DBLP异质网络A1带有噪声交互且缺失部分交互的异质图结构非规范处理P1A2A2A3A3P2P1P2P3P3C1C2C1C2 图 1 DBLP 学术异质网络,包含了 3 种类型的节点:作者、文章以及会议和 4 种类型的交互:撰写(write)、被撰写(written)、发表(publish)以及被发表(published)图结构学习(graph structure
22、learning,GSL)旨在使用 GNN 模型学习节点表征的同时,联合优化输入的原始图结构,以解决因邻域交互错误导致的节点特征聚合偏差.因其可以有效地剔除原始图中存在的噪声交互且补全原始图中的缺失交互,解决了交互错误导致的消息传递偏差14,15,近两年吸引了大量的关注.目前,多数图结构学习模型用于学习优化同质图的原始交互结构,并以节点分类任务为目标,将节点的标签作为监督信号,引导图结构与 GNN 参数的更新优化.这类同质图结构学习方法无法区分不同类型的节点与边所产生的不同影响,将其应用于异质图结构优化会丢失异质图中的重要语义信息.如何对异质图结构进行学习优化,修正异质图中的结构错误,成为了异
23、质图神经网络中的热点研究.此外,上述方法都依托于节点分类任务来优化图结构,即需要在节点标签信息的监督下联合优化图结构与模型参数的方式来进行图结构学习.当面临的学习场景中没有可利用的节点标签时,上述方法无法有效地优化图结构.因此,如何在不依赖节点标签的情况下实现异质图的图结构学习,是异质图研究中急需解决的问题.为了解决上述两个问题:(1)现有大多数模型只能学习优化同质图结构,针对异质图结构学习的模型少;(2)仅有的异质图结构学习模型在学习时需要监督信息作为指引,无法应用于无监督信息的场景之中.本文提出了多视图对比增强的异质图结构学习(multi-view contrastive enhanced
24、 heterogeneous graph structure learning,MV-HGSL)方法,实现了在不借助额外的监督信息(如节点的标签信息),仅利用数据自身的特性,学习完整的异质图结构.首先,为了保持异质图中由多种节点类型与边类型产生的异质信息,该模型使用元路径,将原始异质图转化为多个记录了元路径邻居的元路径图;然后,该模型使用多层感知机(multi-layer perception,MLP)生成节点的表征,根据节点表征计算节点间的特征相似度,生成相似度图,使用节点的特征相似性来优化图结构;其次,为了在无监督信息的场景下实现图结构学习,MV-HGSL 使用对比学习的方式,将元路径图与
25、相似度图视为两种不同的视图,通过最大化两种视图之间的互信息,令学习到的相似度图保持了异质图中的结构特性与语义信息;最后,通过将相似度图与原始图加权相加,利用相似度图中的交互去抑制原始图中的噪声交互且补 4480 软件学报 2023 年第 34 卷第 10 期 全缺失的交互的方式,以实现图结构的优化.此外,由于模型在训练初期的表示能力较弱,生成的相似度图中存在错误的相似度交互.为解决该问题,本文设计了一种渐进式图结构融合方法,逐步增加相似度图与元路径图聚合的比例,抑制因模型学习能力弱所产生的交互偏差.在4种真实数据集上的实验结果表明本文提出的MV-HGSL是可行且有效的.本文的贡献总结如下.(1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 视图 对比 增强 异质图 结构 学习方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。