双路自编码器的属性网络表示学习.pdf
《双路自编码器的属性网络表示学习.pdf》由会员分享,可在线阅读,更多相关《双路自编码器的属性网络表示学习.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2338-2344ISSN 10019081CODEN JYIIDUhttp:/双路自编码器的属性网络表示学习王静红1,2,3,周志霞1,王辉4*,李昊康4(1.河北师范大学 计算机与网络空间安全学院,石家庄 050024;2.河北省网络与信息安全重点实验室(河北师范大学),石家庄 050024;3.供应链大数据分析与数据安全河北省工程研究中心(河北师范大学),石家庄 050024;4.河北工程技术学院,石家庄 050091)(通信作者电子邮箱)摘要:属性网络表示学习的目的是在
2、保证网络中节点性质的前提下,结合结构和属性信息学习节点的低维稠密向量表示。目前属性网络表示学习方法忽略了网络中属性信息的学习,且这些方法中的属性信息与网络拓扑结构的交互性不足,不能高效融合网络结构和属性信息。针对以上问题,提出一种双路自编码器的属性网络表示学习(DENRL)算法。首先,通过多跳注意力机制捕获节点的高阶邻域信息;其次,设计低通拉普拉斯滤波器去除高频信号,并迭代获取重要邻居节点的属性信息;最后,构建自适应融合模块,通过结构和属性信息的一致性及差异性约束来增加对重要信息的获取,并通过监督两个自编码器的联合重构损失函数训练编码器。在Cora、Citeseer、Pubmed和Wiki数据
3、集上的实验结果表明,与DeepWalk、ANRL(Attributed Network Representation Learning)等算法相比,DENRL算法在3个引文网络数据集上聚类准确率最高、算法运行时间最少,在Cora数据集上聚类准确率为0.775和运行时间为0.460 2 s;且DENRL算法在Cora和Citeseer数据集上链路预测精确率最高,分别达到了0.961和0.970。可见,属性与结构信息的融合及交互学习可以获得更强的节点表示能力。关键词:属性网络;网络表示学习;自编码器;交互学习;注意力机制中图分类号:TP181 文献标志码:AAttribute network re
4、presentation learning with dual auto-encoderWANG Jinghong1,2,3,ZHOU Zhixia1,WANG Hui4*,LI Haokang4(1.College of Computer and Cyber Security,Hebei Normal University,Shijiazhuang Hebei 050024,China;2.Hebei Provincial Key Laboratory of Network and Information Security(Hebei Normal University),Shijiazhu
5、ang Hebei 050024,China;3.Hebei Provincial Engineering Research Center for Supply Chain Big Data Analytics and Security(Hebei Normal University),Shijiazhuang Hebei 050024,China;4.Hebei Polytechnic Institute,Shijiazhuang Hebei 050091,China)Abstract:On the premise of ensuring the properties of nodes in
6、 the network,the purpose of attribute network representation learning is to learn the low-dimensional dense vector representation of nodes by combining structure and attribute information.In the existing attribute network representation learning methods,the learning of attribute information in the n
7、etwork is ignored,and the interaction of attribute information with the network topology is insufficient,so that the network structure and attribute information cannot be fused efficiently.In response to the above problems,a Dual auto-Encoder Network Representation Learning(DENRL)algorithm was propo
8、sed.Firstly,the high-order neighborhood information of nodes was captured through a multi-hop attention mechanism.Secondly,a low-pass Laplacian filter was designed to remove the high-frequency signals and iteratively obtain the attribute information of important neighbor nodes.Finally,an adaptive fu
9、sion module was constructed to increase the acquisition of important information through the consistency and difference constraints of the two kinds of information,and the encoder was trained by supervising the joint reconstruction loss function of the two auto-encoders.Experimental results on Cora,
10、Citeseer,Pubmed and Wiki datasets show that DENRL algorithm has the highest clustering accuracy and the lowest algorithm running time on three citation network datasets compared with DeepWalk,ANRL(Attributed Network Representation Learning)and other algorithms,achieves these two indicators of 0.775
11、and 0.460 2 s respectively on Cora datasets,and has the highest link prediction precision on Cora and Citeseer datasets,reaching 0.961 and 0.970 respectively.It can be seen that the fusion and interactive learning of attribute and structure information can obtain stronger node representation capabil
12、ity.Key words:attribute network;network representation learning;auto-encoder;interactive learning;attention mechanism文章编号:1001-9081(2023)08-2338-07DOI:10.11772/j.issn.1001-9081.2022091337收稿日期:20220906;修回日期:20220927;录用日期:20221008。基金项目:中央引导地方科技发展资金资助项目(226Z1808G);河北省自然科学基金资助项目(F2021205014);河北省高等学校科学技术
13、研究项目(ZD2022139);河北师范大学重点项目(L2023J05)。作者简介:王静红(1967),女,河北石家庄人,教授,博士,CCF会员,主要研究方向:人工智能、大数据、数据挖掘;周志霞(1996),女,河北石家庄人,硕士研究生,CCF会员,主要研究方向:数据挖掘、网络表示学习;王辉(1982),女,河北保定人,副教授,硕士,主要研究方向:高等教育、职业教育;李昊康(1994),男,河北石家庄人,硕士,CCF会员,主要研究方向:社区发现、深度学习、图表示学习。第 8 期王静红等:双路自编码器的属性网络表示学习0 引言 网络表示学习又称网络嵌入,它的目标是学习一种节点表示方式,最大限度保
14、留网络的信息,将网络中的节点表示成低维、稠密的向量形式1-4,再结合机器学习算法,完成网络分析的下游任务,如链路预测、节点聚类等5。近年来,随着大数据时代的迅速发展,各领域的数据量不断增加,数据形式也更加复杂,这些数据形成的网络以图的形式存在于计算机中,例如,社交网络、引文网络、蛋白质相互作用网络等。这些图数据结构和属性信息复杂6,能适应多个领域的学习任务,挖掘网络数据中潜在信息的关键环节就是网络表示学习。传统的网络表示学习算法仅保留网络的拓扑结构信息。Perozzi等7基于随机游走提出了DeepWalk算法,先标记图中的所有顶点,然后随机地选取起始顶点、规定路径长度后,开始随机游走,并在生成
15、游走序列的过程中借助Skip-Gram模型获得节点表示。由于该算法选取随机游走序列中下一个节点采用的是均匀随机分布的方式,采样过程中可能会对中心节点重复采样。Grover等8提出了node2vec,在随机游走的基础上对顶点的邻域做了限制,加入有偏随机游走策略来捕获上下文的结构,即在游走策略之间定义一个转移概率,这样可以有效探索不同的邻域。Ribeiro等9提出了struc2vec算法,考虑到网络空间结构相似的节点也有很高的相似性,因此基于分层带权图进行随机游走。Tang 等10提出了 LINE(Large-scale Information Network Embedding)算法,通过边缘化
16、的随机游走来保留网络的一阶和二阶近邻性,同时保留网络的局部和全局网络结构。Wang 等11提出了 SDNE(Structural Deep Network Embedding)算法,将深度学习技术用在表示学习中,结合自编码器和拉普拉斯特征映射保留网络结构的一阶和二阶相似性。绝大多数真实网络中均含有丰富的属性信息,结合节点属性信息学习节点的向量表示,可以解决网络结构稀疏问题,同时更好地保留原网络的信息。Yang 等12提出了 TADW(Text-Associated DeepWalk)算法,通过矩阵分解将节点的文本信息结合到表示学习中,性能优于 DeepWalk 算法7。Huang 等13提 出
17、 了 AANE(Accelerated Attributed Network Embedding)算法,同样基于矩阵分解将网络中的拓扑信息和属性信息整合到一起,但该模型将优化过程分解成了多个子问 题 并 行 工 作,提 高 了 算 法 效 率。Zhao 等14提 出 了DeepEmLAN,通过深度注意模型将不同类型的属性信息平滑地投射到同一个语义空间,同时保持网络的拓扑结构。Kingma 等15提出了基于深度自编码器的 VAE(Variational Auto-Encoder),Kipf等16提出了基于变分自编码器的 VGAE(Variational Graph Auto-Encoder)将拓
18、扑结构和属性信息整合并映射到同一个语义空间,将中间层作为节点的向量表示。Hamilton 等17提出了 GraphSAGE(SAmple and aggreGatE)算法,在传统的图卷积神经网络上延伸,通过节点属性信息来聚合多阶邻居节点的信息生成向量表示。Huang 等18提出了GraphRNA(Graph Recurrent Networks with Attributed random walks)算法,对节点属性信息生成随机游走序列,在此基础上设计循环神经网络框架来学习节点表示。Zhang等19提出了ANRL(Attributed Network Representation Learn
19、ing)算法,结合编码器和Skip-Gram模型共同学习结构和属性的表示。图卷积神经网络(Graph Convolutional Network,GCN)20-21利用基于局部谱卷积滤波器的一阶信息,聚合邻居属性信息。图注意力网络(Graph Attention Network,GAT)22加入节点属性信息给邻居分配不同的权值,根据重要性来学习邻居权值。现有的结合网络结构和节点属性信息的网络表示学习方法依旧存在以下几个问题:1)非线性。准确捕获网络中高度非线性的拓扑结构和节点属性信息。2)交互性。拓扑结构和属性信息学习对网络表示有互补性,在进行学习时应保证两者交互学习。3)多模态性。结构和节点
20、属性信息是两种不同的信息,要高效融合两种信息,并在下游任务中自适应地学习结构和属性信息。针对上述问题,本文提出双路自编码器属性网络表示学习(Dual auto-Encoder Network Representation Learning,DENRL)算法,能够在网络表示学习中融合局部、全局结构信息和节点属性信息来获得更好的节点表示。具体来讲,利用多跳注意力机制捕获节点高阶邻域信息23,因为低频信号比较平滑,相邻节点的信号值更相关,节点之间有更强的相似性;而高频的信号变化要剧烈得多,相邻节点的信号值差异比较显著,所以设计低通拉普拉斯滤波器对属性矩阵进行处理。本文的主要工作可以总结为以下几点:1
21、)提出双路自编码器的属性网络表示学习(DENRL)算法,利用多跳注意力机制的邻居权重分析策略,根据节点邻居属性信息为节点分配不同的权重,捕获节点高阶邻域信息,获得节点结构嵌入表示。2)设计低通的拉普拉斯平滑滤波器对属性矩阵进行处理,去除高频信号,使邻域内相近的节点更加接近,迭代获取重要邻居节点的属性信息,实现两种信息的互补性和相互制约性,经过自适应解码得到属性嵌入表示。3)提出自适应学习策略,设计公共的参数共享,通过优化两个自编码器的联合重构损失,自适应学习结构和属性的重要性。4)在真实世界的4个数据集上进行实验,实验结果表明了DENRL算法的优越性及合理性。1 相关工作 网络表示学习问题一直
22、是数据挖掘和机器学习领域的研究热点,近些年,受到深度学习领域自编码器和词嵌入等自然语言处理的思想启发,研究者期望在学习节点的表示向量时能够保留网络的属性信息,更好地进行后续的网络分析任务。本章从仅考虑拓扑结构的网络表示学习方法、属性网络表示学习方法两个方面介绍网络表示学习的相关研究现状。传统的网络表示学习方法仅考虑网络的拓扑结构信息,忽略了节点的属性信息。这类网络表示学习方法包括在引言中提到的 DeepWalk7、node2vec8、struc2vec9、LINE10、SDNE11等。这些方法主要分为基于随机游走、基于矩阵分解和基于深度学习三种方式。2016年的DeepWalk算法首次将自然语
23、言处理中的模型引入了网络表示学习领域,也是首个使用随机游走方式学习节点表示的方法,后在游走方式上改进有了node2vec、struc2vec等算法。网络的邻接矩阵中保留着网络拓扑结构的重要信息,但邻接矩阵本身不能作为节点的表示向量,因为邻接矩阵的维数太高,会带来很大的运2339第 43 卷计算机应用算量。然而,复杂网络的邻接矩阵通常都是稀疏矩阵,矩阵的秩远小于矩阵的维数,基于矩阵分解的方式就是把包含网络拓扑结构信息的邻接矩阵分解成秩更小的矩阵,将其中一个矩阵作为所有节点的表示向量。自编码器是基于深度学习方式的最早的一种降维方法,被广泛用于网络表示学习,其中SDNE就是基于自编码器的方式重建网络
24、邻接矩阵信息。属性网络表示学习要求生成的节点表示向量不仅包含网络的拓扑结构信息,还要包含节点的属性信息,结合节点的属性信息,可以提高网络嵌入向量的质量,还可以解决网络的稀疏 性 等 问 题。目 前 常 见 的 算 法 有 TADW12、AANE13、DeepEmlan14、VGAE16、ANRL19等。同样,在属性网络表示学习方法中,也大致分为了基于随机游走、矩阵分解和深度学习三种方式,只是在考虑随机游走时,会另外生成属性信息的游走序列,或在矩阵分解时将属性矩阵加入分解。在基于深度学习方式上的突破主要是在图神经网络方面,类比图像的卷积操作等,研究者开始将卷积引入图(也叫网络)数据,将图卷积操作
25、应用在网络表示学习方面,在基于网络拓扑结构的基础上,迭代聚合节点的邻居信息,同时保留网络的局部和全局结构,如GCN20-21。国外在网络表示学习方面处于领先阶段,已经有很好的研究成果,国内起步较晚,但是进步很快,在算法的创新的改进上有了不错的成果,2020年,北京邮电大学和北京大学联合提出了多成分卷积协同过滤算法,利用用户购买行为记录构成用户和商品二部图,在节点表示学习中加入属性信息21。不同于已有的算法,本文考虑网络中复杂的非线性信息,结构和属性信息的相互制约及交互,用双路自编码器的架构,基于注意力机制捕获网络局部和全局的结构信息,改进图卷积操作,设计低通滤波器,聚合重要的邻居节点信息,采用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 编码器 属性 网络 表示 学习
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。