分销赏收藏举报申诉 / 7

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 双路自编码器的属性网络表示学习.pdf

双路自编码器的属性网络表示学习.pdf

上传人：自信****多点

文档编号：719548

上传时间：2024-02-22

格式：PDF

页数：7

大小：1.40MB

《双路自编码器的属性网络表示学习.pdf》由会员分享，可在线阅读，更多相关《双路自编码器的属性网络表示学习.pdf（7页珍藏版）》请在咨信网上搜索。

1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2338-2344ISSN 10019081CODEN JYIIDUhttp：/双路自编码器的属性网络表示学习王静红1，2，3，周志霞1，王辉4*，李昊康4（1.河北师范大学计算机与网络空间安全学院，石家庄 050024；2.河北省网络与信息安全重点实验室（河北师范大学），石家庄 050024；3.供应链大数据分析与数据安全河北省工程研究中心（河北师范大学），石家庄 050024；4.河北工程技术学院，石家庄 050091）（通信作者电子邮箱）摘要：属性网络表示学习的目的是在

2、保证网络中节点性质的前提下，结合结构和属性信息学习节点的低维稠密向量表示。目前属性网络表示学习方法忽略了网络中属性信息的学习，且这些方法中的属性信息与网络拓扑结构的交互性不足，不能高效融合网络结构和属性信息。针对以上问题，提出一种双路自编码器的属性网络表示学习（DENRL）算法。首先，通过多跳注意力机制捕获节点的高阶邻域信息；其次，设计低通拉普拉斯滤波器去除高频信号，并迭代获取重要邻居节点的属性信息；最后，构建自适应融合模块，通过结构和属性信息的一致性及差异性约束来增加对重要信息的获取，并通过监督两个自编码器的联合重构损失函数训练编码器。在Cora、Citeseer、Pubmed和Wiki数据

3、集上的实验结果表明，与DeepWalk、ANRL（Attributed Network Representation Learning）等算法相比，DENRL算法在3个引文网络数据集上聚类准确率最高、算法运行时间最少，在Cora数据集上聚类准确率为0.775和运行时间为0.460 2 s；且DENRL算法在Cora和Citeseer数据集上链路预测精确率最高，分别达到了0.961和0.970。可见，属性与结构信息的融合及交互学习可以获得更强的节点表示能力。关键词：属性网络；网络表示学习；自编码器；交互学习；注意力机制中图分类号：TP181 文献标志码：AAttribute network re

4、presentation learning with dual auto-encoderWANG Jinghong1，2，3，ZHOU Zhixia1，WANG Hui4*，LI Haokang4（1.College of Computer and Cyber Security，Hebei Normal University，Shijiazhuang Hebei 050024，China；2.Hebei Provincial Key Laboratory of Network and Information Security（Hebei Normal University），Shijiazhu

5、ang Hebei 050024，China；3.Hebei Provincial Engineering Research Center for Supply Chain Big Data Analytics and Security（Hebei Normal University），Shijiazhuang Hebei 050024，China；4.Hebei Polytechnic Institute，Shijiazhuang Hebei 050091，China）Abstract:On the premise of ensuring the properties of nodes in

6、 the network，the purpose of attribute network representation learning is to learn the low-dimensional dense vector representation of nodes by combining structure and attribute information.In the existing attribute network representation learning methods，the learning of attribute information in the n

7、etwork is ignored，and the interaction of attribute information with the network topology is insufficient，so that the network structure and attribute information cannot be fused efficiently.In response to the above problems，a Dual auto-Encoder Network Representation Learning（DENRL）algorithm was propo

8、sed.Firstly，the high-order neighborhood information of nodes was captured through a multi-hop attention mechanism.Secondly，a low-pass Laplacian filter was designed to remove the high-frequency signals and iteratively obtain the attribute information of important neighbor nodes.Finally，an adaptive fu

9、sion module was constructed to increase the acquisition of important information through the consistency and difference constraints of the two kinds of information，and the encoder was trained by supervising the joint reconstruction loss function of the two auto-encoders.Experimental results on Cora，

10、Citeseer，Pubmed and Wiki datasets show that DENRL algorithm has the highest clustering accuracy and the lowest algorithm running time on three citation network datasets compared with DeepWalk，ANRL（Attributed Network Representation Learning）and other algorithms，achieves these two indicators of 0.775

11、and 0.460 2 s respectively on Cora datasets，and has the highest link prediction precision on Cora and Citeseer datasets，reaching 0.961 and 0.970 respectively.It can be seen that the fusion and interactive learning of attribute and structure information can obtain stronger node representation capabil

12、ity.Key words:attribute network;network representation learning;auto-encoder;interactive learning;attention mechanism文章编号：1001-9081（2023）08-2338-07DOI：10.11772/j.issn.1001-9081.2022091337收稿日期：20220906；修回日期：20220927；录用日期：20221008。基金项目：中央引导地方科技发展资金资助项目（226Z1808G）；河北省自然科学基金资助项目（F2021205014）；河北省高等学校科学技术

13、研究项目（ZD2022139）；河北师范大学重点项目（L2023J05）。作者简介：王静红（1967），女，河北石家庄人，教授，博士，CCF会员，主要研究方向：人工智能、大数据、数据挖掘；周志霞（1996），女，河北石家庄人，硕士研究生，CCF会员，主要研究方向：数据挖掘、网络表示学习；王辉（1982），女，河北保定人，副教授，硕士，主要研究方向：高等教育、职业教育；李昊康（1994），男，河北石家庄人，硕士，CCF会员，主要研究方向：社区发现、深度学习、图表示学习。第 8 期王静红等：双路自编码器的属性网络表示学习0 引言网络表示学习又称网络嵌入，它的目标是学习一种节点表示方式，最大限度保

14、留网络的信息，将网络中的节点表示成低维、稠密的向量形式1-4，再结合机器学习算法，完成网络分析的下游任务，如链路预测、节点聚类等5。近年来，随着大数据时代的迅速发展，各领域的数据量不断增加，数据形式也更加复杂，这些数据形成的网络以图的形式存在于计算机中，例如，社交网络、引文网络、蛋白质相互作用网络等。这些图数据结构和属性信息复杂6，能适应多个领域的学习任务，挖掘网络数据中潜在信息的关键环节就是网络表示学习。传统的网络表示学习算法仅保留网络的拓扑结构信息。Perozzi等7基于随机游走提出了DeepWalk算法，先标记图中的所有顶点，然后随机地选取起始顶点、规定路径长度后，开始随机游走，并在生成

15、游走序列的过程中借助Skip-Gram模型获得节点表示。由于该算法选取随机游走序列中下一个节点采用的是均匀随机分布的方式，采样过程中可能会对中心节点重复采样。Grover等8提出了node2vec，在随机游走的基础上对顶点的邻域做了限制，加入有偏随机游走策略来捕获上下文的结构，即在游走策略之间定义一个转移概率，这样可以有效探索不同的邻域。Ribeiro等9提出了struc2vec算法，考虑到网络空间结构相似的节点也有很高的相似性，因此基于分层带权图进行随机游走。Tang 等10提出了 LINE（Large-scale Information Network Embedding）算法，通过边缘化

16、的随机游走来保留网络的一阶和二阶近邻性，同时保留网络的局部和全局网络结构。Wang 等11提出了 SDNE（Structural Deep Network Embedding）算法，将深度学习技术用在表示学习中，结合自编码器和拉普拉斯特征映射保留网络结构的一阶和二阶相似性。绝大多数真实网络中均含有丰富的属性信息，结合节点属性信息学习节点的向量表示，可以解决网络结构稀疏问题，同时更好地保留原网络的信息。Yang 等12提出了 TADW（Text-Associated DeepWalk）算法，通过矩阵分解将节点的文本信息结合到表示学习中，性能优于 DeepWalk 算法7。Huang 等13提出

17、了 AANE（Accelerated Attributed Network Embedding）算法，同样基于矩阵分解将网络中的拓扑信息和属性信息整合到一起，但该模型将优化过程分解成了多个子问题并行工作，提高了算法效率。Zhao 等14提出了DeepEmLAN，通过深度注意模型将不同类型的属性信息平滑地投射到同一个语义空间，同时保持网络的拓扑结构。Kingma 等15提出了基于深度自编码器的 VAE（Variational Auto-Encoder），Kipf等16提出了基于变分自编码器的 VGAE（Variational Graph Auto-Encoder）将拓

18、扑结构和属性信息整合并映射到同一个语义空间，将中间层作为节点的向量表示。Hamilton 等17提出了 GraphSAGE（SAmple and aggreGatE）算法，在传统的图卷积神经网络上延伸，通过节点属性信息来聚合多阶邻居节点的信息生成向量表示。Huang 等18提出了GraphRNA（Graph Recurrent Networks with Attributed random walks）算法，对节点属性信息生成随机游走序列，在此基础上设计循环神经网络框架来学习节点表示。Zhang等19提出了ANRL（Attributed Network Representation Learn

19、ing）算法，结合编码器和Skip-Gram模型共同学习结构和属性的表示。图卷积神经网络（Graph Convolutional Network，GCN）20-21利用基于局部谱卷积滤波器的一阶信息，聚合邻居属性信息。图注意力网络（Graph Attention Network，GAT）22加入节点属性信息给邻居分配不同的权值，根据重要性来学习邻居权值。现有的结合网络结构和节点属性信息的网络表示学习方法依旧存在以下几个问题：1）非线性。准确捕获网络中高度非线性的拓扑结构和节点属性信息。2）交互性。拓扑结构和属性信息学习对网络表示有互补性，在进行学习时应保证两者交互学习。3）多模态性。结构和节点

20、属性信息是两种不同的信息，要高效融合两种信息，并在下游任务中自适应地学习结构和属性信息。针对上述问题，本文提出双路自编码器属性网络表示学习（Dual auto-Encoder Network Representation Learning，DENRL）算法，能够在网络表示学习中融合局部、全局结构信息和节点属性信息来获得更好的节点表示。具体来讲，利用多跳注意力机制捕获节点高阶邻域信息23，因为低频信号比较平滑，相邻节点的信号值更相关，节点之间有更强的相似性；而高频的信号变化要剧烈得多，相邻节点的信号值差异比较显著，所以设计低通拉普拉斯滤波器对属性矩阵进行处理。本文的主要工作可以总结为以下几点：1

21、）提出双路自编码器的属性网络表示学习（DENRL）算法，利用多跳注意力机制的邻居权重分析策略，根据节点邻居属性信息为节点分配不同的权重，捕获节点高阶邻域信息，获得节点结构嵌入表示。2）设计低通的拉普拉斯平滑滤波器对属性矩阵进行处理，去除高频信号，使邻域内相近的节点更加接近，迭代获取重要邻居节点的属性信息，实现两种信息的互补性和相互制约性，经过自适应解码得到属性嵌入表示。3）提出自适应学习策略，设计公共的参数共享，通过优化两个自编码器的联合重构损失，自适应学习结构和属性的重要性。4）在真实世界的4个数据集上进行实验，实验结果表明了DENRL算法的优越性及合理性。1 相关工作网络表示学习问题一直

22、是数据挖掘和机器学习领域的研究热点，近些年，受到深度学习领域自编码器和词嵌入等自然语言处理的思想启发，研究者期望在学习节点的表示向量时能够保留网络的属性信息，更好地进行后续的网络分析任务。本章从仅考虑拓扑结构的网络表示学习方法、属性网络表示学习方法两个方面介绍网络表示学习的相关研究现状。传统的网络表示学习方法仅考虑网络的拓扑结构信息，忽略了节点的属性信息。这类网络表示学习方法包括在引言中提到的 DeepWalk7、node2vec8、struc2vec9、LINE10、SDNE11等。这些方法主要分为基于随机游走、基于矩阵分解和基于深度学习三种方式。2016年的DeepWalk算法首次将自然语

23、言处理中的模型引入了网络表示学习领域，也是首个使用随机游走方式学习节点表示的方法，后在游走方式上改进有了node2vec、struc2vec等算法。网络的邻接矩阵中保留着网络拓扑结构的重要信息，但邻接矩阵本身不能作为节点的表示向量，因为邻接矩阵的维数太高，会带来很大的运2339第 43 卷计算机应用算量。然而，复杂网络的邻接矩阵通常都是稀疏矩阵，矩阵的秩远小于矩阵的维数，基于矩阵分解的方式就是把包含网络拓扑结构信息的邻接矩阵分解成秩更小的矩阵，将其中一个矩阵作为所有节点的表示向量。自编码器是基于深度学习方式的最早的一种降维方法，被广泛用于网络表示学习，其中SDNE就是基于自编码器的方式重建网络

24、邻接矩阵信息。属性网络表示学习要求生成的节点表示向量不仅包含网络的拓扑结构信息，还要包含节点的属性信息，结合节点的属性信息，可以提高网络嵌入向量的质量，还可以解决网络的稀疏性等问题。目前常见的算法有 TADW12、AANE13、DeepEmlan14、VGAE16、ANRL19等。同样，在属性网络表示学习方法中，也大致分为了基于随机游走、矩阵分解和深度学习三种方式，只是在考虑随机游走时，会另外生成属性信息的游走序列，或在矩阵分解时将属性矩阵加入分解。在基于深度学习方式上的突破主要是在图神经网络方面，类比图像的卷积操作等，研究者开始将卷积引入图（也叫网络）数据，将图卷积操作

25、应用在网络表示学习方面，在基于网络拓扑结构的基础上，迭代聚合节点的邻居信息，同时保留网络的局部和全局结构，如GCN20-21。国外在网络表示学习方面处于领先阶段，已经有很好的研究成果，国内起步较晚，但是进步很快，在算法的创新的改进上有了不错的成果，2020年，北京邮电大学和北京大学联合提出了多成分卷积协同过滤算法，利用用户购买行为记录构成用户和商品二部图，在节点表示学习中加入属性信息21。不同于已有的算法，本文考虑网络中复杂的非线性信息，结构和属性信息的相互制约及交互，用双路自编码器的架构，基于注意力机制捕获网络局部和全局的结构信息，改进图卷积操作，设计低通滤波器，聚合重要的邻居节点信息，采用

26、双通道的深度学习方式，充分保留网络中拓扑结构和节点属性信息。2 相关定义为了更好地描述所提出的算法，首先给出相关定义及本方法涉及的主要符号表示，如表1所示。定义 1 属性网络。给定网络G=(V，E，A)，其中V=v1，v2，vn是网络中节点的集合，节点数为n；E=eij是网络中节点之间的邻接边的集合；A=a1，a2，aq是节点属性集合，数目为q。每个节点对(vi，vj)之间的属性接近度由节点vi的属性向量xi和节点vj的属性向量xj之间的相似性确定。定义 2 属性网络表示学习。给定属性网络G=(V，E，A)，属性网络表示学习目的是学习一个映射函数f：vi yi Yd

27、且i V，其中d是节点最终表示向量的维度。学习后的yi可以保证网络局部、全局结构相似性和节点属性相似性，并用于完成网络分析的下游任务。定义3 一阶邻近度。对于两个顶点vi和vj，如果eij=1，则表示这两个顶点之间有直接相连的边，顶点vi和vj之间存在一阶邻近度；否则，vi和vj之间不存在一阶邻近度。定义4 高阶邻近度。用于描述网络的全局邻域结构。若Ni=(ei，1，ei，2，ei，n)表示的是顶点vi和其他所有顶点之间的一阶邻近度，则顶点vi和vj的高阶邻近度就由Ni和Nj的相似性来确定。3 双路自编码器属性网络表示学习 DENRL 深度挖掘结构和节点属性上的内在联系，捕捉网络中的高阶非线性

28、信息，在双自编码器架构下学习节点结构和属性表示，再经过自适应融合，输入解码器重构，通过选择高度相似或不相似的节点对来构建训练集，监督结构和属性联合损失函数训练编码器。双路自编码器方法的整体框架如图1所示。3.1数据处理节点属性信息通常涉及很多数据类型，且这些数据不具有大小和顺序上的区别，各个属性之间相互没有直接的联系，因此本文对属性信息进行 One-Hot 编码，再把每个属性表1符号含义Tab.1Symbol meaning符号VEAnqXMeijvidyiYyxiymi含义节点集合节点之间边的集合节点属性集合网络节点数，即|V|节点属性数，即|A|属性矩阵，大小为n q邻接矩阵节点vi与vj

29、之间权重标号为i的节点，vi V节点最终表示向量的维度，d t节点vi的表示向量节点表示向量矩阵属性自编码器生成的节点vi属性嵌入表示结构自编码器生成的节点vi结构嵌入表示图1双路自编码器框架Fig.1Framework of dual auto-encoder2340第 8 期王静红等：双路自编码器的属性网络表示学习的编码表示拼接成节点的属性向量表示，如对于任意一个节点vi，它的属性表示向量为ai，aij代表节点vi对应的属性编码向量，表示向量拼接，则ai=ai1ai2ai3aiq（1）对于属性信息缺失或不完整问题，传统的方法有的利用统计学原理对缺失数据用平均数或众数来填补；或加入随机扰动机

30、制，以概率对输入的样本添加扰动，随机地将部分节点缺失的属性信息置为零，作为输入向量。这些方法简单直观，但是未考虑节点的结构信息，存在网络信息融合上的偏差。因此，本文将节点结构的一阶邻近性和节点属性矩阵结合，将缺失属性信息的节点按照目标节点的一阶邻居节点进行填充。3.2结构自编码器结构自编码器是基于重构邻接矩阵任务设计的一种无监督网络表示学习模块。因为要同时捕获网络局部和全局的高度非线性结构信息，因此本文利用多跳注意力机制来学习其邻居之间的重要性权重，实现加权消息传递机制的聚合。同时计算嵌入空间的外围欧氏空间中节点的几何距离，将几何距离排序，把几何意义上距离相近的节点信息加入聚合操作。首先，利用

31、图注意力层学习邻居节点的重要性：eij=attn(ymi，ymj)=(W(1)xmiW(1)xmj)（2）其中：attn()是注意力层；和W(1)是要学习的参数；eij表示节点vj的特征对节点vi的重要性。为使重要性权重系数在不同节点之间容易进行比较，用 Softmax 函数对eij进行归一化：ij=Softmax(eij)=exp(eij)k Niexp(eik)=exp(ReLU(W(1)xmi|W(1)xmj)k Niexp(ReLU(W(1)xmi|W(1)xmk)（3）除了捕获目标节点的邻近性节点的信息，为了同时捕获没有直接连边的节点的信息，使用多跳注意力来扩散图，该过程基于邻接矩阵

32、M计算多跳邻居的注意力分数：M=i=0kiMi；i=0ki=1 且 i 0（4）其中：i是注意权重衰减因子；Mi描述的是一个节点到另一个节点的路径长度，增加节点的接受域，即外围欧氏空间中，几何意义上距离相近的节点。定义外围欧氏空间中节点距离和节点邻近性“距离”的一种微分扭曲函数：=1n(n-1)i jdm(xi，xj)d(xi，xj)=1n(n-1)i jdm(xi，xj)i=1n(xi-xj)2（5）其中：dm(xi，xj)代表的是非欧空间中邻近性的距离度量；d(xi，xj)代表外围欧氏空间的节点距离；表示两种距离的“抗衡”，越小越好，表示非欧和欧氏的“抗衡”小，更好地保留了节点的邻近性信息

33、和几何结构上相近的节点信息。最后对节点接受域内的邻居特征进行加权求和：Ymi=k m(ik Ymk+i Ym)（6）经过自适应解码，得到结构嵌入表示。3.3属性自编码器属性自编码器是捕获节点高度非线性属性信息的网络表示学习模块，在属性学习过程中，编码器对网络原始的节点属性进行特征映射，利用拉普拉斯平滑滤波器，缓解节点属性中的高频噪声，得到节点属性的嵌入表示。将结构表示和属性表示自适应融合，完成节点属性矩阵的重构。为了度量图中属性向量x的平滑度，首先计算图拉普拉斯矩阵L(L=D-M)和属性向量x的瑞利（Rayleigh）熵：R(L，x)=xTLxxTx（7）而xTLx=xTDx-xTMx=ix2

34、(vi)di-i jMijx(vi)x(vi)=12()ix2(vi)di-2i jMijx(vi)x(vj)+jx2(vj)dj=12i jMij(xi-xj)2（8）由此可见，相邻的节点应该有着相似的值，越相似就越平滑。瑞利熵的结果就是L的特征值，R(L，x)中x的解对应L的特征向量。传统的拉普拉斯平滑滤波器定义为：H=I-kL（9）过滤后的属性向量x为：x=Hx=(I-kL)x=i=1n(1-ki)pii=i=1npii（10）其中：i是L的特征向量，pi是特征向量的系数。t层拉普拉斯滤波之后的属性向量矩阵X=HtX。在实际网络分析任务中，采用对称归一化图拉普拉斯矩阵（式（12），其中D

35、和L是相对于矩阵M的度矩阵和拉普拉斯矩阵。M=I+M（11）L=D-12LD-12（12）H=I-kL（13）在k值的选择上，设L最大特征值为m，k=1 m。本文通过余弦相似度计算经过平滑滤波后的属性矩阵中每一对节点之间属性信息的相似性，然后存储该相似性信息，计算方式如下：SXij=SimCos(X)=xixTj|xi|xj（14）根据原始网络获得的邻接矩阵判断节点对之间有无直接连边，将属性矩阵中对应的属性编码向量相乘来判断两个节点之间的共有属性。3.4模型优化本文将模型的优化目标函数定义为结构自编码器和属性自编码器的重构误差联合优化，优化损失函数如下：Floss=(1-)Fstr+Fattr

36、=min()(1-)i=1nymi-yi22+i=1qyxi-yi22（15）其中表示结构和属性信息相对重要性的超参数。根据以上对模型各部分的解释，可得DENRL算法描述如下。算法1 DENRL算法。输入属性网络G=(V，E，A)，邻接矩阵M，属性矩阵X，2341第 43 卷计算机应用滤波器层数t；输出重构邻接矩阵M，属性矩阵X，节点表示矩阵Y。1）根据式（2）计算邻居节点重要性权重eij2）根据式（3）将权重结果做归一化3）根据式（5）计算欧氏距离及扭曲度4）根据式（6）节点邻居重要性加权求和5）得到结构编码器的节点表示ymi6）根据式（7）（13）计算滤波器矩阵H7）根据式（10）得到

37、平滑后的属性矩阵X8）根据式（14）计算节点属性相似性9）得到属性编码器的节点表示yxi10）for epoch=1，2，custom do11）更新编码器参数12）计算联合优化损失函数13）end for3.5算法时间复杂度分析算法1的耗时主要集中在节点的权重矩阵计算和滤波器矩阵计算部分。假设数据的节点数量为n，属性数量为m，滤波器层数为t。步骤1）2）注意力权重矩阵计算及归一化操作时间复杂度为(m n2)，计算欧氏距离及扭曲度时间复杂度为O(n2)；步骤 6）7）属性滤波器阶段的时间复杂度为O(Htm)；步骤8）9）属性相似度矩阵计算阶段的时间复杂度为O(n2)

38、，算法在收敛之前需要经过少量的迭代，更新参数计算损失函数，在最坏情况下的迭代时间复杂度为O(mn2)。综上所述，算法1的总时间复杂度为O(n2+Htm)。4 实验与结果分析通过在4个真实网络数据集上的实验，并与传统的网络表示学习算法及加入节点属性信息的算法对比，验证DENRL的优越性。实验环境：Intel Core i7-7700 CPU 3.60 GHz，GeForce GTX 1060Ti；Python 3.7.3，PyTorch 1.3.1。4.1数据集及参数设置本文涉及的4个数据集统计信息如表2所示，这些数据集可在网址 https：/snap.stanford.edu/dat

39、a/获得。表 2 中Citeseer24、Pubmed24和Cora24均属于引文网络，网络节点表示论文，连边表示论文之间的引用关系，节点标签是论文的研究主题，即分类结果，节点属性表示的是每篇论文的属性特征，如关键字、发表年份、研究关键词等；Wiki数据集24是一个以节点作为网页的网络，不同节点之间的连接代表网页中的超链接。本文将DENRL算法与9种具有代表性的网络表示学习算法进行对比，包括 3 种传统算法（DeepWalk、node2vec、LINE）和 6 种结合属性信息的算法（TADW、DANE、AANE、VAE、VGAE、ANRL）。取数据集的10%作为测试集，10%作为验证集，剩余

40、的80%作为训练集，超参数=0.5，每更新一次阈值，就自适应地重新选择训练样本。对不同数据集的参数设置如表 3。其中：t表示拉普拉斯滤波器层数，lr代表学习率。4.2节点聚类任务及结果分析本节以节点聚类任务来测评 DENRL 算法的性能，实验结果如表4所示。节点聚类是一种无监督的方法，其中节点被分成多个集群，以获得标签结果和真实标签的比较来计算节点聚类的精度（Accuracy，ACC）25，标准化互信息（Normalized Mutual Information，NMI）用于度量聚类结果的相似程度23，取值范围在 0，1，精度和 NMI 值越大表示聚类结果越好。因为nod

41、e2vec和LINE算法在Wiki数据集上的聚类任务NMI 效果较差，所以表 4 没有呈现相关结果，AANE 算法在Pubmed和Wiki数据集上的NMI结果不稳定，所以不作比较。在 Cora数据集，DENRL 算法的准确率为 0.775，相较于次优DANE算法提高了7.3个百分点；相较于ANRL算法，准确率提高了 17.8 个百分点。对于 Wiki 数据集，DANE 算法的ACC 和 NMI 分别为 0.473、0.499，比 DENRL 算法略高，但DENRL算法接近最优结果。对于Citeseer数据集，DENRL算表2数据集的统计信息Tab.2Statistics of datasets

42、数据集CiteseerPubmedCoraWiki节点数3 31219 7172 7082 405边数4 71444 3385 42917 981属性数3 7035001 4334 973标签数63717表3不同数据集的参数设置Tab.3Parameter setting of different datasets数据集CoraCiteseert83lr1 10-33 10-3数据集PubmedWikit351lr1 10-41 10-3表4节点聚类的实验结果Tab.4Experimental results of node clustering算法DeepWalk7node2vec8LINE

43、10TADW12DANE24AANE13VAE15VGAE16ANRL19DENRL 注：粗体表示最优结果，“”表示无实验结果。CoraACC0.4820.6470.4790.5990.7020.4450.6160.5540.5970.775NMI0.3280.3560.4330.4430.6300.1610.4900.4070.4310.695CiteseerACC0.3260.4510.3910.4550.4790.4470.3670.3770.5220.705NMI0.0880.1010.2250.2900.4220.1430.2230.2810.3990.458PubmedACC0.5

44、430.6640.6610.5110.6940.4510.6310.6270.4690.709NMI0.1050.1270.3870.2440.3080.2480.3330.3050.326WikiACC0.3880.3790.4090.3110.4730.4320.3770.4440.4260.468NMI0.2230.1180.4990.3740.2990.3440.4972342第 8 期王静红等：双路自编码器的属性网络表示学习法 ACC 和 NMI 分别为 0.705、0.458，均高于其他对比算法，相较于 ANRL 算法，ACC 提高了 18.3 个百分点，NMI 比DANE算法提高

45、3.6个百分点。表4结果表明本文算法在聚类任务上有较好的性能。图2是不同k值的实验结果。相比k=1、k=4 5，在k=2 3处，柱状图是最高的，表明了本文设计的低通滤波器相比传统的卷积操作在表示学习方面有一定的提高。表5是DENRL算法与其他算法平均运行时间对比。传统表示学习算法选择 DeepWalk，结合属性信息的算法选择TADW、VAE、VGAE。DENRL 算法在 Cora 数据集上一个epoch 的平均运行时间是 0.460 2 s，而 TADW 算法的运行时间 0.854 6 s，DENRL 算法的运行时间缩短了 46.2%。对于相对大的数据集 Pubmed

46、，DENRL 算法的运行时间是17.490 6 s，比其他四种算法的运行时间都少。而Wiki数据集较小，属性信息多，DeepWalk 不考虑节点属性，因此运行时间最短，是 1.499 7 s。上述结果表明 DENRL 算法的效率较高。4.3链路预测任务及结果分析本节以链接预测任务来评估学习的嵌入表示，在 Cora、Citeseer数据集上进行实验，测试集中通过随机抽样负样本，训练过程和超参数保持不变。在获得节点的表示向量后，本文使用内积解码器来获得预测的矩阵，采用 ROC 曲线下面积（Area Under Curve，AUC）和预测分数的平均精确率（Avera

47、ge Precision，AP）作为评价指标。实验结果如表 6。本文算法 DENRL 的 AUC 值及 AP 值均为最高，在 Cora 和Citesser数据集上，AUC 值比其他基线方法中最优结果分别提高了 2.4 个百分点、2.3 个百分点；在 Citesser 数据集上与VGAE算法相比，精确率提高了6.9个百分点。表明本文的算法在链路预测任务上有较好的性能。5 消融实验为验证本文提出算法的有效性，设置变体模型完成节点聚类任务，参数设置同表 3，在 Cora、Citesser 和 Pubmed 数据集上的实验结果如表7。其中，Structure-only（M）表示只有结构编码器的模型，A

48、ttribute-only（X）表示只有属性编码器的模型，Str+Attribute（M+X）表示本文的双路编码器模型。对于 Citeseer数据集，双路编码器模型下的聚类精度为0.705，变体模型下的聚类准确率分别为0.699、0.692，本文双路编码器模型下（Str+Attribute（M+X）聚类准确率提高近1 个百分点。对于 Cora、Pubmed 数据集，只有结构编码器（Structure-only）的聚类准确率相较于双路编码器模型下聚类精度结果要差很多，但只有属性编码器（Attribute-only）的聚类准确率结果比另一变体模型效果好，说明网络结构和属性信息对不同数据集的重要程度

49、不同。在Citeseer数据集上的结果相差不大，在Pubmed和Cora数据集上，本文模型表现出明显的优势。原因是Citeseer数据集节点数相对少，但属性数和边数很多，学习中存在隐藏几何结构和属性信息对抗问题。6 结语本文提出了双路自编码器的属性网络表示学习方法。一路自编码器利用多跳注意力机制捕获节点高阶邻域信息，保留网络局部和全局信息，并考虑了嵌入空间的外围欧氏空间中几何距离相近的节点；另一路自编码器设计低通滤波器，聚合邻近域内邻居的属性信息；最后，自适应进行交互学习，获得节点最终表示向量。实验结果显示使用双路自编码器方法学习的节点向量在节点聚类及链路预测任务中性能均有不同程度的提高。未

50、来，计划研究属性网络中隐藏几何结构（如层级结构）和属性信息对抗问题。参考文献（References）1 ZHOU J Y，LIU L，WEI W Q，et al.Network representation learning：from preprocessing，feature extraction to node embeddingJ.ACM Computing Surveys，2023，55（2）：No.38.2 AMARA A，TAIEB M A H，AOUICHA M B.Network representation learning systematic review：ancesto

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 编码器属性网络表示学习

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。