基于图注意力网络的在线社交网络链路预测.pdf
《基于图注意力网络的在线社交网络链路预测.pdf》由会员分享,可在线阅读,更多相关《基于图注意力网络的在线社交网络链路预测.pdf(6页珍藏版)》请在咨信网上搜索。
1、第2 7 卷第2 期2024年4月扬州大学学报(自然科学版)Journal of Yangzhou University(Natural Science Edition)Vol.27 No.2Apr.2024基于图注意力网络的在线社交网络链路预测刘渊,杨凯1*,苏嘉良,袁铭,赵紫娟(1.扬州大学信息工程学院,江苏扬州2 2 512 7;2.上海理工大学管理学院,上海2 0 0 0 9 3)摘要:随在线社交网络规模的不断增长,传统的链路预测方法难以捕获每个用户的全面特征信息针对该问题,提出一种基于图注意力网络的链路预测方法(link prediction based on graph atten
2、tion network,LP-GAT).首先,将在线社交网络表示为图结构数据,反映完整的用户属性信息和社交网络结构信息;其次,在图神经网络模型中引入注意力机制,更准确地刻画用户的社交特征信息,并生成用户节点的嵌人表示;最后,将节点嵌人表示输入分类器进行模型性能评估.在4个真实的在线社交网络数据集进行链路预测实验,结果表明所提模型较传统链路预测方法的性能更优。关键词:在线社交网络;图神经网络;图注意力网络;链路预测中图分类号:TP391.92D0I:10.19411/j.1007-824x.2024.02.004文献标志码:A文章编号:10 0 7-8 2 4X(2024)02-0021-05
3、随着互联网和移动设备的广泛应用,在线社交平台发展迅速,在线社交的用户与用户之间构建起一个复杂的在线社交网络,其中每个节点表示该网络中的一个用户,每条边表示用户之间的社交关系,节点的属性信息包含用户的个人信息,如个人资料和兴趣爱好等.近年来,在线社交网络中的用户数量呈指数级动态增长,网络规模持续扩展,故在庞大的用户群体中为用户推荐合适的潜在好友极具挑战性.链路预测的目的是预测在线社交网络中可能形成的潜在关联信息,这对于推荐系统、信息传播和病毒式营销等现实问题具有重要的研究意义2-3 1.传统的链路预测方法主要基于网络拓扑结构4和用户行为数据5,前者主要依赖于网络的拓扑特性等信息判断节点之间的相似
4、度,却忽视了用户自身的属性信息;后者则利用用户过去的行为数据,如用户历史行为或兴趣偏好等进行相似性分析.然而,在实际场景中,用户的属性信息可能是稀疏或残缺的,这将影响模型的链路预测性能.随着深度学习技术的发展,Samuel等6 1提出了基于图卷积网络模型(graphconvolutionalnet-works,G CN)的节点嵌入方法,该模型虽同时考虑了在线社交网络的结构特征和用户节点的特征信息,但仍存在一定的局限性,如无法区分邻居节点的重要性和缺乏对预测结果的可解释性.图注意力网络(graph attention networks,G A T)7 通过引人节点级别的注意力,可关注最相关的邻居
5、节点并有效地聚合信息,提高了模型捕捉重要的局部和全局模式的能力,为邻居节点的重要程度提供了可解释性.本文拟提出一种基于图注意力网络的在线社交网络链路预测方法,通过引入注意力机制,准确计算不同邻居节点对目标节点的相对重要程度,以有效刻画用户的社交特征信息和增强链路预测结果的可解释性.1图注意力网络模型(GAT)GAT在信息聚合过程中引人注意力机制,为每个邻居节点分配一个可训练的注意力系数,然收稿日期:2 0 2 3-0 9-19.*联系人,E-mail:y a n g k fu d a n.e d u.c n.基金项目:江苏省高等学校自然科学研究面上资助项目(2 2 KJD120002)引文格式
6、:刘渊,杨凯,苏嘉良,等基于图注意力网络的在线社交网络链路预测J扬州大学学报(自然科学版),2 0 2 4,27(2):21-25,34.22后融合邻居节点的特征信息以生成目标节点的嵌人表示.GAT模型的主要任务是训练节点间的注意力系数和聚合邻居节点的特征信息.为了对在线社交系统进行建模分析,现根据已知的用户关系构建在线社交图G,其中用户节点i的属性特征向量为h.对于目标节点i,采用注意力机制7 计算节点i与其邻居节点i之间的注意力系数C,即邻居节点i对目标节点i的关联程度,(1)其中oi为LeakyReLU函数,a和W为注意力机制f待训练的参数矩阵,表示串联操作.为了更好地度量不同邻居节点的
7、重要程度,通过softmax函数将目标节点i与其所有邻居节点之间的注意力系数进行归一化处理8,得到归一化后的注意力系数(2)其中N,为目标节点i的邻居节点集合.进一步地,使用归一化后的注意力系数聚合邻居节点的属性特征信息,以体现目标节点的局部结构特征,并生成目标节点的嵌入向量表示(3)其中6 2 为ELU函数.此外,引人多头注意力机制来提高模型的表达能力和鲁棒性,并在模型的不同阶段采用不同的处理方法.对于中间层,使用串联法合并由多头注意力机制生成的多组目标节点嵌入,得到目标节点在中间层的嵌入表示(4)r=1其中R为多头注意力机制的头数,r=1,2,,R.对于输出层,使用均值法合并由多头注意力机
8、制生成的多组目标节点嵌入,得到目标节点i最终输出的嵌人表示(5)针对链路预测任务,利用BCEwithLogitsLoss损失函数最小化训练集样本的预测结果与真实标签之间的误差-l.n o(p.)+(1 l.)(1-o(p.),其中E为训练集中节点对的数量;l。为节点对的标签,如果节点对之间存在边,则标签为1,否则为O;p。为节点对之间存在链接的概率;3 为Sigmoid激活函数.随后,通过反向传播机制优化模型的参数,学习在线社交网络中用户节点之间的潜在关系.2基于图注意力网络的链路预测(LP-GAT)本文提出的LP-GAT算法通过GAT模型生成在线社交网络中所有节点的嵌入表示,选择逻辑回归模型
9、作为分类器预测节点对之间存在关联的可能性,并利用ROC曲线下面积(area undercurve,A U C)等评价指标评估链路预测结果的准确率.首先,根据已知的在线社交网络中的关联信息构建相同数量的负样本,并将正负样本按照7:3 划分为训练集和测试集;其次,通过串联节点对对应的节点嵌人表示生成“真边”和“假边”的嵌人表示,然后将训练集数据和对应的标签信息输人分类器中学习“真边”和“假边”与标签信息之间的联系,其中“真边”“假边”样本对应的标签分别为“1”“0;最后,将测试集数据输入已训练的分类器中,计算测试样本的标签预测准确率.本文LP-GAT算法流程如图1所示,其中e表示节点i和i之间相连
10、所形成边的嵌入向量表示.扬州大学学报(自然科学版)C,=f(Wh;,Wh,)=oi(aT.(Wh.)Il(Wh,),exp(C,)ih=o(ZteN,aWh),Rhi=,I,o(Zren,a Wht),h=o(RZ(Zren,a Wh.)第2 7 卷(6)训练分类器测试第2 期原始网络3实验结果分析本文所有实验在配备八核英特尔i72.50GHz处理器和16 GB内存的台式计算机上进行,软件环境为Python3.6和Pytorch1.9.1.3.1数据集在CollegeFootball和FilmTrust等4个公开的真实数据集上评估本文所提LP-GAT模型的有效性.数据集的基本信息如表1所示.C
11、ollege Football数据集是New-man根据美国大学生足球联赛创建的复杂社会网络.网络包含115个节点和6 16 条边,其中节点代表足球队,两节点间的边表示两支球队之间进行过一场比赛.FilmTrust数据集采集自电影评论网站FilmTrust,该网站允许用户对电影进行评论打分或对他人的评论进行打分.该数据集中包含8 7 4个节点和18 53 条边,其中节点代表用户,两节点间的边代表信任关系链.Hamsterster friendships 和Hamsterster full数据集来自Hamsterster社交网络平台,前者包含1858个节点和12 53 4条边,后者包含2 42
12、6 个节点和16 6 3 1条边,其中节点表示用户,边表示用户之间存在的特定联系。3.2实验设置1)模型预处理.设定本文模型的输入维度为节点的初始特征维度,隐藏层的嵌入维度为3 2,输出层的嵌人维度为16,多头注意力机制的头数为8.Adam优化器的学习率为0.0 0 1,衰减系数为0.0005,权重衰减系数为0.6.本文模型的训练迭代次数为2 0 0,且实验过程中使用提前停止策略,即若连续迭代50 次模型效果都未提升,则提前停止训练,以防模型过拟合。2)对比算法.为了测试本文提出的模型在链路预测任务中的实际性能,现选择GCNL10I和GraphSAGE深度学习算法,以及基于共同邻居(commo
13、n neighbor,CN)6、基于Jaccard7127和基于SimRank13的传统链路预测算法进行对比实验.设置GCN和GraphSAGE模型的实验参数与本文模型的一致.对于3 种传统的链路预测算法,首先计算训练集和测试集中节点对之间的相似度,刘渊等:基于图注意力网络的在线社交网络链路预测e15e34h:h2图注意力网络h节点嵌入图1LP-GAT模型的整体框架示意图Fig.1 Overall framework of LP-GAT modelTab.1SStatistics information of four datasets数据集节点数College Football115Film
14、Trust874Hamstersterfriendships1858Hamsterster full242623训练集e12测试集e13真边表14个数据集的统计信息边数网络密度平均度6160.09418530.005125340.007166310.006e45e17e36假边AUCe3710.74.213.413.724然后输入相同的分类器中进行学习和预测.3.3评价指标为了全面评估实验结果的准确性和有效性,本文选择AUC、精确率P、召回率R和F1分数值F等指标评估所有模型的性能.1)AUC.AUC:Ns分别为正负样本集合的数量,rank,为样本i为正样本的预测分数在全部集合(M十N)中从小
15、到大的排序值。2)精确率P.P=NTP+NFP的数量。NTP3)召回率 R.R=,其中NFN为识别错误的正样本数量.NTP+NFN2PR4)F1分数值.FP+R3.4结果分析在不同的真实数据集上进行链路预测实验,并以4种评价指标评估本文所提LP-GAT模型与5个对比算法的实际性能,结果如表2 所示.Tab.2Experimental results for link prediction on four datasets数据集算法LP-GATGCNGraphSAGECollege FootballJaccardCNSimRankLP-GATGCNGraphSAGEFilmTrustJaccar
16、dCNSimRankLP-GATGCNGraphSAGEHamsterster friendshipsJaccardCNSimRankLP-GATGCNGraphSAGEHamsterster fullJaccardCNSimRank由表2 可知:1)相较于GCN和GraphSAGE模型,本文LP-GAT模型的学习机制更有效,模型的可解释性更强,预测结果更可靠.其原因是LP-GAT模型使用注意力机制学习目标节点的局部结构特征,有利于捕获关键的邻居节点特征,减少噪音信息的影响,以更准确地刻画用户节点的真扬州大学学报(自然科学版)Die m rank;-Nm(Nm+1/2,其中M和S分别为正负样本
17、的集合,NM和NMNsNTP一,其中NTp为正样本被正确识别的数量,Nrp为负样本被错误识别表2 在4个数据集上的链路预测结果AUC0.805 60.733 10.67330.737 10.72180.53470.743 80.68190.64580.74030.72340.57280.845 20.83880.80350.751 60.767 10.56580.88710.87490.83360.90660.923 40.5695第2 7 卷PR0.789 20.838 40.73200.74000.6591.0.721 30.76390.68870.78370.61940.54210.50
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 注意力 网络 在线 社交 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。