节点度与邻域相似度标签传播算法.pdf
《节点度与邻域相似度标签传播算法.pdf》由会员分享,可在线阅读,更多相关《节点度与邻域相似度标签传播算法.pdf(6页珍藏版)》请在咨信网上搜索。
1、随着信息化的高速发展,研究复杂关系型数据统计性质的网络科学正在兴起.如果将一个网络视为由节点与边构成的拓扑图,某些子图出现内部连接密集,而在外部连接稀疏的情况,即“高内聚,低耦合”,则通常认为其存在较为紧密的聚类关系,进而将这些子图称为一个社区.社区发现是网络科学的重要研究方向,对探索网络的特性、揭示网络潜在规则和改善网络行为具有指导性作用.标签传播算法(label propagation algorithm,LPA)1作为社区发现中的主要算法应运而生,基于信息传播的思想,同时具备时间复杂度低、所需网络结构的先验信息少等优势,但同时也存在因为标签更新过程中随机度过高而导致的准确率不高、迭代结果
2、不稳定的问题.针对上述问题,学者们提出了多种改进算法,一般思路是改变原算法中的随机传播策略,通过度量节点重要性进行传播顺序的优化.翟镇新等2提出LLPA算法,引入LeaderRank算法计算节点影响力,减少资源“逆流”;贾慧娟等3提出COPRA-S算法,计算节点连接社区强度,通过桥梁节点的设计,防止标签过度传播;Lu等4提出LPANNI算法,度量邻居节点影响力NNI作为定义标签更新顺序的依据.以上算法均未考虑邻域相似度对设计标签更新顺序规则的重要性.本研究受到LLS5度量指标的启发,提出一种基于节点度与节点邻域相似度的标签传播算法(local link similarity-label pro
3、pagation algorithm,LLS-LPA),通过量化邻域网络中的重叠率与节点度值,生成新的节点标签更新规则,引入标签传播算法可解决随机性过高的问题.通过在不同数据集上的实验结果表明,LLS-LPA算法在一定程度上消除了随机传播策略对社区划分精度的影响,提升了网络中信息传播的有效率.1标签传播算法标签传播算法是基于图结构数据的半监督式学习算法,用于寻找网络中存在的社区,其基本思想是利用网络中的拓扑结构信息,采用信息传播的方式,不断在目标节点和邻居节点中传递标签信息,在完成一次传递后根据多数原则更新所有节点的标签,反复迭代,直至算法收敛得到社区划分结果.其更新节点度与邻域相似度标签传播
4、算法林欣,吴玉芹,冯玮,范业仙*(宁德师范学院信息与机电工程学院,福建宁德352100)摘要:标签传播算法是一种典型的社区发现算法,针对其传播过程中存在由于随机性过高而导致的准确率不高、迭代结果不稳定等问题,提出基于节点度与邻域相似度的标签传播算法,对传播策略进行改进,引导算法进入良性的路径依赖中.在真实网络和人工网络中的实验结果表明,基于节点度与邻域相似度的标签传播算法在大规模网络社区发现方面不仅具有精度及稳定性的优势,而且提高了对网络混合参数的宽容度,具有一定的应用价值.关键词:标签传播算法;社区发现;节点度;邻域相似度;路径依赖中图分类号:TP391文献标识码:A文章编号:2095-24
5、81(2023)03-0254-06收稿日期:2022-11-02*通信作者:范业仙(1980-),女,副教授.E-mail:基金项目:福建省自然科学基金项目(2020J01430);福建省大学生创新创业训练计划项目(S202210398020);宁德师范学院校级专项资助计划科研项目(2022ZX312).第 35 卷第 3 期2023 年 9 月宁德师范学院学报(自然科学版)Journal of Ningde Normal University(Natural Science)Vol.35 No.3Sept.2023第3期林欣,等:节点度与邻域相似度标签传播算法操作为li=argmaxjN(
6、)i()lj,l.(1)式中:N()i表示节点i的所有邻居节点集合;li表示当前待更新节点的标签;lj表示节点i的邻居节点j的标签;()lj,l为克罗内克函数,若输入值相等,则输出0,否则输出1.在更新标签步骤中,有同步更新与异步更新两种方式.同步更新是指节点在t次迭代时的标签更新由其邻居节点当前时刻的标签决定,异步更新则指邻居节点t时刻的标签决定了节点在(t 1)次迭代时的标签更新情况.由于同步更新方式在使用中容易出现标签震荡不收敛而致使的多次划分结果不同的情况,故多数学者采用异步更新的方式.标签传播算法的时间复杂度为O()N,线性的时间复杂度使得其适合应用于大型网络的社区发现工作中.但在更
7、新标签过程中使用的随机策略,可能会因为一个小的错误而触发“多米诺骨牌”效应,在投票更新标签时陷入错误的路径依赖,导致与真实网络的社区划分结果存在巨大出入,造成社区划分精度下降.2基于节点度与邻域相似度的标签传播算法2.1标签更新策略经典LPA算法对所有节点一视同仁,标签的更新次序完全随机,计算量小,因而在时间复杂度方面的表现极佳.可事实上,正如社会网络中意见领袖的作用一样,在信息传播过程中,“中心节点”的传播效益远高于一般“偏远节点”.通过引入LLS指标度量节点传播效益,优先从“中心节点”开始传播,能在更大程度上将信息传递至整个网络中,更加充分地利用网络信息,提升社区发现结果的准确度.此外,根
8、据路径依赖模型,改变原算法中的随机更新策略还能引导算法通过正反馈进入良性循环,降低潜在的沉没成本,减少资源浪费.在更新次序规则的生成中,文中算法使用LLS指标作为排序依据,LLS指标结合Jaccard系数,以节点邻域相似度和节点度为主要研究对象,量化节点传播效益,具体计算公式分别为sim()b,c=|n()b n()c|n()b n()c|,如果节点b和节点c没有连边;1,如果节点b和节点c有连边.(2)LLS()i=b,cn()i(1 sim()b,c).(3)式中:n()i表示节点i的邻居节点;sim(b,c)0,1,随着sim值的增大,局部网络拓扑重叠率提升,节点与其邻居节点的相似度也越
9、大,进而失去其在网络中独特作用,可替代性提升,结构重要性降低.节点的邻居节点数量越多,邻居间的拓扑相似度越低,即说明该节点的不可替代性愈强,传播效益愈高.2.2算法实现本研究提出的LLS-LPA算法首先根据LLS指标计算网络中各节点的度与邻域相似度,得到降序数组.在经典LPA算法的思路上将更新过程中随机排序的节点序列替换为上述数组,对图进行迭代传播计算,得到最后结果.改进算法LLS-LPA引入的LLS指标能够帮助原算法找到传播效益最高的节点优先开始传播,消除原算法中采用随机更新策略造成的影响,改变算法的路径依赖性,使其进入预期的良性循环,从而达到更优的划分结果.LLS-LPA算法具体描述见表1
10、.-255宁德师范学院学报(自然科学版)2023年9月表1LLS-LPA算法输入:网络G=V,E,V表示节点集合,E表示边集合,最大迭代数T输出:网络的社区划分结果C=C1,C2,C3,Ck3实验结果与分析实验运行于CPU型号为AMD Ryzen 5 2500U、运行内存8 GB、Windows10、64位操作系统并安装有Python3.9 编程环境下集中式图计算工具NetworkX的PC机.对比算法包括选用同步更新标签LPA算法、异步更新标签ASYNC-LPA算法和LPANNI算法.由于标签传播算法具有一定的随机性,为保证样本数据对总体数据的代表性,根据中心极限定理的思想,将算法运行100次
11、后取结果均值.3.1实验数据本研究分别在6个真实网络上进行实验,包括空手道俱乐部网络(Zachary Karate Club)、美式足球队网络(American Football)、蛋白质网络(Human Proteins(Stelzl))、社交平台Facebook用户关系网络(Facebook(NIPS))、美国电力网络(US Power Grid)和PGP算法用户交互网络(Pretty Good Privacy),均为无向无权图,具体信息见表2.表2真实网络数据集IDR1R2R3R4R5R6网络名称KarateFootballHuman proteins(Stelzl)Facebook(N
12、IPS)PowerArenas-pgp节点数341151 7062 8884 94110 680边数786136 2072 9816 59424 316真实网络是现实网络的数学建模,除真实网络外,文中还使用了Lancichinetti等6提出的LFR基准网1.for eachvinVdo2.根据式(1)和式(2)计算节点度与邻域相似度3.end for4.对上步返回数组进行降序排序,得到有序数组5.初始化网络节点标签6.设置算法迭代次数t=17.whilet Toriteration_stop=True:8.for eachVtV9.for each inVt的邻居节点10.按照多数原则投票选
13、出标签,当多个标签出现次数使用随机策略选取11.更新标签12.end for13.end for14.t=t+115.如果每个节点的标签收敛至某个值,算法结束16.end while17.return C-256第3期林欣,等:节点度与邻域相似度标签传播算法络.LFR是一种用于生成基准网络的算法,能够调整网络结构参数,由于其具有先验的社区结果,因而常用于比较不同社区发现算法的划分精度,具体参数设置见表3.表中:n表示创建图形中的节点数量;1表示图中度分布的幂指数;2表示图中社区规模分布的幂指数;dmin表示节点度的最小值;dmax表示节点度的最大值;Cmin表示最小社区数;Cmax表示最大社区
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 节点 邻域 相似 标签 传播 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。