基于局部近邻节点H指数的复杂网络节点重要性排序算法.pdf
《基于局部近邻节点H指数的复杂网络节点重要性排序算法.pdf》由会员分享,可在线阅读,更多相关《基于局部近邻节点H指数的复杂网络节点重要性排序算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、 第3 6卷 第3期2023 年08月 青 岛 大 学 学 报(自 然 科 学 版)J O U R N A L O F Q I N G D A O U N I V E R S I T Y(N a t u r a l S c i e n c e E d i t i o n)V o l.3 6 N o.3A u g.2023 文章编号:1 0 0 6 1 0 3 7(2 0 2 3)0 3 0 0 3 4 0 7d o i:1 0.3 9 6 9/j.i s s n.1 0 0 6 1 0 3 7.2 0 2 3.0 3.0 7基于局部近邻节点H指数的复杂网络节点重要性排序算法董香凝,宾 晟,孙更
2、新(青岛大学计算机科学技术学院,青岛 2 6 6 0 7 1)摘要:为了更高效地检测排名复杂网络中节点的重要性,提出一种局部近邻节点H指数的节点重要性排序算法,引入近邻节点的次要影响力比重系数来衡量邻居节点对节点本身发挥的影响力比重。在真实网络中,使用易感者感染者恢复者(S u s c e p t i b l e-I n f e c t e d-R e-c o v e r e d,S I R)传播模型模拟信息传播过程,选取k e n d a l l相关系数、互补累积分布函数和单调函数作为性能评价指标验证该算法的有效性。实验结果证明,局部近邻节点H指数算法既能够有效评估不同网络中有影响力的节点,
3、又具有很好的区分能力。关键词:复杂网络;H指数;S I R模型;邻居节点;节点重要性中图分类号:T P 3 9 1 文献标志码:A收稿日期:2 0 2 3-0 1-0 9基金项目:教育部人文社会科学研究青年项目(批准号:1 5 Y J C 8 6 0 0 0 1)资助;山东省自然科学基金面上项目(批准号:Z R 2 0 1 7MG 0 1 1)资助;山东省社会科学规划项目(批准号:1 7 C HL J 1 6)资助。通信作者:宾晟,女,博士,副教授,主要研究方向为大数据分析,复杂网络。E-m a i l:b i n s h e n g q d u.e d u.c n 现实世界中的社会1、生态2
4、和信息3系统经过在时间和空间上抽象后都可以描述为网络结构,而复杂网络4是现实世界中各种复杂系统的高级抽象。识别复杂网络中有影响力的节点并对其进行重要性排序,可用于控制传染病扩散5、推进商品市场的营销6、掌控网络故障点的传播7及管控舆论发展的趋势8等。目前,针对节点的重要性评估的研究方法很多,包括度中心性9、介数中心性1 0、接近中心性1 1和K核分解1 2等,但效果都不理想。鉴于此,H i r s c h提出了H指数1 3,这是评价学术成就影响力的经典指标,常应用在多个领域影响力评估的研究中。社会网络领域应用H指数证明了它在评估许多复杂网络中节点重要程度方面的有效性1 4。若直接将H指数扩展到
5、复杂网络中,将为复杂网络中的部分节点分配相同的h指数值,很难区分拥有相同h指数值节点的重要性。之后,针对H指数算法存在的不足一些研究提出了重要节点识别的改进策略。基于H指数算法,文献1 5 构建了一个含参数的累计函数将节点的邻居节点度累加求和,以此指标衡量节点的重要性;结合节点的度和连边权重可以共同计算节点的H指数1 6,考虑到节点度和边权的H指数变体指标能衡量节点的重要性1 7。通过进一步融合加权网络中的节点度和边权而提出的H-NWD、A-NWD和G-NWD改进的H指数指标1 8能够评估节点重要程度。考虑到邻居节点的H指数而提出的LH-i n d e x中心性算法是以节点及其所有邻居节点的H
6、指数直接相加的和作为衡量节点重要性的指标1 9;将节点的度和H指数相结合的DH-i n d e x节点影响力评估算法进一步考虑到H指数算法中节点的度2 0。虽然将H指数和节点间的最短距离组合可获得一组高影响力的节点,但无法区分高影响力节点间的重要性2 1。结合节点的r阶和n阶邻居节点的H指数可评估重要节点,但此方法的适用性较差,计算复杂度高2 2;将H指数延伸到二阶域,在此基础上二阶H指数结合I K S算法能获得一个重要节点组2 3;HH a中心性算法考虑了节点的高影响力邻居数量及其总体影响力,可以度量网络中节点的信息传播能力2 4。将H指数延展到权重网络时,均考虑到连边的权重并分别定义了w
7、e i g h t e d h-i n d e x和h-d e g r e e指标来评估加权网络中节点的影响力,但H指数中心性算法原本的缺点依旧未解决2 5-2 6。上述方法基于H指 第3期 董香凝等:基于局部近邻节点H指数的复杂网络节点重要性排序算法数考虑了复杂网络中不同的拓扑结构因素,使H指数算法在识别网络节点重要性上得到了一定的提升,但复杂网络中邻居节点的度信息并没有得到充分考虑,依然存在网络节点重要性分辨率不高的问题,而且还需要预先调整设定的自由参数。本文提出了一种全面考虑节点自身及其邻居节点的度信息以及节点自身及其邻居节点的H指数的局部近邻节点H指数(H-i n d e x o f
8、L o c a l N e a r e s t N e i g h b o r s,L N DH-i n d e x)中心性算法来评估网络中节点的传播能力,采用流行病传播模型来衡量该中心性算法在识别节点影响力方面的性能。1 局部近邻节点H指数(L N D H-i n d e x)中心性算法1.1 经典H指数中心性算法在复杂网络中,H指数是一种经典的中心性指标算法,考虑邻居节点的度来确定节点的重要程度。如果节点的H指数是h,则此节点至少有h个度都不小于h的邻居节点。节点vi的H指数中心性可表示为H(i)=Hj(i)d(1),d(2),d(3),d(j)(1)其中,d(j)为节点vj的度值,(i)
9、为节点vi的周围邻居节点集合,H函数返回最大整数值h,使节点vi至少有h个邻居节点的度值不低于h。1.2 L N D H-i n d e x算法设计H指数只根据其高度值邻居节点的数目来确定节点的重要性,在区分节点重要性时存在区分度限制的问题,本文提出了局部近邻节点H指数(L N DH-i n d e x)中心性算法以进一步优化网络的节点重要性排序。L N DH-i n d e x算法可表示为d(i)=j i ai j(2)D(i)=j(i)d(j)(3)L d(i)=d(i)m a xjVd(j)(4)L D(i)=D(i)m a xjVD(j)(5)(i)=hi n d e x(i)m a
10、xj(i)h2i n d e x(j)(6)L NHi n d e x(i)=hi n d e x(i)+j(i)(j)hi n d e x(j)(7)L N DHi n d e x(i)=L d(i)+L D(i)+L NHi n d e x(i)(8)其中,V表示网络中全部节点个数,ai j表示节点vi和节点vj有无连边,d(i)表示节点vi的度,D(i)表示节点vi邻居节点度的总和,hi n d e x(i)由式(1)求得,L d(i)是归一化后的节点度信息,L D(i)是归一化后的节点邻居度总和信息,(i)是次要影响力比重系数2 7,L NHi n d e x(i)是节点自身的主要影响
11、力及其邻居节点产生的间接影响力之和,L N DHi n d e x(i)是节点vi的节点重要性值。L N DH-i n d e x算法的求解过程为:1)由式(1)、(2)、(3)计算整个网络中每个节点的度、节点所有邻居节点度总和以及节点的h指数值;2)分别得到全部节点中的度最大值、全部节点中的邻居节点度总和最大值及节点邻居节点中h指数值的最大值,通过式(4)和(5)归一化节点度及节点邻居节点度总和,再由式(6)用节点自身h指数值与其邻居节点中最大h指数值平方的比值,计算得到各个节点的次要影响力比重系数(i);3)各个邻居节点的次要影响力比重系数与其h指数值乘积的和作为邻居节点的总间接影响力,再
12、由式(7)用节点本身的直接影响力与邻居节点的总间接影响力之和计算节点的局部h指数值;4)综合以上归一化后的节点度信息、归一化后的节点邻居度总和信息以及节点自身的主要影响力及其邻居节点产生的间接影响力的和,由式(8)共同计算节点的L N DH-i n d e x重要性值,再根据得到的L N DHi n d e x(i)值对网络中的节点进行重要性排序。通过L N DH-i n d e x算法的计算过程可知,由于该算法不包含自由参数,不需要事先测试设定的参数,从而降低了计算复杂性。53青 岛 大 学 学 报(自 然 科 学 版)第3 6卷2 实验结果与分析2.1 数据集及实验设计表1 实验网络数据集
13、的基本特征网络VEM a x-d e g r e ecK a r a t e3 47 81 74.5 8 80.1 2 9H I V4 04 11 72.0 5 00.3 2 3D o l p h i n s6 21 5 91 25.1 2 90.1 4 7F o o t b a l l1 1 56 1 31 21 0.6 6 10.0 9 3J a z z1 9 82 7 4 21 0 02 7.6 9 70.0 2 6U S A i r3 3 22 1 2 61 3 91 2.8 0 70.0 2 3E m a i l1 1 3 35 4 5 17 19.6 2 20.0 5 4P o w
14、 e r g r i d4 9 4 16 5 9 41 92.6 6 90.2 5 8 为了与传统方法比较,仿真实验在多个复杂网络上进行,并对比分析经典网络中的节点在重要性排序的准确性和分 辨 率。采 用 互 补 累 积 分 布 函 数C C D F2 8、单调性指标M(R)2 9、易感者感染者恢复者(S I R)模 型3 0和K e n d a l l系数3 1作为相关的评价指标。经典复杂网络包括:空手道俱乐部网络(K a r a t e);艾 滋 病 患 者 性 关 系 网 络(H I V);海豚社会网络(D o l p h i n s);大学足球比赛网络(F o o t b a l l)
15、;爵士音乐家网络(J a z z);美国航空运输网络(U S A i r);电子邮件网络(Em a i l);美国西部电路网络(P o w e r g r i d)。上述8个复杂网络的详细信息见表1,其中,V表示节点数目,E表示连边数量,M a x-d e g r e e表示网络节点最大度,表示网络节点平均度,c表示传播阈值。2.2 分辨率指标性能评价在8个典型复杂网络的对比实验中选取度中心性D C、介数中心性B C、接近中心性C C、K-S h e l l分解中心性、H-i n d e x中心性、LH-i n d e x中心性、DH-i n d e x中心性、L N DH-i n d e x
16、中心性算法以评估不同中心性算法的单调性。采用互补累积分布函数C C D F2 8和单调性指标M(R)2 9来评估不同算法在节点重要性排序上的区分能力。2.2.1 互补累积分布函数 根据节点的重要程度将网络中全部节点分布到不同的等级级别,从而每个节点都有对应的序列等级名次。相同重要性的节点位于同一等级级别上,节点越重要,序列等级名次越靠前。由C C D F可以描述随机变量的分布情况,表示节点重要性排名低于某个等级r的概率,得出不同等级的节点分布情况图以展示区分程度。节点划分的等级层数越多,C C D F图中绘制的线越接近对角线,说明相应方法的排序效果越突出。C C D F为C C D Fr=1n
17、(n-ri=1ni)(9)其中,r为排序序列R中节点所在的序列等级名次,ni为排序序列中等级名次为i的节点个数,n为序列中节点的总个数。2.2.2 单调性指标 如果拥有相同重要性值的节点很少,说明相应方法可以很好地区分节点重要性,而且具有较高的分辨率。使用单调性指标M(R)来评估不同中心性算法的单调性M(R)=1-1n(n-1)(rRnr(nr-1)2(1 0)其中,R代表节点重要性排序序列,nr代表重要性排序序列中拥有相同排名r的节点数目。M(R)值越大,相应的中心性算法区分网络中不同影响力节点的能力越强。2.2.3 分辨率实验结果分析 对D o l p h i n s、J a z z、U
18、S A i r和Em a i l等4个真实网络数据集绘制互补累积概率分布函数图,展示了各算法在不同网络中的排序结果分布情况(图1)。经典D C度中心性算法、K-S h e l l分解算法和H指数算法都远离对角线,在节点的区分能力方面表现比较差,验证了K-S h e l l分解算法和H指数算法在区分度方面的不足。LH-i n d e x和DH-i n d e x算法相较于经典H指数算法表现较好,介数中心性和接近中心性算法也呈现出比较好的区分效果。L N DH-i n d e x算法在4个网络中均表现较好,能够清晰地区分不同重要程度的节点,排序等级分布范围最为宽阔,尤其在Em a i l 网络中区
19、分节点能力表现突出。63 第3期 董香凝等:基于局部近邻节点H指数的复杂网络节点重要性排序算法图1 C C D F图像展示的不同网络中排名分布情况(a)D o l p h i n s;(b)J a z z;(c)U S A i r;(d)E m a i l实验中使用不同中心性算法得到8个真实网络中的重要性排序列表,计算各个排序结果的M(R)以检验不同算法的分辨率(表2)。L N DH-i n d e x算法在网络中的M(R)值均较高且优于其他算法,除了在F o o t-b a l l网络中相较于C C中心性算法略差,整体上呈现的性能良好,说明L N DH-i n d e x算法使各节点拥有不同
20、的重要性值,能够很好地识别网络中不同重要性的节点,区分能力比较优异。表2 不同中心性算法在真实网络上的单调函数M值网络M(D C)M(B C)M(C C)M(K s)M(H)M(L H)M(DH)M(L N DH)K a r a t e0.7 0 7 90.5 2 1 20.7 8 1 70.4 9 5 80.5 7 6 60.8 9 2 50.9 2 3 10.9 5 4 2H I V0.4 6 6 90.4 9 5 40.9 3 6 90.1 4 7 90.4 1 2 60.7 0 9 50.7 3 3 40.9 5 4 4D o l p h i n s0.8 3 1 10.9 6 2 3
21、0.9 7 3 70.3 7 6 90.7 8 9 30.9 7 2 70.9 9 1 60.9 9 7 9F o o t b a l l0.3 6 3 61.0 0 0 00.9 4 8 80.0 0 0 30.3 6 3 70.9 2 6 10.9 2 8 10.9 9 7 6J a z z0.9 6 5 90.9 8 8 50.9 8 7 80.7 9 4 40.9 6 0 00.9 9 8 50.9 9 9 10.9 9 9 3U S A i r0.8 5 8 60.6 9 7 00.9 8 9 20.8 1 1 40.8 5 4 40.9 8 5 50.9 9 1 30.9 9 5
22、1Em a i l0.8 8 7 40.9 4 0 00.9 9 8 80.8 0 8 80.8 7 4 70.9 9 2 00.9 9 7 20.9 9 9 8P o w e r g r i d0.5 9 2 70.3 9 1 20.7 1 7 00.2 4 6 00.3 9 3 00.8 2 6 20.8 5 8 90.9 8 6 22.3 准确性指标性能评价为了判断复杂网络中节点的传播能力,利用S I R传播模型检验网络节点的重要性,使用K e n d a l l相关系数将S I R模型的节点传播能力排序序列和其余算法得出的节点重要性排序序列做对比。73青 岛 大 学 学 报(自 然 科
23、 学 版)第3 6卷2.3.1 S I R模型 S I R传播模型3 0可以衡量节点在信息传播过程中的重要性,广泛地用在描述传染病和信息的传播过程。在S I R模型中,个体处于易感(S)、感染(I)和恢复(R)三种状态之一。最初,仅有起始节点处于感染状态,其他节点都处于易感状态。随着时间的推移,感染节点以感染概率感染周围邻居节点,被感染节点转变成了恢复状态,而恢复状态的节点不再被感染。最终,起始节点的影响力由传播过程结束时恢复状态节点的数目表示。本实验中网络节点的真实传播能力值由5 0 0次传播过程的平均值来确定,再根据由S I R模型得到的节点真实传播能力值对节点进行重要性排序,并以此序列作
24、为基准排序序列。当感染概率较小时,传染病只能在小范围内传播,所以感染概率需要大于传播阈值,传染病才能够在网络中传播流行。流行传播阈值c3 2为c/(1 1)其中,表示网络节点的平均度,表示网络节点的平均二阶度。2.3.2 K e n d a l l相关系数 K e n d a l l相关系数3 1是衡量排序序列间相关性的指标,取值范围-11=2(nc-nd)n(n-1)(1 2)其中,c表示一致性的序列对,nc表示两个序列中一致性的序列对数量,d表示不一致的序列对,nd表示不一致的序列对数量,n是网络中节点的个数。为了观察不同感染概率下各中心性算法与S I R模型结果的关联程度,仿真实验设定S
25、 I R模型的感染概率在 c-0.0 5,c+0.0 5范围附近变化,每次以0.0 1的间隔步长增加,计算值,以便于观察感染概率的变化情况。将由S I R模型模拟信息传播得到的基准排序序列与各节点中心性算法做比较,K e n d a l l系数值越接近于1,两个排序序列的相关性越高。2.3.3 准确性实验结果分析 采用不同中心性算法和S I R模型对真实网络进行计算,得到8个网络在不同的感染概率下的K e n d a l l相关系数(表3)。可知,L N DH-i n d e x算法除了在H I V网络上的k e n d a l l系数数值低于C C中心性算法,其他网络中L N DH-i n
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 局部 近邻 节点 指数 复杂 网络 重要性 排序 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。