基于多层次不真实性传播结构的社交媒体谣言检测.pdf
《基于多层次不真实性传播结构的社交媒体谣言检测.pdf》由会员分享,可在线阅读,更多相关《基于多层次不真实性传播结构的社交媒体谣言检测.pdf(13页珍藏版)》请在咨信网上搜索。
1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 1 4 2-1 3基于多层次不真实性传播结构的社交媒体谣言检测高 准1,但志平1,2,董方敏1,2,张岩珂1,张洪志1(1.三峡大学 计算机与信息学院,湖北 宜昌4 4 3 0 0 2;2.三峡大学 水电工程智能视觉监测湖北省重点实验室,湖北 宜昌4 4 3 0 0 2)摘 要:当前谣言检测工作主要研
2、究谣言传播的方向特性,而忽视了谣言传播的全局结构特性,导致不能充分挖掘谣言潜在的结构特征;此外,现有研究忽略了谣言原始传播结构中存在的不真实关系,从而限制了传播节点特征的学习。为此,该 文 提 出 一 种 多 层 次 的 动 态 传 播 注 意 力 网 络 模 型(M u l t i-l e v e lD y n a m i cP r o p a g a t i o n A t t e n t i o nN e t w o r k s,MD P AN)用于检测谣言。该模型通过节点级注意力学习谣言传播图中所有连接边的贡献度,动态地关注对识别谣言有用的传播关系,并基于图卷积网络分别提取谣言不同层次
3、的传播特征、扩散特征以及全局结构特征,最后引入基于注意力机制的池化方法对这些多层次的特征进行有效融合。在公开的T w i t t e r 1 5、T w i t t e r 1 6和W e i b o 1 6数据集上的实验结果表明,该文所提出的模型对比主流基于传播结构的E B G C N模型,整体准确率分别提高了2.1%、0.7%和1.7%。关键词:谣言检测;传播结构;节点级注意力;图卷积网络中图分类号:T P 3 9 1 文献标识码:AR u m o rD e t e c t i o nf r o mS o c i a lM e d i av i aM u l t i-L e v e lU
4、n r e l i a b l eP r o p a g a t i o nS t r u c t u r e sG AOZ h u n1,D ANZ h i p i n g1,2,D ON GF a n g m i n1,2,Z HAN GY a n k e1,Z HAN G H o n g z h i1(1.C o l l e g eo fC o m p u t e ra n dI n f o r m a t i o nT e c h n o l o g y,C h i n aT h r e eG o r g e sU n i v e r s i t y,Y i c h a n g,H u
5、 b e i 4 4 3 0 0 2,C h i n a;2.H u b e iK e yL a b o r a t o r yo f I n t e l l i g e n tV i s i o nB a s e dM o n i t o r i n gf o rH y d r o e l e c t r i cE n g i n e e r i n g,C h i n aT h r e eG o r g e sU n i v e r s i t y,Y i c h a n g,H u b e i 4 4 3 0 0 2,C h i n a)A b s t r a c t:C u r r e
6、 n t r u m o rd e t e c t i o nr e s e a r c hf o c u s e so ns t u d y i n gt h ed i r e c t i o n a l c h a r a c t e r i s t i c so f r u m o rp r o p a g a t i o n.T oe x p l o i t t h ep o t e n t i a l s t r u c t u r a l f e a t u r e so f r u m o r s,t h i sp a p e rp r o p o s e sam u l t i
7、-l e v e l d y n a m i cp r o p a g a t i o na t t e n-t i o nn e t w o r k s(MD P AN)t od e t e c t r u m o r s.T h i sm e t h o d l e a r n s t h e c o n t r i b u t i o n s o f a l l c o n n e c t i n ge d g e s i n t h ep r o p-a g a t i o ng r a p h t h r o u g han o d e-l e v e l a t t e n t i
8、 o n,d y n a m i c a l l y f o c u s i n go nu s e f u l p r o p a g a t i o n r e l a t i o n s h i p s f o r i d e n t i f y i n gr u m o r s.T h eg r a p hc o n v o l u t i o n a l n e t w o r k se x t r a c t sd i f f e r e n t l e v e l so fp r o p a g a t i o nf e a t u r e s,d i f f u s i o n
9、f e a t u r e s,a n dg l o b a l s t r u c t u r a l f e a t u r e so f r u m o r s,w h i c ha r e f u s e dv i aa t t e n t i o n-b a s e dp o o l i n gm e t h o d s.C o m p a r e dw i t ht h eE B-G C N m o d e l o nT w i t t e r 1 5,T w i t t e r 1 6a n dW e i b o 1 6d a t a s e t s,t h ep r o p o
10、 s e dm e t h o d i n c r e a s e s t h eo v e r a l l a c c u r a c yb y2.1%,0.7%a n d1.7%,r e s p e c t i v e l y.K e y w o r d s:r u m o rd e t e c t i o n;p r o p a g a t i o ns t r u c t u r e;n o d e-l e v e l a t t e n t i o n;g r a p hc o n v o l u t i o n a ln e t w o r k s收稿日期:2 0 2 3-0 3-
11、2 8 定稿日期:2 0 2 3-0 5-2 2基金项目:N S F C-新疆联合基金重点项目;网络谣言检测与舆论引导算法研究(U 1 7 0 3 2 6 1)0 引言随着社交媒体日益盛行,新闻消息借助网络平台可以迅速传播到许多网络用户的身边,给人们获取时事消息带来了便利。然而,一些不良团队或个人为吸引大量用户赚取流量,故意散播未经证实的消息甚至是虚假消息,造成大量的谣言在社会面上迅速且广泛地传播,严重破坏了社会的秩序。因此,为尽早避免谣言在社交媒体上传播,研究出一种高2期高准等:基于多层次不真实性传播结构的社交媒体谣言检测效且准确的谣言检测方法具有重要意义。近些年,领域内学者开始深入研究社交
12、网络中谣言的传播行为。事件源贴随着时间的推移在社会面上广泛传播,从而构成一定的社会语境,不同类型的谣言和事实在社会关系上存在明显差异1-3,因此利用谣言在社交网络中形成的传播结构来检测谣言是可行的。M a等人4将谣言完整的传播过程建模成符合自然传播规律的双向树结构,并利用递归神经网络(R e c u r s i v eN e u r a lN e t w o r k s,R NN)联合文本内容语义和传播线索来检测谣言。B i a n等人5使用图卷积神经网络6(G r a p hC o n v o l u t i o n a lN e t-w o r k s,G C N)来建模双向传播图,有效聚
13、合了邻居节点的特征。这些基于谣言传播结构的研究都取得了较为理想的效果,极大地推动了谣言检测的研究进展。但是,社交网络中的帖子节点在响应其父节点的同时也可能被其子节点所响应,诸如M a4和B i a n5等人提出的方法只关注了谣言的传播方向,会导致丢失完整的结构信息,从而使模型不足以学习到相关节点的深层次信息。另外,目前的研究方法普遍在理想化的情况下对谣言的传播过程进行建模4-5,7-8,认为社交网络中正常用户和异常用户发布的源贴及其所有响应贴都是完全可信赖的。然而由于社交网络具有极强的可干预性,在许多情况下,对源贴进行响应的用户往往是被恶意操控的,如图1所示,异常用户u 1发布虚假源贴e 1,
14、并操纵正常用户u 2对其进行支持性的回复r 1,甚至会有意删除正常用户u 3的真实性回复r 2,这些不真实关系也会存在于事件的多级响应中,如异常用户u 5被利用对真实评论r 3进行虚假回复r 4。除此之外,社交网络中还存在大量与源贴内容无关的响应贴,这些不确定性因素混杂在谣言的传播中,致使谣言的传播结构存在不真实或不可靠的情况,给谣言检测带来了巨大障碍。为了解决上述问题,本文提出了一种多层次动态传播注意力网络模型(M u l t i-l e v e lD y n a m i cP r o p-a g a t i o nA t t e n t i o nN e t w o r k s,MD P
15、AN)用于谣言检测。首先,在建模事件传播和扩散结构的同时,引入可建模全局传播结构的无向(U n-D i r e c t i o n a l,UD)传播图,以兼顾传播的方向和全局等多层次的结构特征,使得在特征学习阶段能获得丰富的节点信息;在此基础上,针对被恶意操纵的评论和转发以及频繁的无效评论和转发给识别谣言带来的负面影响,引入节点级注意力机制来处理这些不真实的因素,图1 事件传播的非真实关系场景通过度量事件中关联帖子之间关系的权重来识别关系的真实性,从而有效地降低事件原始传播结构存在的不稳定性因素给检测结果带来的影响。最后,在特征的融合阶段,使用注意力机制来捕捉不同层次的传播特征和文本内容特征
16、之间的交互,以进一步提高模型的性能。在T w i t t e r 1 5、T w i t t e r 1 6以及W e i b o 1 6三个数据集上的对比实验结果表明,本文提出的模型能有效提高谣言检测的性能。本文的主要贡献总结如下:(1)为社交媒体事件构造新的全局无向传播图,并结合事件传播的方向特征,采用G C N从多个层次的传播行为中提取出事件的潜在传播特征。(2)摒弃了传统采用硬连接的方式来处理关联节点之间的联系程度,提出了一种新颖的节点级注意力机制,给事件中的每个关系动态地分配适当的权重,有效地识别节点之间关系的真实性。(3)为更有效融合不同传播层次的特征信息,提出了一种基于注意力机制
17、的多特征池化方法,有效解决不同层次特征信息之间难以交互的问题。1 相关工作从自动检测谣言技术诞生开始,相关学者开展大量的工作,已经取得许多突破性的成果。目前的谣言检测研究根据不同的特征类型可大致分为基于内容的方法和基于传播模式的方法。1.1 基于内容的谣言检测方法在早期的谣言检测方法中,主要是利用手工提341中 文 信 息 学 报2 0 2 4年取与设计的特征,结合机器学习方法对谣言进行分类9-1 0,它们依赖的特征主要是用户自身的属性(如是否为官方认证号、用户粉丝数量、用户信用度以及用户历史发帖数量等)、发布的文本内容特征以及文本的情感特征等。这类学习方法通常只能挖掘到谣言浅层的特征,而且检
18、测效果过于依赖特征的选取。深度学习技术出现后,研究者们开始关注网络模型结构的设计,神经网络能够自动挖掘到相关特征的更多细节,可以避免人工手动提取的烦琐过程。M a1 1等人研究发现谣言源贴和评论中都包含大量有价值的语义信息,提出基于循环神经网络(R e c u r-r e n tN e u r a lN e t w o r k s,R NN)的谣言分类模型来捕捉新闻事件和评论中的上下文信息。由于谣言评论和谣言源贴是相互关联的,二者可相互补充作为检测谣言的重要线索,S h u等人1 2利用协同注意力机制对谣言句子和用户评论之间的关系联合捕捉,并为谣言检测研究提供了合理的解释。同时,还有研究者利用
19、社交媒体事件中蕴藏的情感信号以辅助检测谣言,诸如Z h a n g等人1 3利用情感词典获取谣言的源贴和评论双重情感特征以及双重情感的差距,葛晓义等人1 4分别从全局和局部的角度挖掘谣言文本语义特征和评论情感特征之间的相关性。1.2 基于传播模式的谣言检测方法社交媒体事件具有高度动态性和复杂性,传播行为作为社交媒体事件固有的特性,有效挖掘传播特征能给谣言检测带来巨大提升。为有效利用谣言的传播线索,一类方法将谣言的传播过程建模成双向的传播树或传播图结构。如M a等人4对事件的非线性传播结构建模,并使用基于自顶向下和自底向上树状结构的递归神经网络R v NN来检测谣言,这一方法首次将事件的文本内容
20、语义特征和其传播特征结合起来;随后又提出了基于树形T r a n s f o r m e r的谣言检测模型1 5,结合关联语境中的立场信息来增强父节点的表示。由于图卷积网 络技术6在处理 图结构数 据上的突 出 表现1 6-1 8,B i a n等人5提出了一种双向的图卷积网络模型(B i-D i r e c t i o n a lG r a p hC o n v o l u t i o n a lN e t w o r k s,B i G C N)检测谣言,该方法首次将谣言的传播建模成自顶向下的传播图和自底向上的扩散图。一些研究在双向传播图的基础上引入辅助特征来增强谣言检测的效果,如用户影响
21、力因素1 9、时间因素2 0。另一类基于传播的方法将谣言的传播过程建模成无向交互图2,2 1-2 2,这类结构可同时从父节点和子节点甚至是兄弟节点中聚合相关的邻域信息,但是这些方法并没有考虑社交媒体事件固有的传播因果特性、固有的扩散结构特性以及频繁的不真实传播特性,这限制了对谣言潜在结构特征的学习。为了消除传播结构中固有的不确定性,W e i等人2 3提出通过观测图的先验信念来控制消息传递,以此来替换传播图中固定的边权重,然而对观测图 的 先 验 信 念 进 行 假 设 可 能 出 现 不 确 定 的偏差。虽然基于谣言传播的研究已经取得了一定进展,但目前的研究无法有效处理传播结构中的不真实关系
22、,也没有同时联合谣言传播的方向和全局传播结构来捕捉潜在的特征。本文在谣言传播方向的基础上,引入全局无向传播图,通过多头的节点级注意力评估潜在的传播关系,进而实现对谣言有效的识别。2 MD P A N模型方法本文提出的谣言检测模型MD P AN的总体架构如图2所示,该模型主要包括五个部分,分别为输入表示层、节点级注意力层、多层次图卷积层、注意力池化层以及谣言分类器。2.1 问题描述本文假设C=c1,c2,cm 为数据集中所有事件的集合,其中,ci表示集合C中的第i个事件,m表示数据集中事件的总数。对于集合C中的任意事件ci,其定义为ci=ri0,ri1,rini-1,Gi,其中,ri0表示事件c
23、i的源贴,rij表示第i个事件ci的第j条响应贴(评论贴或转发贴),ni表示事件ci中的总帖子数,Gi=GT Di,GB Ui,GU Di=Vi,Ei 分别表示事件ci自顶向下的传播图、自底向上的扩散图、全局无向传播图,Vi=ri0,ri1,ri2,rini-1 表示事件ci中所有帖子节点的集合,Ei=eis t|s,t=0,1,ni-1 为事件ci中被评论或被转发帖子节点与其评论或转发帖子节点之间的边的集合。Ai=ais tRRnini表示事件传播图的邻接矩阵,其中,ais t初始值的定义为:当eis tEi时,ais t=1,否则ais t=0。4412期高准等:基于多层次不真实性传播结构
24、的社交媒体谣言检测图2 MD P AN的模型架构 在本文所使用的谣言数据集中,每个事件ci都有唯一的实际类别y*iY与之对应,其中Y代表所有谣言类别的集合。谣言检测任务的目标是根据已有的数据集来训练特定的谣言分类器f(C|ci;Gi;Ai;)Y,其中为分类器模型的所有参数集合。2.2 模型方法描述2.2.1 输入表示层根据给定的输入样本,为每个事件构造出相应的传播图,初始传播特征图的构造类似于B i a n等人5的工作,首先为每个事件ci构建出两个相反方向的有向图,分别是自顶向下的传播图GT Di和自底向上的扩散图GB Ui,为了利用谣言传播过程的全局结构特性,本文还引入了无向传播图GUDi。
25、传播图中的每个节点代表着事件中的源贴或相关的响应贴,传播图中的连接边则表示两个节点之间有直接的评论或转发关系。使用Xi=xi0,xi1,xini-1RRnidi作为事件ciC的源贴以及相关响应贴的文本内容表示,其中,xi0RRdi为源贴的文本向量表示,其初始值提取自T F-I D F值的前50 0 0个词的索引词频对,di为文本特征的维度,得到不同帖子的文本特征向量之后嵌入到对应的节点中,对于自顶向下的传播图、自底向上的扩散图以及全局无向传播图,它们的初始输入特征矩阵均相同,即XT Di=XB Ui=XUDi=Xi。基于事件ci中对源贴xi0的一系列评论和转发关系,构造出事件ci的邻接矩阵Ai
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多层次 真实性 传播 结构 社交 媒体 谣言 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。