关注社交异配性的社交机器人检测框架.pdf
《关注社交异配性的社交机器人检测框架.pdf》由会员分享,可在线阅读,更多相关《关注社交异配性的社交机器人检测框架.pdf(9页珍藏版)》请在咨信网上搜索。
1、NETINFOSECURITY2024年第2 期技术研究doi:10.3969/j.issn.1671-1122.2024.02.015关注社交异配性的社交机器人检测框架一余尚戎1.2.3,肖景博1.2 3,般琪林1.2 3,卢伟1.2 3,(1.中山大学计算机学院,广州510 0 0 6;2.中山大学信息技术教育部重点实验室,广州510 0 0 6;3.广东省信息安全技术重点实验室,广州510 0 0 6)摘要:随着社交机器人的迭代,其倾向于与正常用户进行更多交互,对其检测变得更具挑战性。现有检测方法大多基于同配性假设,由于忽视了不同类用户间存在的联系,难以保持良好的检测性能。针对这一问题文
2、章提出一种关注社交异配性的社交机器人检测框架,以社交网络用户间的联系为依据,通过充分挖掘用户社交信息来应对异配影响,并实现更精准的检测。文章分别在同配视角和异配视角下看待用户之间的联系,将社交网络构建为图,通过消息传递机制实现同配边和异配边聚合,以提取节点的频率特征,同时利用图中各节点特征聚合得到社交环境特征,将以上特征混合后用于检测。实验结果表明,文章所提方法在开源数据集上的检测效果优于基线方法,证明了该方法的有效性。关键词:社交机器人检测;同配性与异配性;图神经网络中图分类号:TP309文献标志码:A文章编号:16 7 1-112 2(2 0 2 4)0 2-0 319-0 9中文引用格式
3、:余尚戎,肖景博,般琪林,等,关注社交异配性的社交机器人检测框架.信息网络安全,2024,24(2):319-327.英文引用格式:YU Shangrong,XIAO Jingbo,YIN Qilin,et al.A Social Heterophily Focused Frameworkfor Social Bot DetectionJ.Netinfo Security,2024,24(2):319-327.A Social Heterophily Focused Framework for Social Bot DetectionYU Shangrongl.2.3,XIAO Jingbol
4、.23,YIN Qilin.2.3,LU Weil,2.3(1.School of Computer Science and Engineering,Sun Yat-sen University,Guangzhou 510006,China;2.Ministry ofEducation Key Laboratory of Information Technology,Sun Yat-sen University,Guangzhou 510006,China,3.Guangdong Province Key Laboratory of Information Security Technolog
5、y,Guangzhou 510006,China)Abstract:As social bot technology advances,these bots increasingly interact withhuman users,making their detection a more challenging problem.Existing detection methodsprimarily rely on the homophily assumption,often overlooking the connections betweendifferent classes of us
6、ers,particularly the impact of heterophily.This oversight impairs theirdetection performance.To address this issue,this paper presented an innovative social botdetection framework that emphasizes social heterophily.It leveraged user connections within收稿日期:2 0 2 3-10-31基金项目:国家自然科学基金U2001202,62072480作
7、者简介:余尚戎(1999一),男,湖北,硕士研究生,主要研究方向为多媒体内容安全;肖景博(2 0 0 1一),男,河南,硕士研究生,主要研究方向为多媒体内容安全;般琪林(1995一),男,江苏,博士研究生,主要研究方向为数字多媒体取证;卢伟(197 9一),男,河南,教授,博士,CCF会员,主要研究方向为人工智能安全与对抗、信息取证与安全。通信作者:卢伟319NETINFOSECURITY技术研究2024年第2 期social networks and extensively explored various types of social information to mitigatethe
8、 effects of heterophily and achieved more accurate detection.This paper examined userrelationships from both homophily and heterophily perspectives.It constructed the socialnetwork as a graph and employed a message-passing mechanism to aggregate informationfrom both homophilic and heterophilic edges
9、,allowing for the extraction of frequency-basednode features.Furthermore,it aggregated features from various nodes within the graph togenerate social context features.These features are then blended and utilized for the detectiontask.The experimental results validate the methods superiority over com
10、parative approacheson publicly available datasets,confirming its effectiveness.Key words:social bot detection;homophily and heterophily;graph neural network0引言随着互联网技术的发展和移动互联网设备的普及,国内外涌现出大量的社交媒体平台,上亿用户每天在其中产出和获取信息。在社交媒体正常用户不断增多的过程中,社交机器人账号数量也不断增长。社交机器人是在社交媒体平台上自动生成内容、参与人类社交互动且无物质实体的自动程序型智能体。最初,社交机器人
11、为社交媒体用户提供一些便捷服务,如图片格式转码。但是,社交机器人在之后遭到了滥用,更多被用于窃取用户的个人隐私信息、传播虚假信息、推广极端主义和干扰全球政治选举活动等。例如,2 0 17 年美国总统选举期间,社交机器人传播了大量虚假新闻!I以影响大众的判断;在2 0 2 0 年新型冠状病毒疫情期间,社交机器人活跃在病毒溯源话题中;WENG2等人提出某实验室泄露理论盛行期间的推特(Twitter)数据中参与讨论的账户中有2 9%是社交机器人。社交机器人的安全问题引发了广泛担忧,因此,如何有效检测这些社交机器人账号成为热门课题。在过去10 年中,社交机器人检测方法经历了多个发展阶段,包括基于众包平
12、台的方法3、基于机器学习的方法4,5以及基于深度学习的方法6,等,这些方法在提高检测效率和性能方面都取得了显著的进展。近年来,随着图神经网络技术在处理非结构化数据和复杂关系方面成功应用,社交机器人检测领域也有了新突破。研究人员将图神经网络技术引人社交机器人检测任务,提出了一系列基于图神经网络的检测方法8-1。这些方法将社交网络中的用户视为图中的节点,将用户之间的联系视为图中的边,同时充分利用包括用户账号信息和用户发布的推文等社交元数据作为节点的初始特征,成功构建了社交图。由于充分利用社交信息以及图神经网络出色的特征表达能力,这些基于图的检测方法在社交机器人检测中取得了卓越的性能。社交机器人技术
13、同样得到了发展与更迭,主要体现在对抗性的增强上。近期有研究12,13指出,“重对抗”的社交机器人倾向于改变原来单一的社交行为模式,通过与正常用户进行更多交互来伪装自身,这给社交机器人的检测带来了新的挑战。未来,在社交网络中“重对抗”的社交机器人数量不断增加的趋势下,上述基于图的检测方法将愈发难以区分正常用户中的社交机器人。这是因为其模型对节点特征的处理是基于同配性假设14(Homophily Assumption)。同配性假设认为存在边的节点更可能属于相同的类别或具有相似的特征,它体现在图神经网络的信息聚合中,每个节点特征都由自身与邻居节点的特征混合所得,而基于同配性假设的方法在同配程度高的场
14、景下(如论文分类15等)表现卓越。然而,由于忽视了异配(Heterophily)带来的影响,即图中存在边的两节点属于不同类别,随着图的同配程度降低,信息聚合过程中大量节点被通过异配边的节点信息所影响,导致最终的节点特征难以区分。图1展示了简化的社交图,其中箭头代表社交用户之间的追随(Following)关系,社交机器人和正常用户的初始特征分别用灰色和白色表示。经过信息聚合,位于图中间的社交机器人受异配边的影响,320NETINFOSECURITY2024年第2 期技术研究其特征被正常用户的特征稀释,在进行检测时可能被错认为是正常用户。8社交机器人图1信息聚合中异配边的影响面向当前和未来的社交机
15、器人,检测方法必须特别注重处理图的异配性,主动克服异配边可能带来的负面影响,以确保在信息聚合过程中同类节点的特征更加相似,而不同类别节点的特征具有更高的可区分性。本文提出一种关注社交异配性的社交机器人检测框架,以社交网络用户之间的联系为依据,充分挖掘各类社交信息来应对异配带来的挑战并实现更精准的检测。同时,对于社交用户之间的联系,即社交图节点间的边,本文在特征提取时分别视其为同配边和异配边,并通过消息传递机制实现的同配边聚合和异配边聚合分别聚合其连接的节点特征。其中,异配边聚合得到节点的高频特征,关注节点自身特性;同配边聚合得到节点的低频特征,关注邻居特性。另外,利用图中各节点特征聚合得到社交
16、环境特征,将其与之前得到的节点频率特征自适应混合后用于检测。由上述三者整合而成的特征反映了节点的本质属性,能够在异配影响下较好地区分社交机器人与正常用户。本文的主要贡献如下:1)本文提出了一种关注社交异配性的社交机器人检测框架,能够在异配影响下实现对社交机器人和正常用户的有效区分;2)本文在同配、异配视角下看待社交图中的边,并通过消息传递机制实现了同配边和异配边的聚合操作,以实现对异配影响的适应;3)本文在两个开源社交机器人检测基准数据集上进行实验,检测性能均优于对比方法,消融实验证明所提方法的有效性。1相关工作基于图神经网络的社交机器人检测方法的发展与社交网络规模的增加以及社交信息的扩展紧密
17、相关。ALI8等人先使用账户和账户间的社交关系分别作为节信息聚合点和边,将社交网络构建为社交图,使用账户元数据8特征构造账户的初始特征,再利用多层图卷积神经网络学习账户的社交图特征,将其输入分类网络进行分正常用户异配边同配边类。YANG16等人提出了一种基于注意力的图神经网络,该网络利用图卷积算子自动捕捉社交网络中的聚合模式。随着大规模社交机器人检测基准数据集TwiBot-2017和TwiBot-2218的出现,社交关系和社交网络规模都得到了扩充,一些工作通过使用更多的社交信息来提高检测准确性。Satar101通过综合使用社交信息中的语义、属性和邻域信息来生成节点特征,利用自监督方法进行预训练
18、,并在具体的社交机器人检测场景中进行微调。BotRGCN9通过社交用户之间的不同社交关系构建异构图,通过关系图卷积网络聚合不同关系的节点特征并进行分类。经历了Transformerl19在自然语言处理(Natural Language Processing,NLP)领域的大热之后,为了更好地利用大规模的社交网络数据,FENGI等人将Transformer应用在关系图神经网络中,汇聚不同关系下的节点信息形成最终的节点特征并用于分类。上述方法都基于同配性假设来设计,即正常用户和社交机器人都倾向于与同一类别的节点进行更多的交互。然而,“重对抗”的社交机器人可以通过主动与正常用户交互来躲避检测,这是由
19、于这些检测方法都没有考虑社交图的异配性。目前,社交机器人检测领域中对异配性的研究还处于初步阶段。WU201等人提出了一个关注异配性的有监督对比学习框架BotSCL,其编码器利用注意力机制处理图中相邻节点的特征生成边的权重进行信息聚合,得到待检测节点的特征;其利用对比损失指导编码器网络的训练,使得同类节点特征相似、不同类节点特征相异。321NETINFOSECURITY技术研究2024年第2 期2本文方法2.1框架整体设计与实施流程图2 展示了本文所提框架的整体设计与实施流程。从社交图出发,经过关系子图的提取、关系子图下的视角分解、消息传递网络下关系特征的提取、关系特征汇总与分类,最终得到待检测
20、节点是否为社交机器人的判断。社交图G关系子图G视角原视角提取R=10分各关系子图同配視角社交机器人同配边聚合正常用户待检测用户各社交关系:同配边异配边图2 关注社交异配性的社交机器人检测框架对于一个社交图G,社交用户节点之间往往存在多种联系,即不同的社交关系,在图中体现为不同类型的边。由于社交机器人与正常用户的社交关系偏好有别2 1,把社交图按照不同关系拆分成子图是极有必要的,可以将不同关系下的节点进行个体化处理。因此,本文通过筛去类型不属于R的边来提取原始社交图在各个社交关系下的子图GR,其中R=1,2,k,k为社交关系总数。在G中,节点之间仅存在R这一种联系,如粉丝(Follower)。提
21、取得到的关系子图中节点特征XR与社交图G中的节点特征X保持一致,其中XRERIVF,V为G中节点集合,代表集合中元素数量,F为特征维度。本文对提取到的关系子图GR进行视角分解,得到其同配视角图GR-Homo和异配视角图GR-Her,并将它们传人消息传递网络提取节点特征。基于消息传递机制,本文实现的消息传递网络包括4个步骤:1)同配边聚合。处理同配视角图,旨在有效聚合同配边的节点信息,记作MPHomo();2)异配边聚合。处理异配视角图,旨在有效聚合异配边的节点信息,记作MPHeter();3)社交环境特征提取。负责提取节点所处社交环境的特征,记作MPcraph();4)特征融合。将3种特征合并
22、在一起,得到输人关系子图中节点的关系特征,其将作为下一层网络中节点的初始特征。经过n层网络对节点特征的提取后,得到k个关系子图下的节点关系特征,将其输人分类网络中,判定是否为社交机器人的。分类网络首先对待检测节点的k个关系特征进行汇总,将它们拼接成一个特征向量;然后将特征向量输入Transformer编码器,利用多消息传递网络分类网络同能边聚合各关系中持检照牌点特鞋异配边聚仓4环境特征中特征免训特证分高异配边聚合环嫂特征节点节点低频特征高频特证Laiow节点关系特征头注意力(Multi-HeadAttention)机制捕获其中重要信关系特证汇总息;最后,将经Transformer编码器编码后待
23、检测节点i的特征向量h,输入至MLP分类器,使用全连接层和带点域超节点博中全部点社交环境特证agraSoftmax层进行分类,如公式(1)所示。=sofimax(W-h,+b)输出MLP分类(1)其中,W和b为全连接层中可学习的权重和偏置,softmax()表示Softmax层,表示模型对输人社交用户分类的预测结果。本文使用交叉熵损失作为分类网络的损失函数进行训练。2.2视角分解已有基于图的社交机器人检测方法大多是基于同配性假设的,它们只在同配视角下看待社交图中的边,这往往导致它们提取的特征对于不同类节点的区分程度不足。BotSCL指出了上述问题,并强调社交图的异配性给社交机器人检测带来了不良
24、影响。其方法利用注意力机制处理图中相邻节点的特征,并用它们来生成图中边的权重,依靠边的权重来生成节点特征,实现对异配边的适应。区别于BotSCL,本文方法对于异配边的适应是通过主动引人同配边、异配边来实现的。在视角分解中,本文把边的同配性、异配性视为图中要素,同配视角下,图中所有边都将被视作同配边;异配视角下,图中所有边都将被视作异配边。对于关系子图GR,经视角分解得到的同配视角图Gr-Homo和异配视角图Gr-Heler与之有着相同的图结构、节点特征等,只有边的同配、异配性有区别。将边的同配性、异配性作为包含节点特征、社交322NETINFOSECURITY2024年第2 期技术研究关系等在
25、内的社交图要素,本质上是对社交网络进一步贴切刻画的需求。在真实的社交网络中,社交用户并没有标签,因此无法从社交用户之间的联系中判断出他们是否属于同一类别。这时,通过引人同配边和异配边,在同配视角下,社交图中有联系的社交用户都属于同一类别,应当在特征中存在共性;在异配视角下,社交图中有联系的社交用户都属于不同类别,应当在特征中体现差异。将同配边和异配边分开处理,可以根据它们的特点进行不同的特征聚合,两者互为补充,避免了单一视角下的特征缺失。2.3消息传递网络本文使用k个结构相同的消息传递网络分别处理k个关系子图的视角分解图。对于关系子图GR,在每层消息传递网络中分别通过同配边聚合、异配边聚合得到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关注 社交 异配性 机器人 检测 框架
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。