基于量子竞争机制的网络水军智能识别模型研究.pdf
《基于量子竞争机制的网络水军智能识别模型研究.pdf》由会员分享,可在线阅读,更多相关《基于量子竞争机制的网络水军智能识别模型研究.pdf(16页珍藏版)》请在咨信网上搜索。
1、基于量子竞争机制的网络水军智能识别模型研究*侯 旋*摘要 负面舆情易受人为因素影响,网络水军对负面舆情的产生具有较大的推动力,因此对其进行快速精准识别与治理成为舆情防控工作中亟待解决的问题。现阶段对网络水军的识别研究多依靠传统识别方法与技术开展,很少利用量子计算模型进行研究。本文基于量子竞争理论,构建具有4个类别13个维度的网络水军特征识别指标体系,利用量子竞争机制创建网络水军智能识别模型。选取10个典型的网络舆情热点事件进行仿真实验,获得了较好的研究结果;提出了“制防+技防+人防”的网络水军治理创新模式,在明确管理机构的规制、推进网络平台的监管以及推动网民素养的提升等3个方面提出了治理策略。
2、关键词 网络水军 智能识别 量子竞争 治理随着互联网技术的高速发展与广泛应用,网络媒体已成为重要的信息传播与交流平台,人们通过其提供的以两微一端、网站论坛与抖音短视频为代表的各类网络服务进行信息交流与资源共享1,促使网络媒体成为网络舆情传播的载体。网络舆情通常由突发社会公共事件触发,反映了人们对某一公共事件所表达的认知、态度、情感和倾向性2,同时易受人为因素影响、易被人为炒作,很有可能衍生舆论暴力、网络谣言、谩骂攻击、虚假广告等,对网络舆情的发展与次生舆情的演变,对社会稳定、经济增长、国家发展都会产生重大影响3。网络舆情分析技术主要涉及网络信息采集技术、网络舆情传播机制、话题检测与跟踪技术、文
3、本分割技术以及932*基金项目:陕西省社会科学基金项目“创建基于 QART 模型的网络舆情预警智能计算模型”(项目编号:2020M012)。侯旋,西北政法大学新闻传播学院讲师,西北政法大学社会政策与社会舆情评价协同创新研究中心研究员。文本情感分析技术等3,其中网络水军智能识别是近年来的研究热点之一。网络水军是一群有组织、有特殊目的的在线用户,是在网络中被雇佣并针对特定内容发布大量特定信息的网络写手,使话题的传播难以分辨是自然的还是人为的。正面网络舆情由网民进行“发帖点击回帖”形成,反映了公众对现实生活中某些热点或焦点问题所持有的具有较强影响力、倾向性的言论或观点;负面网络舆情由造谣者散布网络谣
4、言,或网络水军炒作而引发,对人们的社会生活与意识形态造成严重的负面影响,因此网络水军炒作行为是引发虚假网络舆情的主要来源与推动力34。一 网络水军智能识别研究的必要性(一)新媒体平台信息传播特点现阶段,互联网新媒体平台呈现信息传播的双向性、信息甄别的困难性以及互联网用户群体的无组织性5。首先,新媒体的信息传播模式从传统媒体的单向传播变为双向传播。传统媒体环境下,受众只能被动接收特定时间与特定空间范围内的信息,而基于新媒体平台,受众既可以接收信息,也可以主动获取自己感兴趣的信息。真实合法的信息可以得到快速准确的传播,但虚假非法的信息也会因快速传播而造成失控的局面。其次,新媒体平台相对自由的言论环
5、境,使得网民愿意表达自己的观点,因此会产生海量的数据信息,同时会给网络信息内容的甄别带来较大的困难,网络水军完全可以利用这一特性制造、发布并传播虚假信息。最后,互联网用户可以随意发表言论,并从中获取一种由信息传播所带来的“乐趣性”与“满足感”。但长期如此则容易陷入一种信息过度传播的状态,加之网民的自身素养各异,有不同的社会背景、知识水平以及价值观等,导致网络用户存在较强的无组织性。(二)网络水军的危害网络水军对互联网环境的危害较大,互联网平台上的虚假炒作、肆意诽042谤造成舆论引导失范,严重影响甚至威胁着互联网文化建设与管理。网络水军既可以通过大量刷帖、虚假夸大使商家企业达到扩大产品知名度或影
6、响力的目的;也可以通过对相关事件进行批评,以扭转负面新闻对个人或团体带来的负面影响;还可以在恶意竞争中发布不利于对手的虚假信息甚至谣言,以达到破坏对方形象、提升自身地位的目的。网络水军的危害,在于其发布的大量虚假信息与不实评论严重影响了互联网平台正常信息的良性传播模式,造成网络资源的严重浪费;更有甚者肆意发布对社会、国家有危害的煽动性言论,恶意攻击政府,激化民众情绪,危害国家安全6。因此,对网络水军的识别与治理是当下新媒体信息传播中亟待解决的问题。二 网络水军识别的研究现状(一)研究现状网络水军识别的实质是模式识别问题,一般通过分析已知分类用户的相关信息与历史行为,提取网络水军区别于正常用户的
7、特点,进而对未知分类用户信息进行分析,判定哪些用户最可能是“网络水军”。目前常用于分类的算法包括贝叶斯网络、支持向量机、人工神经网络(ArtificialNeural Networks,ANN)以及深度学习等。李涛等(2019)通过分析网络水军与正常用户的深层次区别,总结了事件参与度、二阶关联性、关系紧密度以及引导工具使用率 4 个维度的特征,利用经典分类算法 SVM 并选用准确率、召回率、F1 值、时间花费与AUC 等评价指标对上述特征与好友值、粉丝值等 11 个传统特征进行对比,验证了可通过较少时间利用新特征对网络水军实现较高的识别率,为新浪微博海量数据的识别提供了新途径7。杨昊等(201
8、9)设计了基于 Tensor-Flow 深度神经网络的水军识别模型(TDN),通过分析正常用户和网络水军自身的特征以及 TensorFlow 框架的层数对识别准确率的影响,利用新浪微博真实数据对算法性能进行验证,表明 TDN 模型较其他相关模型在网络水军识别研究方面具有更高的准确率和可靠性8。张艳梅等(2017)通过构建具有粉丝关注比、平均发布微博数、互相关注数、综合质量评价、收藏数与阳光信用 6 维特征的微博网络水军识别分类器,基于贝叶斯模型与142基于量子竞争机制的网络水军智能识别模型研究遗传智能优化算法构建网络水军识别算法,利用新浪微博真实数据对算法性能进行了验证,结果表明该算法能够在不
9、降低非网络水军识别率的情况下,保证网络水军识别的准确率,并且提出的阈值优化算法能显著提升网络水军识别的准确率9。Al-Zoubi 等(2018)提出了一种基于支持向量机的混合机器学习模型以及一种鲸鱼优化算法,用于网络水军识别,并从推特收集了阿拉伯语、英语、西班牙语以及朝鲜语信息作为数据集,实验表明所提出的模型在准确性方面优于许多其他算法10。Teena Jose 等(2019)提出了一种基于 LDA 主题模型的新型垃圾邮件发送者分类方法,能够检索主题分布模式的全局和局部数据,对两种数据集进行测试的结果表明此方法性能优于其他方法11。(二)量子计算的优势模式识别中的一类重要问题是聚类分析,其目的
10、在于将事先不了解的一批样本中的每一个样本根据样本特征或其他先验知识,利用某种相似度度量的方法,将特征相同或相似的样本归为一类,实现聚类划分,它是一种基于无监督学习机制、由数据驱动、事先未知的学习方法。除传统的聚类分析方法外,人工神经网络方法也被广泛应用于聚类分析中,但随着应用的深入推广与实际问题的日益涌现,人工神经网络的局限与不足日益显现12。近年来,量子计算快速发展,量子优化算法将量子信息、量子计算机制引入已有的智能优化算法,利用量子系统在处理高维向量上的并行计算的优势,给算法带来指数级的加速。常见的量子优化算法包括量子Grover 搜索算法、量子遗传算法、量子群智能优化算法以及量子神经网络
11、(Quantum Neural Network,QNN)及其算法13。量子优化算法相对于传统优化算法具有更强的并行性、更好的种群多样性、更强的全局搜索能力、更高的获得全局最优解的概率,能够克服人工神经网络的固有缺陷14。三 基于量子竞争理论的网络水军智能识别模型基于互联网用户关系特征的识别方法,结合用户属性行为节点与关系边,构建互联网用户属性指标体系,创建基于量子竞争机制的网络水军智242能识别模型。选取10 个网络舆情热点事件作为研究对象,利用舆情监测系统提取一定数量的网络用户,根据网络水军特征识别指标体系,利用量子竞争算法进行识别。(一)网络水军特征识别指标体系利用层次分析法构建包括 4
12、个类别(用户特征、话题特征、内容特征、传播特征)以及这些类别分别对应的 13 个维度的网络水军特征识别指标体系,如表 1 所示。表 1 网络水军特征识别指标体系一级指标二级指标一级指标二级指标用户特征是否认证粉丝数关注数互相关注数粉丝关注比收藏数注册时长(天)话题特征内容特征传播特征参与话题数参与话题讨论总次数发帖数帖子重复率总转发数被转发总数1.用户特征用以了解用户行为规则、在互联网中的活跃程度与影响力以及用户与用户之间的关系。(1)是否认证:现阶段互联网用户认证的主要途径是实名注册,一个用户能够进行实名认证,便证明了其身份真实性,若能购买会员,则更能表明网络活动在其社会生活中的重要性;而网
13、络水军在一般情况下会极力隐藏真实身份,尽可能地以游客身份或非真实的身份登录网络平台并传播信息,更不可能购买会员。(2)粉丝数:指一个互联网用户受到多少个其他用户关注的数量,反映了用户的受欢迎程度;一般情况下,正常用户的粉丝数相对稳定,而网络水军的粉丝数则很少。(3)关注数:指互联网用户所关注的对象的数量,通常正常用户只关注自己熟悉的用户,或是发表自己感兴趣内容的用户,关注数量不会太342基于量子竞争机制的网络水军智能识别模型研究多,但网络水军关注数会很多。(4)互相关注数:互联网正常用户之间应该存在一定的相互关注,而网络水军更多地关注别人。(5)粉丝关注比:用户的粉丝数与用户关注其他用户数的比
14、值,一般情况下网络水军此值较小。(6)收藏数:用户的一条帖子被其他用户收藏的数量,网络水军的内容一般局限在对某一话题或事件的集中式的“推动”,其内容往往具有一定的“极端”性,因此未必能够被其他用户认同并收藏。(7)注册时长(天):网络水军账号的注册时间一般会集中在某件事情的发生期内,因为一个话题或事件需要大量网络水军“推动”,而任务结束后网络水军账号就会荒废,因此账号集中注册且存在时间较短是网络水军的重要特征。2.话题特征话题特征用以了解互联网用户参与话题讨论的活跃度。(1)参与话题数:网络水军因有“任务”驱动,并会根据“任务”要求参与多个话题或事件的评论,因此一般情况下会比正常用户更多地参与
15、话题讨论。(2)参与话题讨论总次数:网络水军会对相关话题或事件进行大量评论,因此其参与话题讨论总次数明显多于正常用户。3.内容特征内容特征用以表明互联网用户发帖数量以及重复程度。(1)发帖数:发表帖子数量和点赞数都可以反映出互联网用户在某一时间段内的活跃度,普通用户和网络水军都有可能集中在某一时段发表帖子并进行点赞,但在较长的时期内,网络水军用户集中发帖数和点赞数远高于普通用户。(2)帖子重复率:指不断地进行发帖的频率,一般情况下网络水军的帖子重复率要远高于正常用户。4.传播特征传播特征用以表明用户的帖子被转发程度。(1)总转发数:指互联网用户转发其他用户帖子的总数,正常用户的442总转发数一
16、般是有限的,而网络水军为“推动”某些话题或事件的传播,往往具有很高的总转发数。(2)被转发总数:指互联网用户的帖子被其他用户转发的数量,网络水军的被转发总数一般要高于正常用户。(二)网络水军智能识别模型1.模型构建自组织学习(Self-organizing Learning)通过自动寻找样本中的内在规律和本质属性,自组织、自适应地改变网络参数与结构。自组织网络的自组织功能通过竞争学习实现,竞争过程使神经元激活自己、抑制其他。竞争学习是自组织神经网络中常用的学习策略,它采用胜者全得(Winner-Take-All)机制,将输入模式同全部存储模式进行比较,将欧氏距离最小的神经元确定为获胜神经元,并
17、调整其权值,使各个获胜神经元对应的权值向量成为输入模式的聚类中心。量子竞争网络(Quantum Neuron Competitive Neural Network)在经典竞争神经网络的基础上引入量子机制进行构建。将网络水军特征识别指标作为模型的输入数据,与输入层量子神经元完成匹配,如图 1 所示,网络水图 1 基于量子竞争机制的网络水军智能识别模型542基于量子竞争机制的网络水军智能识别模型研究军智能识别模型的核心是具有量子竞争功能的双层网络,模型的输出包括“正常用户”与“网络水军”两个模式。2.核心算法(1)量子制备完成样本空间的量子态描述,将实际问题中的实值样本空间表述为适用于量子神经网络
18、中的量子态。实值样本空间 pi=(pi1pi2 pin)T 经过量子态转换后描述为|xi=(|xi1|xi2|xin)T。?其中 i=1,2,m;j=1,2,n;Axij与 Bxij为|xij 的概率幅。(2)量子竞争在量子神经元竞争中,训练样本|xi 与竞争层对应权值向量|wt=(|wt1|wt2|wtn)的相似系数为Sit=|xi|wt|=mi=1xij|wtj xij|xijwtj|wtj获胜神经元 t*是具有最大相似系数的神经元,即 Sit*=maxt1,2,sSit,其中 Sit指第 i 个训练样本|xi 与第 t 个(t=,1,2,s)权值向量|wt 的相似系数,即|xi 与第 t
19、 个神经元的相似系数;Sit*指|xi 与获胜神经元t*的相似系数。3.案例分析与仿真实验(1)网络用户数据获取选取 10 个网络舆情热点事件(见表 2),利用预警监测系统获取舆情传播中涉及的若干网络用户,对其进行网络水军智能识别仿真实验。为确保数据的完整性,监测时间确定为网络“爆料”前一天至舆情事件相对平息,因此不同的舆情事件监测时长不同,不同事件被监测网络用户总数也会因事件的影响程度与监测时长不同而不同。网络舆情热点事件监测时长642与用户总数的关系如图 2 所示。从监测时长分析,事件 5 的监测时间超过 1 个月,原因在于此事件属于突发自然灾害所引起的网络舆情热点事件,持续时间较长,且对
20、社会的影响较大,舆情的消退期也会较长;事件 9 以 2022 年北京冬奥会为背景,国民的关注度以及事件的影响力较大,监测时间也相对较长,达到 4 周;事件 2、事件 3、事件 7 与事件 8 的监测时间在 2 3 周,原因在于此类事件属于与网民的社会生活关联度较高的网络舆情热点事件,舆情发生后容易引起网民较长时间的讨论;事件 1、事件 4、事件 6 与事件 10 的舆情线索较为透明,一般不易造成次生舆情的发生,网民就事论事,因此监测时间较短。从被监测网络用户总数分析,整体上网络用户数量的多少与监测时间的长短成正比关系,但事件 9 与事件 10 例外,原因在于事件 9 以 2022 年北京冬奥会
21、为背景,监测时间相对较长;而事件10 则因为整个事件过程较为透明,舆情影响力较小,因此关注度相对较低。表 2 网络舆情热点事件单位:人序号网络舆情热点事件舆情数据获取时间区间被监测网络用户总数事件 1某公司员工深夜下班致心脏病突发2021 年 1 月 2 日至 1 月 10 日1843事件 2女乘客乘坐网约车跳车2021 年 2 月 20 日至 3 月 5 日2359事件 3某品牌汽车女车主车展维权2021 年 4 月 18 日至 5 月 10 日3411事件 4某中学学生坠楼2021 年 5 月 9 日至 5 月 15 日2521事件 5某市特大暴雨灾害2021 年 7 月 15 日至 8
22、月 15 日10835事件 6某公司破产风波2021 年 9 月 7 日至 9 月 15 日984事件 7因“黄码”拒收病人2022 年 1 月 2 日至 1 月 17 日3428事件 8精神失常女子生育多孩事件2022 年 1 月 25 日至 2 月 15 日2821事件 9著名运动员引发家庭教育问题的讨论2022 年 2 月 4 日至 3 月 3 日984事件 10品牌店驱赶消费者事件2022 年 2 月 13 日至 2 月 20 日637(2)网络水军占比分析按照网络水军特征识别指标体系对所有网络用户数据进行清洗,并作742基于量子竞争机制的网络水军智能识别模型研究图 2 网络舆情热点事
23、件监测时长与用户总数的关系 说明:图中数据经归一化处理,是数据间的相对值,利于比较,从量纲的角度没有单位。为识别模型的输入数据,识别结果如表 3 所示,在全部的 10 个舆情热点事件中,网络水军占比最高为 18.70%,最低为 2.98%,有一半事件的网络水军占比超过 10%,整体数值相对稳定,没有出现大量“灌水”的现象。表 3 网络舆情热点事件监测时长及网络水军识别结果序号监测时长(天)网络用户总数(人)识别结果正常用户(人)网络水军(人)网络水军占比(%)事件 19184317191246.73事件 2142359198337615.94事件 3233411305935210.32事件 4
24、72521214637514.88事件 53210835101167196.64事件 6998486911511.69事件 7163428278764118.70事件 822282125722498.83事件 928984949353.56事件 108637618192.98事件 7 的网络水军占比最高,原因在于此事件涉及特殊环境下普通市民就医问题,网民关注度较高,同时涉及较多现实问题,因此难免有网民通过此类事件发表过激意见或宣泄情绪。事件 2 的网络水军占比为84215.94%,原因在于此事件一方面属于刑事案件,另一方面涉及妇女权益保护问题,同时涉及企业生产与产品安全问题,舆情热度较高,网民
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 量子 竞争机制 网络 水军 智能 识别 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。