基于情感分析和热度预测的网络舆情预测研究.pdf
《基于情感分析和热度预测的网络舆情预测研究.pdf》由会员分享,可在线阅读,更多相关《基于情感分析和热度预测的网络舆情预测研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、 年 月第 卷第 期西安石油大学学报(自然科学版)()收稿日期:基金项目:陕西省社会科学基金项目“基于大数据的重大舆情发现、分析研判和应对策略研究”()第一作者:赵嵩正(),男,博士研究生导师,教授,研究方向:数据分析、设备管理、信息管理与信息系统。:中图分类号:;文章编号:()文献标识码:基于情感分析和热度预测的网络舆情预测研究赵嵩正,魏 娜,李美彦,高鹏飞,顾王旬皓,(西北工业大学 管理学院,陕西 西安 ;中兴通讯股份有限公司,江苏 南京 )摘要:在社交媒体平台已成为大众信息交流的重要载体的背景下,关注和分析大众对于社会热点事件的情感倾向及舆论走势,有利于及时准确了解大众的情感需求,制定相
2、应的措施,引导舆论走向,维护良好的网络环境。提出了基于情感分析和热度预测的网络舆情预测思路,构建了融合多特征的文本情感分析模型和基于时间序列的热度预测模型,并基于真实数据集验证了模型的有效性。对于社交媒体上舆论环境的分析和预测有重要意义。关键词:网络舆情预测;情感分析;热度预测;深度学习 ,(,;,):,:;赵嵩正,魏娜,李美彦,等 基于情感分析和热度预测的网络舆情预测研究 西安石油大学学报(自然科学版),():,(),():西安石油大学学报(自然科学版)引言中国互联网络中心()在 年 月发布的第 次 中国互联网络发展状况统计报告 中显示,到 年 月为止,我国网民规模达 亿,较 年底增长了 万
3、,互联网普及率达 。其中,即时通信用户、网络视频(含短视频)用户、网络支付用户、网络购物用户、网络新闻用户、线上办公用户、在线旅游预定用户和互联网医疗用户分别占网民整体的 、和 。这表明互联网已对人们的学习、生活和娱乐方式产生了重要影响,且成为信息传递的重要载体。然而,由于互联网自身存在的虚构性、隐藏性、扩散性和随意性等特征 ,个别媒体和一些网民借助网络散播虚假的和未经证实的信息,有意引导舆论走向,从而增加了舆情事件的负面影响,对社会的安定团结造成了重要危害。因此,对网络上的社会热点事件的网民情感导向进行有效分析和监控,及时监测事件的舆论现状,预测未来的舆论走向,有利于提前制定相应的应对措施,
4、防止舆论被他人刻意引导,对于控制舆论影响有重要意义 。现有的网络舆情分析方法包括基于构建指标体系的方法 、基于传播过程的方法 和基于情感分析的方法 。其中,基于构建指标体系的方法存在时效性差和主观性强的缺点;基于传播过程的方法存在模型复杂度高、依赖假设和缺乏综合性等局限;基于情感分析的方法则由于有较多的数据支撑而具有较高准确率。因此,本研究基于情感分析方法,将其与热度预测相结合,用于网络舆情分析。目前主要的情感分析方法包括 种:基于情感词典的方法 、基于传统机器学习的方法 和基于深度学习的方法 。其中,基于情感词典的方法通过与人工构建的情感词典库匹配确定评论文本的情感极性;基于传统机器学习的方
5、法通过传统机器学习模型(例如,支持向量机和决策树模型)实现文本情感分类,这两种方法均需要耗费大量的人工成本和时间成本,且领域适应性较差;基于深度学习的方法可以通过深度学习模型(主要指神经网络模型)自动学习文本的语义特征,减少了人工特征工程的工作量,然而,不同的深度学习模型通常可以提取到的语义特征也是不同的,单一的深度学习模型不能提取到情感分析所需要的全部语义特征,且数据不均衡问题(当热点事件中的舆论被有意引导时,评论文本中某一情感极性的文本数量往往多于另一情感极性的文本数量)会对深度学习模型产生比较大的负面影响 。目前主流的热度预测方法是基于定量模型的方法 ,包括:时间序列分析、灰色理论、模型
6、、马尔科夫链和指数平滑法。其中,时间序列分析具有考虑时间依赖性,适用于短期和长期预测,可解释性强等优势,被广泛应用于热度预测领域。因此,本研究提出了基于情感分析和热度预测的舆情预测思路;基于卷积神经网络和双向长短期记忆网络,构建了多特征融合的情感分析模型,解决了同时提取评论文本中长期记忆信息和局部信息的问题;基于简单数据增强方法,降低了情感分析中的数据不均衡问题对深度学习模型的负面影响;构建了基于时间序列分析的热度预测模型,实现了热点事件的热度走向预测;基于真实数据集,验证了本研究提出的情感分析模型、热度预测模型和舆情分析思路的有效性。多特征融合的情感分析模型构建本研究基于卷积神经网络和双向长
7、短期记忆网络,构建了融合长期记忆信息和局部信息的情感分析模型(图 ),该模型主要包括 个部分:输入层、数据增强层、词嵌入生成层、文本特征提取层、情感分类层和输出层。输入层本研究构建的基于多特征融合的情感分析模型的输入是文本数据,每段文本按照字符或词汇切分,形成序列,最后将序列输入到整个模型。数据增强层为了降低数据不均衡问题对分类模型的负面影响,有研究者提出了用数据增强的方法自动增加训练数据中少数类的数据量 ,从而为分类模型构造出均衡的训练数据。由于数据增强方法不是本研究的主要内容,因此,本研究采用文本数据增强方法中最简单和易于实施的过抽样方法解决数据不均衡问题,即通过简单重复的方法,增加少数类
8、的文本数量,得到均衡的训练数据集。词嵌入生成层 模型被广泛用于自然语言处理的各个领赵嵩正等:基于情感分析和热度预测的网络舆情预测研究图 基于多特征融合的情感分析模型 域(例如,文本分类 和关系抽取 ),且均取得了不错的效果,因此,本研究采用 模型生成文本的词嵌入。模型由 模型中的 层堆叠而成,可以有效获取文本的上下文信息 。模型的输入包括 部分:文本中的字符或词本身的表示向量、字或字符的位置表示向量和句子之间的分割表示向量。模型的训练过程包括预训练和微调两部分,其中预训练基于遮蔽语言模型(,)和下一句预测任务实施,微调阶段则基于具体任务的文本数据进行训练。文本特征提取层采用 和 提取文本的上下
9、文信息和局部信息,如图 中的特征提取层所示。模型由两层 模型组成,一层学习正向的文本上文信息,一层学习反向的文本下文信息,通过两层得到的向量的拼接获取完整的文本上下文信息。模型通过门控机制可以有效解决梯度消失和梯度爆炸问题,从而保留文本的长期和短期序列信息。门控机制由 个门组成:输入门、遗忘门和输出门,分别用于决定上一时刻的信息可以输入到当前时刻的比例、当前时刻的信息需要被丢弃的比例和当前时刻的信息可以被输出到下一时刻的比例。卷积神经网络()的模型框架包括卷积层和池化层两部分。卷积层通过卷积操作代替全连接神经网络中的全连接操作,实现参数共享,从而可以有效减少模型的参数数量,在一定程度上解决过拟
10、合问题。同时,卷积神经网络可以通过卷积操作有效提取文本的局部信息,从而可以在情感分类任务中有效学习情感词汇所表达的局部语义特征。情感分类层和输出层通过全连接神经网络融合 和 提取到的文本信息,实现文本情感分类。对于每一条文本,最终输出其情感极性:积极或消极。基于时间序列的热度预测模型构建为了评估社交媒体上某个话题的热度和未来走向,借鉴文献 提出的热度计算方法,本研究构建了社交媒体中某个话题的热度计算公式,并基于时间序列,构建了热度预测模型,预测某个话题的未来影响力大小。热度计算方法设计目前,用户在社交媒体上发表的关于某一事件的话题的影响度可以用 个主要指标来衡量,分别是:点赞数、评论数和转发数
11、。通常,这 个指标在话题影响度评估中的重要性是不同的,本研究构建的热度计算式为。()式中,和分别表示不同的权重,可以通过专家访谈和文献分析等方法获取;,和 分别表示某个话题的转发数、评论数和点赞数。西安石油大学学报(自然科学版)由于不同话题的热度差异较大,因此,本文采用 标准化方法 对式()计算得到的热度值进行标准化处理,使最终得到的热度值取值范围为 ,。热度预测模型构建基于 节的话题热度计算方法,本小节通过时间序列分析方法,基于某个话题的历史和当前热度,预测该话题的未来热度走向,从而辅助重要话题的舆论控制策略制定。现有的被广泛使用的时间序列模型包括:自回归模型(,)、滑动平均模型(,)和自回
12、归滑动平均模型(,)。由于这 个模型都只能处理平稳时间序列,而本研究经过数据探索发现,话题热度序列属于非平稳时间序列,因此,采用文献 提出的求和自回归滑动平均模型(,)执行话题热度预测任务,即采用差分运算将非平稳时间序列转化为平稳时间序列,再通过 模型执行预测任务。模型的数学表达式为 。()式中,为自回归阶数;为差分阶数;为滑动平均阶数;为自回归系数;为滑动平均系数;、不为 ;是零均值且固定方差为 的白噪声序列。基于情感分析和热度预测的舆情预测在获得某个话题的情感极性及未来热度走向后,可据此判断某个事件是否会引发网络舆情,以及可能引发的舆情等级,并制定相应的应对策略,使社交媒体上的舆论环境朝着
13、良好的方向发展。例如,由于公众在面对某一事件时,对风险的感知程度越高,其消极恐惧情绪就会越明显,反之亦然 。因此,当某个话题的情感极性表现消极,且话题热度不断增加,则需根据话题讨论的事件,及时制定合理的应对措施,引导舆论导向,避免事件进一步恶化;如果话题情感极性表现积极,则话题热度无论如何演变,都可以任其自然发展。同时,也可根据话题的热度变化是否符合预期,判断某个话题是否应被重点关注或判断制定的应对措施是否有效。例如,某个负面话题的热度在实时预测时,其真实热度总是远远高于预测值,则需要分析该话题的发展是否被人为控制,或向不可控的方向发展;当对某个话题实施了相应的应对措施后,如果话题的热度或情感
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 情感 分析 热度 预测 网络 舆情 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。