基于大数据技术的网络舆情感知系统的分析与实现.pdf
《基于大数据技术的网络舆情感知系统的分析与实现.pdf》由会员分享,可在线阅读,更多相关《基于大数据技术的网络舆情感知系统的分析与实现.pdf(6页珍藏版)》请在咨信网上搜索。
1、第 15 卷第 4 期南阳理工学院学报Vol.15 No.42 0 2 3 年 7 月JOURNAL OF NANYANG INSTITUTE OF TECHNOLOGYJul.2023基金项目:2023 年度南阳市哲学社会科学项目作者简介:赵淑君(1984-),女,硕士,讲师,主要研究方向:数据科学与大数据技术。基于大数据技术的网络舆情感知系统的分析与实现赵淑君,刘 伟,江凤月(南阳理工学院 河南 南阳 473000)摘 要:随着大数据技术的日趋成熟,利用大数据技术实现对海量的网络舆情数据进行采集、分析和展示,对网络舆情信息感知度得到了很大的提升,可以准确地了解网络舆情的发展态势,把握群众的
2、情绪,对舆情事件做出高效、正确的决策。利用分布式爬虫技术来抓取数据,文本分析技术进行数据预处理和数据清洗,对数据仓库的舆情信息进行处理、分析,实现了舆情的监测、舆情的分析和舆情报告。通过大数据技术挖掘网络舆情事件,能够快速准确地感知舆情信息,可以有效提升网络舆情的管控和预防能力。关键词:大数据技术;舆情监测;网络爬虫;舆情分析中图分类号:TP391.1 文献标识码:A 文章编号:1674-5132(2023)04-0050-06DOI:10.16827/ki.41-1404/z.2023.04.0100 引言近年来,我国社会进入社交媒体爆炸式发展的阶段,信息的传播速度奇快,网络舆情信息不仅是一
3、个个热门话题,更是对政府的感知能力和社会治理能力提出了全新的挑战1。所谓的网络舆情是以网络为载体,在一定的社会空间内,通过网络对社会事件的发生、发展和变化,产生的态度、信念和价值观,即广大网民对热点事件的情感、态度、意见、观点的表达、传播与互动,以及造成的后续影响力的集合2。因此,互联网成为有关部门了解网民的思想动态和舆情信息的重要途径。近年来,网络舆情事件频发,从表现上看,相关职能部门对网络舆情信息的感知度不够灵敏,常常错过网络舆情事件处理的最佳时间,或者对网络舆情信息的发展形势判断不够准确,出现误判等情况。基于该现状,一款能够自动获取网络舆情信息并对舆情信息进行分析的软是相关职能部门迫切需
4、要的。相关职能部门可以通过该系统在海量数据中抓取网民对某事件的评论和情感倾向,来了解并把握群众的情绪,从而对舆情事件做出更加高效、正确的决策。1 大数据技术和网络舆情当下正处于“数据大爆炸”的时代,全球数据规模飞速增长,目前全球存储系统迎来新一轮变革机遇,正在从“Big Data”(大数据)发展到“Fast Data”(快数据)。至 2022 年 12 月,我国网民规模达10.67 亿,比去年同期增长 3549 万,互联网普及率达 75.6%。网民规模在不断扩张,数据越来越大,数据的结构、类型更加丰富和多元。从近年来的一些网络舆情热点现象来看,网络舆情在社交新媒体的“加持”下更是具有多元、多样
5、、快速、情绪化的特性3。1.1 大数据概述对于大数据的概念麦肯锡全球研究所给出的定义是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型4。“大数据”有 4V 层面,分别是 Volume(规模性)、Velocity(多样性)、Variety(高速性)、Ve-racity(价值性)5。Volume 是体积,“大数据”的数据量体积庞大,2021 年全球实时数据量规模为16 ZB,2025 年实时数据量将达到 51 ZB;Variety 是速度,大数据正在向快数据演变,即数据产生的速度快,同时要求“大数据”的处理
6、频度要高、处理速度要快;Variety 是类型,“大数据”的数据类型繁多,包括日志、UGC(包括图片、音视频)、LBS 信息等;Va-riety 是价值密度,“大数据”价值密度低,比如某个用户的 LBS 信息需要长时间积累才能有价值。第 4 期赵淑君等:基于大数据技术的网络舆情感知系统的分析与实现Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,是一个开源的大数据分析软件,集合了大数据不同阶段技术的生态系统。用户可以在不了解分布式底层细节的情况下,开发分布式程序。网络舆情数据采集和数据处理分析过程中,充分利用集群的威力进行高速运算和存储,选用 Hadoop 集群可以从单一
7、的服务器扩展到成千上万的机器,将集群部署在多台机器,每个机器提供本地计算和存储,可以在本地进行网络舆情信息爬取,并且在本地进行计算和存储。Hadoop 的核心组件有 Yarn、HDFS 和 MapReduce,其中,Yarn 是分布式资源管理系统,实现集群资源管理和调试;HDFS 是分布式文件系统,主要用来解决大数据分布式存储问题;Ma-pReduce 是分布式计算框架,实现大数据分布式计算功能。1.2 网络舆情处理技术在 Web3.0 大环境中,网络信息的传播呈多样化,网络舆论场从微博、聊天室的单一渠道发展到小红书、抖音、哔哩哔哩、微信等多种形式,网络舆论场的数量和聚集地剧增,特别是对舆论事
8、件的评述也由传统的设置议题和阐述言论演变为弹幕、投票等多种新的形式,给网络舆情的监测、分析和治理工作带来了更大的难度6。利用数据科学与大数据技术来研究网络舆情,能够快速获取有效信息,并对信息进行分类和推送,为相关组织机构的舆情监测、舆情分析、舆情危机公关决策等提供一定依据。借助于成熟的大数据技术,通过全文搜索、来源搜索、热搜监测等多重功能实现对全网文本、图片、视频舆情实时发现,利用文本分析技术进行情感分析、高频词分词、文本分类、事件分类等,对网络事件进行关联分析、趋势分析和倾向性分析7。本文主要对大数据技术结合网络舆情进行分析研究,从而构成新型的网络舆情分析模型。本文中网络舆情处理的核心技术主
9、要有 5 个步骤:(1)舆情监测:利用爬虫技术对网络上的舆情信息进行实时监测,通过全文搜索、来源搜索、热搜监测等多重功能实现对全网文本、图片、视频舆情实时发现。(2)舆情预处理:利用大数据技术对舆情信息进行数据去重和数据清洗。将不同类型的数据存储在不同的数据模型中,如数据去重,可以把 URL 都存储在 Redis 中完成 URL 的去重;内容去重,用Elasticsearch 将文章标题一样的内容进行检索过滤。数据清洗可以通过自动提取字段和采用自动分类技术对软文、广告文、敏感文章分类,并且对抓取信源屏蔽。(3)舆情存储:利用 HDFS 技术将数据存储多份,用储存空间换取查询时间。(4)舆情分析
10、:利用文本分析技术进行情感分析、高频词分词、事件分析、评论分析等。(5)舆情报告:利用可视化技术对舆情信息生成分析报告,为舆情管理提供科学依据。网络舆情感知系统主要有数据采集模块、数据分析处理模块(数据仓库)和数据可视化展示 3 大功能模块。系统的数据处理流向如图 1 所示。图 1 数据流向图2 数据采集系统从爬虫角度看,基于大数据技术网络舆情感知系统的数据处理的关键在于能够及时捕抓到舆情信息。系统数据的获取通过使用分布式框架,建立分布式舆情数据采集机制,可以快速抓取各种类型的数据。(1)网络舆情数据获取。系统运用 Redis 数据库做分布式,一个 Master 节点和多个 Slave 节点,
11、15南阳理工学院学报第 15 卷Master 端管理 Redis 数据库 URL 队列和任务的分发,Slave 节点根据分配的任务,爬取网页信息并解析提取网页数据,再将解析的数据存储在 MongoDb数据库中。分布式爬虫控制节点执行流程如图 2所示。图 2 分布式爬虫控制节点执行流程图 (2)网络舆情数据存储。系统选用 Hadoop 框架 HDFS 文件系统以及 NoSQL 数据平台,将提取到的数据存储到 MongoDB 数据库中,便于后续流程对数据进行分析使用。(3)网络舆情数据的分布式计算。Hadoop 框架的 MapReduce 可以实现分布式计算,将待处理的舆情信息自动划分成多个数据块
12、存储在不同数据节点上;将每个数据块的数据处理作业划分成多个 Map任务加以执行,再经过 Reduce 任务处理后将结果进行输出,MapReduce 计算保证了系统执行的可靠性和可扩展性。3 数据分析处理为从海量原始数据中获取到有效数据,需要对爬取到的原始数据做进一步的提取和数据清洗,得到标准的数据格式,然后再对数据进行文本分析。(1)数据提取系统采用 Redis 数据库,可以充分发挥它的优势,首先对 URL 进行去重,另外,在 HTML 的原始代码中,有很多成对的标签,需要找到要爬取的标签,再开始提取有效信息。(2)数据清洗通常爬取到的数据都是非标准的数据格式,需要对数据进行预处理8。从非标准
13、的数据格式中提取每个新闻的标题、正文、作者、发布日期以及对应的正文页面 URL 等,将有效数据保存到 CSV文件。(3)文本分析将数据存储到 CSV 文件之后,对文本内容进行分析。先使用 jieba 分词器对中文文本分词,分词后的数据仍是杂乱无章,需要再次进行数据清洗工作,通过去除停用词将文中多余的一些副词、量词去掉,只保留主体内容,然后做词频统计,将高频词统计出来生成词云。为了便于计算将文章词语转化成数字,然后把文档生成 TF-IDF 矩阵,计算文章相似度,再通过 K-means 聚类,最后得到几个类的主题词。4 系统架构设计本文的系统架构设计分 3 个层次,分别是舆情数据采集层、舆情数据加
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 技术 网络 舆情 感知 系统 分析 实现
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。