基于TextCNN的突发公共卫生事件网络舆情分类研究.pdf
《基于TextCNN的突发公共卫生事件网络舆情分类研究.pdf》由会员分享,可在线阅读,更多相关《基于TextCNN的突发公共卫生事件网络舆情分类研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、第 15 期2023 年 8 月无线互联科技Wireless Internet TechnologyNo.15August,2023基金项目:贵州省教育厅青年科技人才项目;项目名称:基于深度学习的突发公共卫生事件网络舆情分类技术研究;项目编号:黔教合 KY 字2021249。贵州省科技厅基础研究计划(自然科学)项目;项目编号:黔科合基础-ZK2022一般 331。作者简介:袁琼芳(1990),女,贵州贵阳人,讲师,硕士;研究方向:网络舆情与统计分析。基于 TextCNN 的突发公共卫生事件网络舆情分类研究袁琼芳,张志强(贵州师范学院 数学与大数据学院,贵州 贵阳 550018)摘要:近年来突发
2、公共卫生事件引起了网民大规模的舆情讨论,新浪微博是很多主流媒体发布实事热点新闻的重要平台,更是聚集了众多网友的舆情讨论。文章以突发公共卫生事件网络舆情为研究对象展开研究,具体步骤包括新浪微博热点舆情文本数据采集和预处理、TextCNN 卷积神经网络文本分类模型的训练和验证、TextCNN 模型对突发公共卫生事件网络舆情情感分类 3 个部分。通过新浪微博突发公共卫生事件案例数据,验证了 TextCNN 卷积神经网络文本分类模型可以快速准确地实现网络舆情情感分类,研究成果可为政府相关部门快速判断公众舆情情感、对网络舆情进行有效监控等方面提供一定参考借鉴。关键词:突发公共卫生事件;新浪微博;Text
3、CNN;舆情分类中图分类号:TP391 文献标志码:A0 引言 突发公共卫生事件是近年来热点比较高的新闻事件,非常容易引起社会公众的关注和大面积的网络舆情讨论,这类舆情次生舆情爆发风险高,需要政府和相关部门具备全面的应急管理和舆情识别的技能。传统舆情情感分类技术在面对海量文本数据识别中存在速度慢、准确率低、成本高等问题,深度学习是近年来舆情情感分类的热点技术,可以快速准确低成本地对海量舆情进行情感分类。TextCNN 是 Kim1在2014 年提出的文本分类模型,该模型将深度学习CNN 推广应用到文本分类领域。基于上述背景,本文采用 TextCNN 模型对突发公共卫生事件网络舆情分类工作展开相
4、关研究。1 相关文献概述 深度学习在网络舆情情感识别方面的研究和应用是国内学者近年来研究的热点。邓磊等2搭建了基于深度学习的网络舆情监测系统框架;李芳等3设计了深度语义框架,构造自媒体网络舆情情绪分类模型,并在开放数据集中进行了实证研究;邵辉4提出了 BERT-TextCNN 网络模型,并将该模型用于外卖中文评论数据集上进行情感分析;董晨5提出了基于深度学习算法的改进 TextCNN 分类模型且对新闻短文本数据进行了准确情感分类;彭清泉等6提出了基于ChineseBERT-BiSRU-AT 的医疗文本分类模型,并对医学影像报告文本数据集进行了实验。2 研究设计2.1 研究思路 突发公共卫生事件
5、发生后,新浪微博等互联网平台上充斥着社会公众对突发公共卫生事件的各种舆情信息,如何对海量舆情数据进行快速识别和有效引导是政府和相关企业工作的重要内容。本文的研究思路如图 1 所示。(1)突发公共卫生事件在新浪微博平台上相关网络舆情的数据采集和数据预处理。(2)TextCNN 卷积神经网络文本分类模型对训练集数据进行训练和对验证集数据进行验证。(3)运用调试好的 TextCNN 模型对待分类海量数据集进行舆情情感分类。2.2 研究步骤2.2.1 数据采集 新浪微博是社会公众关注了解突发公共卫生事件新闻和发展趋势的主要平台,由此新浪微博上聚集了大量网民关于突发公共卫生事件的舆情讨论,也由此产生了大
6、量的网络舆情数据。本文研究过程中通过相关爬虫工具从新浪微博平台爬取网民评论的舆情数据,将数据进行整理后形成待分类舆情数据集。2.2.2 数据预处理 研究中采集得到的数据较多,很多是重复无效的261第 15 期2023 年 8 月无线互联科技网络互联No.15August,2023图 1 研究思路评论,首先进行文本清洗,可通过 Excel 和 Python 对原始数据进行重复值删除、缺失值删除、数据合并与整合等文本清洗操作;文本清洗之后通过 Python 的jieba 对评论文本数据进行中文分词、去停用词、统计词频操作;最后将中文分词后的每个词映射到一个数值索引,再通过字典将文本分词后的序列转为
7、数值索引的序列。本文实验过程中转换时统一序列长度为20,以便输入模型,不满 20 长度的填充 0,0 对应补全字符,此时数据预处理阶段的数值序列输入构造完成。2.2.3 TextCNN 模型 TextCNN 模型针对舆情文本分类和情感识别工作都能够得到比较准确的结果,该模型经过以下 4 个步骤完成。(1)输入层。输入层的关键问题在于文本表示。本文研究中将数据预处理阶段处理后的数值序列导入模型,通过Embedding 层,初始化权重使用 Baidu Encyclopedia 百度百科中文词向量(300 维)7,将每个词表示成一个向量,此时数值序列转化为 20300 的矩阵向量。(2)卷积层。卷积
8、层中涉及多个超参数的设置,需要在具体实验任务中尝试才能得到最优的卷积效果,本文研究中对卷积层的参数调试后设置如下:卷积核数量(卷积中滤波器数量)设置为 256,卷积核大小设置为 3,激活函数设置为 relu,初始化权值 he_normal,strides 设置为 1。卷积操作之后将输入层向量转变成 18256的卷积特征矩阵。(3)池化层。池化层(Pooling)的主要作用是通过一定处理来减少模型参数个数,且在该过程中可以有效地防止模型出现过拟合现象。Pooling 的方法很多,本文研究中选择的是全局最大池化 GlobalMaxPool1D,通过GlobalMaxPool1D 操作将卷积层 18
9、256 的特征转化为一维的特征。(4)全连接及输出层。池化层操作之后进入全连接层,通过 Dropout 操作预防模型过拟合,最后通过 Softmax 计算每个情感类别的概率。2.2.4 模型训练与验证 TextCNN 模型基本框架设计出来之后,需要对模型中的参数进行不断调试,以确定最佳模型参数。对此,研究中从原始待分类数据集提取一部分数据(分为训练集和验证集)进行训练和验证。为评估 TextCNN 模型文本情感分类算法的性能,本文选取准确率和损失函数两个指标对模型进行评价。准确率(Accuracy)是指文本分类器判别的所有情绪类别中正确的情绪类别的占比,计算公式为:Accuracy=ncorr
10、ectntotal其中,ncorrect表示突发公共卫生事件舆情评论被文本分类器正确分类的数量;ntotal表示突发公共卫生事件舆情评论的总数量。损失函数(Loss function)一般指单个训练样本预测值与真实值之间的误差,在模型不存在过拟合的情况下,损失函数 Loss 值应该越小越好。损失函数有很多选择,对于解决多分类工作的情况,可以选择交叉熵损失函数来评价模型的误差情况。交叉熵的公式为:H(p,q)=-ni=1p(xi)logq(xi)其中,p(xi)表示样本的真实分布,q(xi)表示预测分布,n 是总样本个数。2.2.5 对待分类数据进行情感分类 为及时掌握网民对突发公共卫生事件的看
11、法和情感走向,需要对爬取的舆情数据进行快速有效的情感识别和分类。基于上述构建的 TextCNN 模型,对待分类的数据集进行情感区分,本文将网民的情感区分为正面、中立、负面 3 种不同状态。3 实验分析3.1 实验环境本研究数据运行需要的实验环境配置如表 1所示。表 1 实验环境配置实验环境相关配置操作系统Windows10编程语言Python3.9深度学习框架Tensorflow2.7开发工具Anaconda361第 15 期2023 年 8 月无线互联科技网络互联No.15August,20233.2 数据来源本文通过大数据爬虫软件从新闻微博上爬取2020 年和 2021 年的突发公共卫生事
12、件相关新闻的舆情评论数据,通过数据预处理后共得到 27 260 条数据。3.3 模型训练 TextCNN 模型的最佳状态不是唯一的,需要通过训练集数据进行多次实验测试才能确定模型的最佳参数,还需要通过验证集数据对模型的预测准确性进行评价。从原始评论数据中选取 1 200 条舆情评论数据进行情感人工标注,为了使人工标注结果更具代表性,共标注出 1 200 条情感评论(400 条正面评论、400 条中立评论、400 条负面评论),将 1 200 条人工标注情感的数据再次分为训练集数据(720 条)和验证集数据(480 条),将训练集数据代入 TextCNN 模型进行训练后,代入验证集数据进行验证,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 TextCNN 突发 公共卫生 事件 网络 舆情 分类 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。