基于TextCNN的突发公共卫生事件网络舆情分类研究.pdf

上传人：自信****多点

文档编号：2077308

上传时间：2024-05-15

格式：PDF

页数：4

大小：1.43MB

《基于TextCNN的突发公共卫生事件网络舆情分类研究.pdf》由会员分享，可在线阅读，更多相关《基于TextCNN的突发公共卫生事件网络舆情分类研究.pdf（4页珍藏版）》请在咨信网上搜索。

1、第 15 期2023 年 8 月无线互联科技Wireless Internet TechnologyNo.15August,2023基金项目:贵州省教育厅青年科技人才项目;项目名称:基于深度学习的突发公共卫生事件网络舆情分类技术研究;项目编号:黔教合 KY 字2021249。贵州省科技厅基础研究计划(自然科学)项目;项目编号:黔科合基础-ZK2022一般 331。作者简介:袁琼芳(1990),女,贵州贵阳人,讲师,硕士;研究方向:网络舆情与统计分析。基于 TextCNN 的突发公共卫生事件网络舆情分类研究袁琼芳,张志强(贵州师范学院数学与大数据学院,贵州贵阳 550018)摘要:近年来突发

2、公共卫生事件引起了网民大规模的舆情讨论,新浪微博是很多主流媒体发布实事热点新闻的重要平台,更是聚集了众多网友的舆情讨论。文章以突发公共卫生事件网络舆情为研究对象展开研究,具体步骤包括新浪微博热点舆情文本数据采集和预处理、TextCNN 卷积神经网络文本分类模型的训练和验证、TextCNN 模型对突发公共卫生事件网络舆情情感分类 3 个部分。通过新浪微博突发公共卫生事件案例数据,验证了 TextCNN 卷积神经网络文本分类模型可以快速准确地实现网络舆情情感分类,研究成果可为政府相关部门快速判断公众舆情情感、对网络舆情进行有效监控等方面提供一定参考借鉴。关键词:突发公共卫生事件;新浪微博;Text

3、CNN;舆情分类中图分类号:TP391 文献标志码:A0 引言突发公共卫生事件是近年来热点比较高的新闻事件,非常容易引起社会公众的关注和大面积的网络舆情讨论,这类舆情次生舆情爆发风险高,需要政府和相关部门具备全面的应急管理和舆情识别的技能。传统舆情情感分类技术在面对海量文本数据识别中存在速度慢、准确率低、成本高等问题,深度学习是近年来舆情情感分类的热点技术,可以快速准确低成本地对海量舆情进行情感分类。TextCNN 是 Kim1在2014 年提出的文本分类模型,该模型将深度学习CNN 推广应用到文本分类领域。基于上述背景,本文采用 TextCNN 模型对突发公共卫生事件网络舆情分类工作展开相

4、关研究。1 相关文献概述深度学习在网络舆情情感识别方面的研究和应用是国内学者近年来研究的热点。邓磊等2搭建了基于深度学习的网络舆情监测系统框架;李芳等3设计了深度语义框架,构造自媒体网络舆情情绪分类模型,并在开放数据集中进行了实证研究;邵辉4提出了 BERT-TextCNN 网络模型,并将该模型用于外卖中文评论数据集上进行情感分析;董晨5提出了基于深度学习算法的改进 TextCNN 分类模型且对新闻短文本数据进行了准确情感分类;彭清泉等6提出了基于ChineseBERT-BiSRU-AT 的医疗文本分类模型,并对医学影像报告文本数据集进行了实验。2 研究设计2.1 研究思路突发公共卫生事件

5、发生后,新浪微博等互联网平台上充斥着社会公众对突发公共卫生事件的各种舆情信息,如何对海量舆情数据进行快速识别和有效引导是政府和相关企业工作的重要内容。本文的研究思路如图 1 所示。(1)突发公共卫生事件在新浪微博平台上相关网络舆情的数据采集和数据预处理。(2)TextCNN 卷积神经网络文本分类模型对训练集数据进行训练和对验证集数据进行验证。(3)运用调试好的 TextCNN 模型对待分类海量数据集进行舆情情感分类。2.2 研究步骤2.2.1 数据采集新浪微博是社会公众关注了解突发公共卫生事件新闻和发展趋势的主要平台,由此新浪微博上聚集了大量网民关于突发公共卫生事件的舆情讨论,也由此产生了大

6、量的网络舆情数据。本文研究过程中通过相关爬虫工具从新浪微博平台爬取网民评论的舆情数据,将数据进行整理后形成待分类舆情数据集。2.2.2 数据预处理研究中采集得到的数据较多,很多是重复无效的261第 15 期2023 年 8 月无线互联科技网络互联No.15August,2023图 1 研究思路评论,首先进行文本清洗,可通过 Excel 和 Python 对原始数据进行重复值删除、缺失值删除、数据合并与整合等文本清洗操作;文本清洗之后通过 Python 的jieba 对评论文本数据进行中文分词、去停用词、统计词频操作;最后将中文分词后的每个词映射到一个数值索引,再通过字典将文本分词后的序列转为

7、数值索引的序列。本文实验过程中转换时统一序列长度为20,以便输入模型,不满 20 长度的填充 0,0 对应补全字符,此时数据预处理阶段的数值序列输入构造完成。2.2.3 TextCNN 模型 TextCNN 模型针对舆情文本分类和情感识别工作都能够得到比较准确的结果,该模型经过以下 4 个步骤完成。(1)输入层。输入层的关键问题在于文本表示。本文研究中将数据预处理阶段处理后的数值序列导入模型,通过Embedding 层,初始化权重使用 Baidu Encyclopedia 百度百科中文词向量(300 维)7,将每个词表示成一个向量,此时数值序列转化为 20300 的矩阵向量。(2)卷积层。卷积

8、层中涉及多个超参数的设置,需要在具体实验任务中尝试才能得到最优的卷积效果,本文研究中对卷积层的参数调试后设置如下:卷积核数量(卷积中滤波器数量)设置为 256,卷积核大小设置为 3,激活函数设置为 relu,初始化权值 he_normal,strides 设置为 1。卷积操作之后将输入层向量转变成 18256的卷积特征矩阵。(3)池化层。池化层(Pooling)的主要作用是通过一定处理来减少模型参数个数,且在该过程中可以有效地防止模型出现过拟合现象。Pooling 的方法很多,本文研究中选择的是全局最大池化 GlobalMaxPool1D,通过GlobalMaxPool1D 操作将卷积层 18

9、256 的特征转化为一维的特征。(4)全连接及输出层。池化层操作之后进入全连接层,通过 Dropout 操作预防模型过拟合,最后通过 Softmax 计算每个情感类别的概率。2.2.4 模型训练与验证 TextCNN 模型基本框架设计出来之后,需要对模型中的参数进行不断调试,以确定最佳模型参数。对此,研究中从原始待分类数据集提取一部分数据(分为训练集和验证集)进行训练和验证。为评估 TextCNN 模型文本情感分类算法的性能,本文选取准确率和损失函数两个指标对模型进行评价。准确率(Accuracy)是指文本分类器判别的所有情绪类别中正确的情绪类别的占比,计算公式为:Accuracy=ncorr

10、ectntotal其中,ncorrect表示突发公共卫生事件舆情评论被文本分类器正确分类的数量;ntotal表示突发公共卫生事件舆情评论的总数量。损失函数(Loss function)一般指单个训练样本预测值与真实值之间的误差,在模型不存在过拟合的情况下,损失函数 Loss 值应该越小越好。损失函数有很多选择,对于解决多分类工作的情况,可以选择交叉熵损失函数来评价模型的误差情况。交叉熵的公式为:H(p,q)=-ni=1p(xi)logq(xi)其中,p(xi)表示样本的真实分布,q(xi)表示预测分布,n 是总样本个数。2.2.5 对待分类数据进行情感分类为及时掌握网民对突发公共卫生事件的看

11、法和情感走向,需要对爬取的舆情数据进行快速有效的情感识别和分类。基于上述构建的 TextCNN 模型,对待分类的数据集进行情感区分,本文将网民的情感区分为正面、中立、负面 3 种不同状态。3 实验分析3.1 实验环境本研究数据运行需要的实验环境配置如表 1所示。表 1 实验环境配置实验环境相关配置操作系统Windows10编程语言Python3.9深度学习框架Tensorflow2.7开发工具Anaconda361第 15 期2023 年 8 月无线互联科技网络互联No.15August,20233.2 数据来源本文通过大数据爬虫软件从新闻微博上爬取2020 年和 2021 年的突发公共卫生事

12、件相关新闻的舆情评论数据,通过数据预处理后共得到 27 260 条数据。3.3 模型训练 TextCNN 模型的最佳状态不是唯一的,需要通过训练集数据进行多次实验测试才能确定模型的最佳参数,还需要通过验证集数据对模型的预测准确性进行评价。从原始评论数据中选取 1 200 条舆情评论数据进行情感人工标注,为了使人工标注结果更具代表性,共标注出 1 200 条情感评论(400 条正面评论、400 条中立评论、400 条负面评论),将 1 200 条人工标注情感的数据再次分为训练集数据(720 条)和验证集数据(480 条),将训练集数据代入 TextCNN 模型进行训练后,代入验证集数据进行验证,

13、epoch 次数会影响模型准确率,对 dropout 参数也做了多次调试,通过实验对比,确认最佳关键参数设置如表 2所示。表 2 模型主要参数设置训练属性参数设置卷积核个数256卷积核的窗口值3基础学习率0.000 1epoch 次数50dropout0.53.4 模型评价模型准确率和损失值会随着 epoch 次数调整发生改变,通过模型训练,当 epoch 次数为 50 时,模型综合效果最优,训练集准确率达到 99.86%,验证集准确率达到 74.17%,训练集损失函数值 0.117 2,验证集损失函数值 0.698 9,具体如图 2 所示。图 2 中,左图的横坐标 epoch 表示模型训练

14、次数,纵坐标 Accuracy 表示准确率;右图的横坐标epoch 表示模型训练次数,纵坐标表示 Loss 损失函数值。3.5 舆情情感分类通过训练集训练得到最优的 TextCNN 模型后对待分类数据集进行情感分类,通过分类结果可以对网民的舆情情感进行判断。4 结语突发公共卫生事件是近年来热点比较高的新闻事件,非常容易引起社会公众的关注和大面积的网络舆情讨论,对网民的情感评判和引导是政府和相关企图 2 不同 epoch 次数对应的模型准确率和损失值变化业工作的重要内容。本文基于 TextCNN 模型对突发公共卫生事件网络舆情进行情感分类,通过网络爬虫工具爬取微博平台上的突发公共卫生事件网络

15、舆情数据,采用人工标注方式挑选出训练集数据和验证集数据,运用 Python 软件代入 TextCNN 模型进行训练测试后得到了较优的分类模型,该模型可以运用到突发公共卫生事件的具体实践分类中。本文的实证成果对政府相关部门快速判断公众舆情走向、把握舆论引导的最佳时机、掌握舆论引导的分寸火候均有一定参考意义。参考文献1KIM Y.Convolutional neural networks for sentence classificationJ.EMNLP,2014:1746-1751.2邓磊,孙培洋.基于深度学习的网络舆情监测系统研究J.电子科技,2022(12):97-102.3李芳,曲豫宾,

16、杨帆.基于深度语义发现的自媒体网络舆情情绪分类模型构J.通化师范学院学报,2022(6):73-79.4邵辉.基于 BERT-TextCNN 的中文短文本情感分析J.信息与电脑(理论版),2022(1):77-80.5董晨.基于改进 TextCNN 短文本分类方法研究J.信息技术与信息化,2022(7):47-49,57.6彭清泉,王丹.基于深度学习的医疗文本分类模型J,电子设计工程,2023(5):51-54.7LI S,ZHAO Z,HU R,et al.Analogical reasoning on Chinese morphological and semantic relations

17、EB/OL.(2018-05-12)2023-05-29.https/arxiv.org/pdf/1805.06504.pdf.(编辑沈强)461第 15 期2023 年 8 月无线互联科技网络互联No.15August,2023Research on network public opinion classification of sudden public health incidents based on TextCNNYuan Qiongfang Zhang Zhiqiang School of Mathematics and Big Data Guizhou Education

18、University Guiyang 550018 China Abstract In recent years sudden public health incidents have caused large-scale public opinion discussions among netizens.Sina Weibo is an important platform for many mainstream media to release practical and hot news and it has also gathered many netizens public opin

19、ion discussions.The research focuses on the online public opinion of sudden public health incidents with specific steps including the collection and preprocessing of hot public opinion text data on Sina Weibo the training and validation of TextCNN convolutional neural network text classification mod

20、el and the classification of network public opinion emotions for sudden public health incidents using TextCNN model.Through the data validation of Sina Weibo public health emergency cases it is verified that the TextCNN convolutional neural network text classification model can quickly and accuratel

21、y realize the classification of online public opinion emotion.The research results can provide some reference for relevant government departments to quickly judge public opinion emotion effectively monitor online public opinion and other aspects.Key words public health emergencies Sina Weibo TextCNN

22、 classification of public opinion(上接第 158 页)Research on preventive measures for computer network security vulnerabilitiesYun Yuanyuan Zhang Anning Yuan Guanglian Jiangsu Golden Shield Detection Technology Co.Ltd.Nanjing 210042 China Abstract With the continuous development of science and technology

23、computer network and our daily life become closely related but the global network security issues are also very tense hackers and anti-hackers destruction and anti-destruction of the struggle in the network all the time such as from the online bank is cloned stolen user funds to worms Trojan horses

24、phishing websites malicious software infestation and so on.Each is extremely harmful.In this context it becomes very important to solve the problem of computer network security vulnerability.This paper firstly summarizes the concept and characteristics of network security vulnerabilities introduces

25、the classification and offensive principles of computer hardware software and operating system security vulnerabilities and finally puts forward the optimization of firewall technology the implementation of server security control establish and improve the relevant network security regulations and other specific strategies which have certain practical significance for preventing computer network security vulnerabilities.Key words network security computer network preventive measures561

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 TextCNN 突发公共卫生事件网络舆情分类研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。