分销赏收藏举报申诉 / 12

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于异构集成学习的多元文本情感分析研究.pdf

基于异构集成学习的多元文本情感分析研究.pdf

上传人：自信****多点

文档编号：2357054

上传时间：2024-05-28

格式：PDF

页数：12

大小：8.17MB

《基于异构集成学习的多元文本情感分析研究.pdf》由会员分享，可在线阅读，更多相关《基于异构集成学习的多元文本情感分析研究.pdf（12页珍藏版）》请在咨信网上搜索。

1、(NATURASCIENCEMay,20232023年5月JOURNALOFNANJINGJNIVERSITYVol.59,No.3第3 期第59 卷南京大学学报（自然科学）DOI:10.13232/ki.jnju.2023.03.010基于异构集成学习的多元文本情感分析研究仲兆满1.2*，熊玉龙，黄贤波1（1.江苏海洋大学计算机工程学院，连云港，2 2 2 0 0 5；2.江苏省海洋资源开发研究院，连云港，2 2 2 0 0 5）摘要：多元文本情感分析旨在对文本表达的情感色彩进行划分，但目前多标签文本情感分类仍然存在数据集类别不平衡、提取特征不充分等问题.为了提高句子级文本的情感分类能力，提

2、出一种基于异构分类器的集成学习方法.基分类器分三种：基于自注意力机制的双向长短期记忆网络算法、基于词嵌人的卷积神经网络算法、基于文本信息熵的朴素贝叶斯算法，通过模糊积分算法确定各基分类器在待分类样本上的分类权重，最大程度地利用各分类器之间的联系与分类结果，实验结果表明，提出的集成学习方法与目前先进的集成模型SentiXGboost,3WD-AdaCNN-SVM相比，各项指标均得到提升，结合欠采样和重采样技术构建的集成分类模型能对类别不平衡文本情感进行准确的分类。关键词：情感分析，集成学习，注意力机制，双向长短期记忆网络，朴素贝叶斯，信息熵中图分类号：TP391文献标志码：AResearch o

3、n multivariate text sentiment analysis based onheterogeneous ensemble learningZhong Zhaomanl.-*,Xiong Yulong,Huang Xianbol(1.School of Computer Engineering,Jiangsu Ocean University,Lianyungang,222005,China;2.Jiangsu Academy of Marine Resources Development,Lianyungang,222005,China)Abstract:Multivaria

4、te text sentiment analysis aims to classify the sentiment color expressed by text,but current multi-labeltext sentiment classification stil suffers from unbalanced dataset categories and inadequate extracted features.In order toimprove sentence-level text sentiment classification,this paper proposes

5、 an ensemble learning method based on heterogeneousclassifiers,and the base classifiers are classified into three types:bidirectional long-and short-term memory network algorithmbased on a self-attention mechanism,convolutional neural network algorithm based on word embedding,and Naive Bayesianalgor

6、ithm based on text information entropy.The classification weights of each base classifier in samples to be classified aredetermined by the fuzzy integration algorithm,and the connection between each classifier and the classification results areutilized to the maximum extent.Experimental results show

7、 that the ensemble learning method proposed in this paper isimproved in all indexes compared with the current advanced ensemble models SentiXGboost and 3WD-AdaCNN-SVM,andthe constructed ensemble classification model combined with undersampling and resampling techniques effectively classify thecatego

8、ry imbalanced text sentiment acurately.Key words:sentiment analysis,ensemble learning,attention mechanisms,bidirectional long short-term memory networks,Naive Bayesian,Information entropy文本情感分析主要是对文本的情感极性（积极、消极和中性）进行自动分类、对带有感情色彩的主观性文字进行研判的过程。分析这些蕴含情感的评论可以很好地应用在舆情监控、意见挖掘基金项目：国家自然科学基金（7 2 17 40 7 9），江

9、苏省“青蓝工程优秀教学团队基金（2 0 2 2-2 9）收稿日期：2 0 2 2 一12-0 3*通讯联系人,E-mail:472第59 卷南京大学学报（自然科学）搜索排名等领域1-2 ,高效精准地提取文本表达的情感已成为当前产业界和学术界的迫切需求，也是目前自然语言处理（Natural Language Pro-cessing,NLP)领域的一个研究热点.早期的文本情感分析主要是基于规则与机器学习的方法3.基于规则的方法依靠人工搭建情感词典，对文本的情感词进行规则匹配，但该方法受限于情感词典的质量，需根据领域需求构建高质量的词典，扩展性差4.基于传统机器学习的方法需要使用语料库训练分类模型

10、，优点是具有强大的多特征建模能力，但需要人工构建特征,模型泛化能力不强5.近年来，深度学习在NLP领域成为重要的研究工具，卷积神经网络（Convolu-tional Neural Network,CNN）和长短期记忆网络(Long Short-Term Memory Networks,LSTM)是NLP领域应用较广泛的两种神经网络模型6-7 .CNN通过不同大小的卷积核能有效获取文本的局部特征,Kim andKiml8第一次将CNN应用到文本分类任务中，在众多数据集中取得了高效的结果.CNN虽然可以有效地捕获局部信息，但无法获得句子的长序列依赖关系，使用LSTM可以弥补这一缺陷.Zhuetal

11、l9使用LSTM解决了评论语句情感长距离依赖问题.预测任务可能需要由前面若干输人和后面若干输入共同决定，这样会更准确,Bidirectional-LSTM(BiLSTM)可以更好地完成上述任务.PavanandJayagopal10提出基于上下文敏感词典的BiLSTM,在不平衡文本情感分类上取得了很好的效果.虽然上述神经网络在情感分类中取得了较好的效果，但均未在网络中添加注意力机制（AttentionMechanism），因而不能使分类器在识别时集中于部分重要特征.注意力机制源于对人类视觉的研究，可以使神经网络在进行识别时更关注高特征词汇，使识别更准确.Graves and Schmidhub

12、erl1提出基于注意力机制的BiLSTM来解决NLP中的复杂语义问题.Huddaretal12提出一种新的基于注意力机制的多模态语境融合策略，使用BiLSTM结合注意力机制从文本中提取重要的语境信息值得注意的是，以上情感分类器不仅有各自的优点，也有各自难以克服的弊端，如何应用这些优秀的分类器是一个新问题13.集成学习是一种新的机器学习范式，它联合多个基分类器来解决同一个问题，能显著地提高分类系统的泛化能力14.使用集成学习来联合多种分类器进行分类任务可以避免单一分类器的弊端，使集成模型达到扬长避短的效果15-16 ,显著提高分类性能.本文提出一种基于异构分类器的集成学习模型，以提升情感分类性能

13、为目标,从获取高区分度的子词列表和联合多分类器的分类结果两个方面开展理论和实验研究工作.本文的主要创新：（1）提出基于文本信息熵的朴素贝叶斯(NaiveBayesian）模型作为集成学习模型的基分类器之一，定义文本信息熵，从文本类别间和文本类别内两个角度综合度量文本包含的词汇对文本类别区分的贡献度.根据贡献度的大小实现对n-gram低区分度子词的过滤，产生高贡献度子词列表，使朴素贝叶斯的模型达到较高的分类性能。(2)提出 SelfAttention-BiLSTM,CNN 以及基于文本信息熵的朴素贝叶斯三种模型相结合的异构集成学习模型，创新性地使用模糊积分的方法确定各分类器在各待分类样本上的分类

14、权重，最大化地利用各个分类器的分类结果，最终得到待分类文本的具体类别.1相关工作1.1集集成学习方法简述集成学习是机器学习的重要组成部分，通过组合多个性能相似的模型，使整体模型具有更高的识别准确率和稳定性17 .常见的集成学习方法包括Bagging，A d a Bo o s t 和Stacking.1989 年Dasarathy and Sheela18的工作是集成模型的最早案例之一，提出了结合多个分类器的复合分类器系统的概念.Zhangetal19利用多个神经网络的集合来提高分类性能.集成学习方法通常根据基分类器的多样性分为同构和异构.通过结合分类器与相似算法来建立同构集成模型，Baggin

15、g和AdaBoost是最著名的同构集成学习方法.异构集成模型结合不同的分类器2 0 ，如Stacking就是一种异构集成学习方法，在基层结合不同的分类器，在下一层使用元分类器方法2 1.Bagging和Stacking由于其集成机制，适用于基模型较多的场景.Bagging方法也常用于构建在线评论情感分类集成模型2 ,但只适用于基473仲兆满等：基于文本情感分析研究异构集成学的多第3期分类器较多的情况，否则投票方式会导致模型整体不稳定.本文使用的集成模型是基于Stacking思想建立的异构集成分类模型。1.2集成学习在文本情感分析方面的应用情感分析作为NLP领域的重要任务，旨在判断文本的情感极性

16、对于如何提高情感分类算法的准确性这一问题，WanandGao23基于朴素贝叶斯、支持向量机（SupportVectorMachine,SVM)24、贝叶斯网络2 5 和C4.5决策树2 6 等多种分类方法的多数投票原则，提出一种集成的情感分类策略，在推特数据集取得了较好的分类效果.Wang etal27用五种基分类器证明集成学习能够作为一种可行的方法用于情感分类因为强分类器已经在情感分类任务中取得了较好的效果，所以目前的集成技术大都针对弱分类器设计，如何将强分类器应用到集成学习并发挥其优势成为当前的研究热点.Zhangetal28针对强分类器提出一种序贯三支决策（Sequential Thre

17、ew a y D e c i s i o n，S3WC)的成本敏感的集成模型，通过将目标分为正区、负区和边界区来减少错误分类代价，使总成本低于其他的集成组合技术，如多数表决、加权平均等，但该方法没有使用同构基分类器和异构基分类器进行扩充实验.LiangandYi29借助三支决策（Three-wayDecision,3WD)方法集成CNN模型和传统机器学习的方法对文本进行两次分类，对类别模糊文本的分类效果较好.随着微博服务的兴起，微博情绪分类在舆论监测、商品评估和市场预测等领域得到了大量的研究和应用，集成学习方法以其优异的性能在微博情感分类方面得到了一定的关注，Yeetal301采用局部融合和全

18、局融合的集成学习方法进行微博情感分类，在局部融合阶段利用原始特征拼接构造基分类器组合，并将这些分类器组合在全局阶段进行整合，但未能在集成模型中加入深度学习的方法，导致模型构造单一，微博文本较短，很难使用上下文模型将其联系在一起，针对这一问题，Zhuetal31在微博情感分析中加人历史用户信息来缓解上下文稀疏问题，并通过大量的实验证实其可行性.尹鹏博等32 提出一种基于异构深度学习的集成模型，通过二次训练的方式将不同的深度学习分类器组合起来，对微博谣言的检测效果很好，但未能将机器学习的强大表征能力加入模型.HamaandDimililer33将多个基分类器（弱学习者)组合成一个集成分类器，并结合

19、特征集的方式有效改善了社交媒体的情感分类问题.综上，现有的基于集成学习的多元情感分类模型存在基分类器相似度高、未能充分利用各分类器的优点以及在短文本分类上表现不佳等端，本文认为判断集成学习算法是否具有良好的性能，可以从五个方面人手：（1)模型是否具有结合上下文的能力，能学习到多大范围的上下文；（2）模型是否包括注意力机制，能否聚焦高特征词汇；（3）模型是否具有记忆力，能否记忆词汇顺序信息；（4)各个基分类器权重的划分能否联系各个分类器的相互关系；（5)能否解决多元情感数据集类别不平衡问题。本文基于这五个方面开展模型建立工作.2模型介绍2.1模型概述本文提出一种基于异构分类器的集成学习模型，首先

20、确定基分类器在分类问题中的核心地位，其性能对文本分类的效果起决定性作用.将已经训练好的多个分类器同时用于分类可以取长补短，获得更好的分类效果.选择的第一种情感分类器为SelfAttention-BiLSTM模型，由于重要的信息可能出现在句子的任何位置，可以利用BiLSTM模型获得文本的特征与长距离依赖，通过自注意力机制计算特征的重要性来获得句子中的语义信息.第二种文本情感分类器为CNN,利用不同大小的卷积核来获取文本的不同特征，使用CNN学习文本的构造特征和语义特征.第三种文本情感分类器为基于文本信息熵的朴素贝叶斯方法，创新性地提出文本类别内和文本类别间嫡值来筛选最大特征子词，结合朴素贝叶斯对

21、待分类文本进行分类，通过模糊积分的方式确定各分类器在每个待分类文本上的权重系数，最大程度地利用各分类器的分类结果，针对多元数据集类别不平衡问题，使用随机欠采样和随机过采样方法处理数据集，最大程度地提高模型的分类效果.整体模型如图1所示.2.2SelfAttention-BiLSTM模型情感分析任务中的输入序列具有时间特征，BiLSTM可以联474第59 卷南京大学学报（自然科学）基分类器训练模糊积分融合机制Machine Learning数据收集数据预处理待分类文本数据n-gram取词输入数据清洗爬取基于文本信息炳的朴素贝叶斯文本筛选去除预测类别停用词厂Deep Learning分词BERTW

22、ordEmbedding标注SelfAttention-CNNBiLSTM图1本文模型的总体框架Fig.1Thegeneral framework of ourmodel系文本的上下文和捕捉双向语义依赖来实现对信息的过滤.BiLSTM构造了两个LSTM神经网络，从两个相反的方向获取信息，更有利于从整体上记忆句子的长依赖关系以及文本的深层次语义表达.对于微博短文本数据，采用BiLSTM模型比LSTM模型分类更加准确和有效,BiLSTM的前后两个LSTM网络的结构是一致的.LSTM由三种门构成，即输人门、遗忘门和输出门，通过这三种门来控制信息传递，单一的LSTM的记忆单元在t时刻的前向计算过程如下

23、所示。输人门机制：i,=o(W,h-1,a,+b.)(1)C,=tanh(Weht-1,a,+be)(2)C,=f,X C-1+i,X c,遗忘门机制：fi=o(W,ht-1,a.+b)(3)输出门机制：0,=o(W。h t-1,a,+b.)(4)h,=o,X tanh(C.)其中，W,b.)是神经网络训练的参数集合，C,f,i，0,分别表示t时刻记忆单元的输出单元、遗忘门、输人门和输出门的输出值，ht-1和a,分别表示t时刻上第一个记忆单元以及当前记忆单元的输入，C,表示t时刻记忆单元的内部状态，h，表示t时刻记忆单元的输出BiLSTM模型可以增加文本逆向语义的学习，通过连接正反两个方向的L

24、STM模型输出向量h.,h,作为t时刻的BiLSTM的输出，即上下文的语义关系B,如式（5)所示：B,=,例 (5)BiLSTM考虑文本的时序信息并结合上下文来进行特征分类，但很难捕获不同词汇的重要性和获取细粒度的情感特征.对于微博文本这种复杂且带有多种特殊词语的长句，单独使用Bi-LSTM模型不一定能准确地获取特征信息.针对这个问题，考虑到自注意力机制可以在文本关键信息上分配足够的关注度，聚焦重要信息，故选用SelfAttention-BiLSTM算法作为基分类器之一.自注意力机制函数attention(Q,K，V）的本质可以被描述为一个查询（query）一系列键值对（key-value)的

25、映射,如式（6)所示：QKTattention(Q,K,V)=softmaxV(6)其中，Q,K,V均为向量形式，且QERxd,KERxd,VERnxd,d表示Q,K的维度.d起调节的作用，控制Q和K的内积不太大自注意力机制就是在序列内部寻找文本的联系，在词语层面添加自注意力机制可以得到一段文本内不同词语的重要性，模型如图2 所示，首先将文本词汇向量输入BiLSTM,BiLSTM输出每个时间步的词向量序列输出（O)与最后时刻的HiddenStates(H).注意力权重向量设置为Watetion使用注意力机制计算句子向量（V），计算步骤如式（7)和式(8)所示：Wattention=OXH(7)

26、V=WXO(8)得到句子向量V后，通过全连接层和Softmax函数输出待分类文本所属各个类别的概率2.3基于文本信息炳的朴素贝叶斯模型朴素贝叶斯分类器（NaiveBayesClassifier）建立在全类别内N个样本中出现的次数为（S1,S2,.,S在各个类别中出现的次数为g1,g2,gk),在ck本),词语0J1，C 2，475仲兆满等：基于文本情感分析研究异集成字的多第3期Softmax分类个全连接层句子向量注意力权重（W）词向量序列输出（O）HiddenStatesLForwardLSTMLSTMLSTMLSTMLSTMLSTMLSTMBackward LSTM词向量W。WIW2W3W4

27、Ws文本你们是最可爱的人图2BiLSTM-Attention模型框架Fig.2Theframework of BiLSTM-Attention model概率公式”的基础上，是一种基于统计的概率模型算法，文本分类中，该算法认为文本中词语之间的关系是统计独立的，即每个文本的特征向量中的每个维度都是相互独立的.其定义为：设一(a1,a2,am)为一个待分类文本,每个a,为的一个特征属性,类别集合C=y1,J2，,J,计算P(yi|a),P(y2|a),P(y|a),令 P(y|)=max(P(yi|),P(y2z),P(yla).计算条件概率就是找到一个已知分类的待分类项集合，即训练集，计算训练集

28、数据得到各个类别下各个特征属性的条件概率估计，设各个特征属性条件独立，根据贝叶斯定理，计算如式（9)所示：P(ly.)）=(9)P()由式（9)可推出极大后验概率，得到待分类文本的最大可能性类别，如式（10）所示：P(ly:)P(y:)=P(al y.)P(a2/y.).P(amly.)P(y.)=(10)P(y.)IIp(a,ly.)本文提出基于文本信息熵的朴素贝叶斯算法首先，使用文本信息熵将找出的文本的高特征且具有区分能力的情感词汇，提取出来后再与朴素贝叶斯模型结合，提升文本分类效果。文本信息熵从文本类别间和文本类别内两个角度得到一个词语对文本类别的区分能力，再得到针对该突发事件语料库的高

29、区分能力词汇列表：通过设置文本信息阈值获取领域情感词汇集合，对高区分能力词汇进一步判断极性和分配权重即可得到突发事件领域情感词典.文本信息熵的原理基于信息熵（InformationEntropy）.信息摘是一个系统内信息含量不确定性程度的量化指标，假设任意概率事件发生时产生n种相互独立结果的概率分别为p（)i=1,2,n),那么事件的信息熵H（)可按式(11)计算：H()=-Zp()lg(p()(11)由式(11)可知，信息熵是一个概率事件所含信息量多少的数学期望.若该事件产生某种结果的不确定性程度越高，表明该事件所含的信息量越小，信息熵H（)随之减小，反之则增大.根据信息熵的原理，定义文本信

30、息熵在类别间与类别内的计算原理如下，假设其语料库右K个米定义1词语类别间信息H（）主要用于在不同的类别之间衡量词语W对类别的区分能力词语W在各类别中的概率分布较均匀，表明该词语对类别区分的能力较小，否则表示区分能力较大由信息熵的定义可知，词语类别间信息熵的大小应与式（11)中信息熵的值成反比，其计算如下：1Hi(w)=(12)gkgk=1GGgk其中表示词语在各类别间的概率分布，G为G词语w在各类别间出现的次数，记为G=Kgk.k=1定义2词语类别内信息H（）主要用于从相同的类别内来衡量词语W对类别区分能力的大小与词语类别间信息相反的是，词语w在类别内的概率分布较均匀，表明该词语有较大的类别区

31、分能力，否则区分能力较小.词语类别内信息熵的大小与式（11)中信息熵的值成正n=I476第59 卷南京大学学报（自然科学）比，其计算如下：H(w)=-2Sn(13)77其中表示词语w在某一类别c中的概率分布；SS为词语w在该类别内出现的总次数，记为S定义3文本信息熵HE（w）结合式（12）与式（13），得到词语的文本信息熵的定义HE（),根据文本信息嫡值的大小，可以得到具有高类别区分能力的词汇集合：HE(w)=H(w)*H2(w)(14)由以上分析可知，文本信息熵的定义以及计算设计适用于度量n-gram子词对于文本类别区分的贡献度.实现对低类别区分贡献度子词的过滤，可以得到具有高类别区分能力的

32、情感词汇集合，再联合使用朴素贝叶斯得到待分类文本所属各类别的概率，从而得出待分类文本类别.整体模型框架如图3所示.待分类文本（预处理后）对每个类别计算p()n-gram取词，计算词得到p(xyp()的汇文本信息商计算每个特征属性所有划最大项值，作为分的条件概率p(xly)待分类文本的类别确定信息阈值，形成高类别区分度子词列计算每个类别p(xy,)p(y)表，生成训练样本集图3基于文本信息炳的朴素贝叶斯模型Fig.3Naive Bayesian model based on text information2.4卷积神经网络CNN最初用于处理图像问题，但在自然语言处理中，使用CNN进行文本情感分

33、类也得到了很好的应用.文本中的每个词都可以用一个行向量来表示，一句话可以用一个矩阵来表示，然后使用CNN中的卷积层提取文本数据的局部特征，CNN的卷积层通过大小不同的卷积核来提取不同的局部特征.假设句子包含个词(ai,a,am),a,ER是句子中第i个词,k代表每个词由k维向量表示，卷积核wERxk与ai+n-1(n个词）进行卷积操作，再使用激活函数得到对应的特征si,如式(15)所示：s,=f(wXai+n-1+b)(15)其中，f为激活函数，6 为偏置.在训练神经网络时输入神经元线性组合，通过激活函数完成非线性映射.采用Relu函数作为激活函数来加快模型的收敛速度,Relu函数的表达如式(

34、16)所示：f()=max(0,)(16)通过卷积核“对输人数据进行卷积，可以得到特征图S,如式（17)所示：S=51,2,*,sm=+1(SER-+1)(17)CNN池化层在特征图S的基础上提取具有明显特征的情感表达词汇，然后使用全连接层进行最终的概率分类.2.5楼模糊积分在进行分类器组合时，加权平均是一种常用的方法，但在许多实际应用中，若干个分类器之间不是相互独立的，而是存在交互影响.模糊积分是分类信息融合过程中常用的一个融合算子.将分类器之间的交互影响考虑进来，能提高融合系统的分类精度，增强系统的容错性.Sugeno34提出的模糊积分原理是建立在模糊测度35 上的概念，模糊测度可以表达分

35、类器间的交互作用，这里的交互作用目前不能确定为统计学中的相关性，但可以理解为分类器融合过程中分类器间的相互影响和任意组合表达的重要性，模糊测度是一个非负非可加集函数，其非可加性恰恰可以用来描述分类器之间的交互作用.基于模糊积分的多分类器融合方法是一种扩展的加权平均法，根据分类器输出和对应的模糊测度来动态地输出整体集成的结果，使集成分类器获得比最优的单个分类器更好的性能.在基于模糊积分的多分类融合系统中，需要分类器输出的是非负实数向量，范围为0,1,对于一个n分类问题,分类器的输出是非负实数值的n维向量，第i个分类器的输出形式为d.1,di.2,di,表示第i个分类器判定待识别样例属于某个类n,

36、的概率,其中di.,E0,1(j=1,2，,n).把所有子分类器作为一个集合，记作D=（D 1,D 2，,D L),为每一类n在集合D的幂集上定义模糊测度ui.接下来使用模糊积分来综合分析各个分类器对未识别样本的输出，得出未识别样本最终可能属于某个类别的程度值eie,也可被理解为是某种类别的概率，计算样例属于类别n，的可能性时，把第i个分类器的输出d.1,di.2,d,看作集合D上的函数fi.使用Sugeno积分36 计算f关于模糊测度的477仲兆满等：基于文本情感分析研究第3期模糊积分，即求积分器e，的值，如式（18)所示：e;=fidu(18)系统把最大可能性对应的类作为待分类文本的分类结

37、果，如式（19）所示：n;=argmax(19)1in模糊积分算法的流程如下所示算法模糊积分融合多分类器流程输入：分类器个数I，分类类别数n，分类器在待分类文本上的分类概率值矩阵di1,d.2,d.,输出：待分类文本类别.1.子分类器作为一个集合，记作D=(D1,D2，,D L）2.为每一类n，在集合D的幂集上定义模糊测度u3.将第i个分类器的输出d.,di.2,d,看作集合D上的函数f.4.计算f关于模糊测度的模糊积分，使用Sugeno积分e;=fidus,求得e,的值.5.n;=arg(max(e)），求得n，的最大值，即为待分类1in文本对应的类别.2.6不平衡数据分类策略多元情感分类往

38、往是少数几类情感占主要部分，为了获取更优的分类性能，分类器会倾向多数类而忽视少数类，导致分类效果降低.本文利用过采样和欠采样对原本分布不平衡的数据进行调和，使分布趋于平衡，具体操作如下，（1)过采样：过采样通常对少数类样本进行处理，通过重复采样或合成新的少数类样本来增加少数类样本数量，提高分类器对少数类的识别度，提升算法的分类性能.本文使用的过采样方法是随机过采样，即随机重复复制少数类样本，(2)欠采样：欠采样通常对多数类样本进行处理，在多数类样本中选择与少数类样本数量大概一致的样本，再与所有少数类样本结合组成平衡数据集本文使用的是随机欠采样，2.7投票法投票法是一种遵循少数服从多数原则的集成

39、学习模型，通过多个模型的集成来降低方差，提高分类模型的鲁棒性，理想情况下投票法的预测效果优于任何一个基模型的预测效果.投票法可分为回归投票法与分类投票法，分类投票法又可以被划分为硬投票（HardVoting）与软投票（SoftVoting）.硬投票法的预测结果是所有投票结果中出现最多的类，软投票法的预测结果是所有投票结果中概率加和最大的类由于软投票法考虑了预测概率这一额外的信息，可以获得比硬投票法更准确的预测结果.软投票法可以认为是加权投票法的一个特例，即各分类器的权重W均为1.软投票法可以先为每个弱学习器分配权重，将学习器预测的概率乘以学习器的权重再取平均，然后导出平均概率最高的类标签，作为

40、该测试数据的标签软投票法的具体计算过程如表1所示.假设有三个训练好的分类器，并且要被分类的问题是一个三分类问题，给每个分类器分配的权重W都为1.观察表1可见，每一列每个分类器的预测概率和为1,如分类器1对三种类别预测的概率为0.2,0.5,0.3，它们的和为1.在此基础上各分类器乘以事先分配好的权重，最后计算每个类别的加权平均.如类别1的结果由（Wi0.2+W,0.3十W：X0.4)/3计算得出，加权平均后的计算结果最大的是0.5，所以该测试数据的标签为2.表1车软投票的计算过程Table 1 The calculation process of soft voting分类器分类器1分类器2分

41、类器3结果类别1WiX0.2W2X0.3W:X0.40.3类别2WiX0.5W2X 0.6W2X 0.40.5类别3WiX0.3W2X0.1W:X0.20.23实验过程、结果与分析3.1数据集及数据预处理实验使用了两个数据集，第一个是由中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的SMP2020微博情绪分类技术测评比赛提供的微博评论数据。本文使用其提供的通用数据集，每个主题被标记了积极、愤怒、恐惧、悲伤、惊奇和中性六类情感，其中积极、愤怒、中性占数据的主要部分.第二个是从新浪微博爬取的2 0 2 1年部分扬州疫情评论数据集，时间区间为2 0 2 1年7 月30 日至2 0 2 1年8

42、月30日，共计两万条微博评论文本.筛选其中部分语料资源并用人工标注微博评论文本的情感极性，得到30 0 0 条情感分类文本，包括积极、愤怒、478第59 卷南京大学学报（自然科学）恐惧、悲伤、惊奇和中性六类情感.两个数据集的总体分布如图4所示。两个数据集均含有大量噪声，需要对语料进行预处理以便后续的应用操作，具体操作包括去除用户名，去停用词、特殊符号等.使用jieba分词对文本进行分词，使用Bert预训练模型训练词向量模型，词向量维度为30 0,训练批次大小（batch-size)为6 4,Dropout设置为0.2.训练集与测试集的比重为0.2:0.8，优化器为Adam，学习率为1e一5.

43、对于CNN模型，卷积核设置为5.对基于文本信息的贝叶斯模型，使用2-gram进行文本的分词与输入数据集的部分实例如表2 所示。3.2评价指标采用Macro_F1和准确率(Accu-racy)作为评价指标.与二分类相同，准确率为预120009802.9666(a)SMP微博评论数据集10000800072096000563940002283200017750积极愤怒恐惧悲伤惊奇中性2000(b)扬州疫情微博评论数据集1500126110005365004274322161280积极愤怒恐惧悲伤惊奇中性图4两个数据集的情感类别分布Fig.4 Distribution of sentiment ca

44、tegories of the twodatasets测正确的样本占总样本的比例，TP+TNAccuracy=(20)TP+TN+FP+FNMacro_F1的计算如下：TP。P,=TP.+FP.TP。R.=TP.+FN.(21)2 X P.X R。F1。=P.+R。1Macro_F1=-F1.neeEmotionsEmotions=(happy,angry,sad,fear,surprise,neutral)(22)3.3实验分析与讨论设置三组对比模型实验，每种模型均运行30 次，取平均值.第一组为完全训练组，不对数据集进行过采样和欠采样处理，设计对比实验如下：(1)基于文本信息熵的朴素贝叶斯

45、的情感分类,使用2-gram,命名为NBC-IE.(2)普通的朴素贝叶斯模型，使用2-gram，命名为NBC.（3)基于卷积神经网络进行情感分类.（4)基于自注意力机制结合双向长短期记忆网络进行情感分类，命名为SelfAttention-Bi-LSTM.（5)基于SentiXGboost模型33 的情感分类，使用2-gram，基分类器包括朴素贝叶斯、K近邻算法、逻辑回归、随机森林、决策树.其他参数使用文献33 中的默认参数.(6)基于3WD-AdaCNN-SVM模型2 9 的情感表2数据集的实例Table2Examples ofdatasets情感极性SMP微博评论数据集扬州疫情微博评论数据集

46、积极(happy)不管心情怎样低沉，天亮后都是重新开始。#扬州疫情#封城的日子，也要积极向上，加油！愤怒(angry)手机买了12 天就降了30 0，你的手机情怀呢？还是比不了明星的鸡零狗碎的事情.#扬州疫情#自己买的东西冒着雨带回来，要走那么远内心是崩溃悲伤(sad)#扬州疫情#我在的城市受难了。的！做这道菜的心理过程：在菜场看的时候，它们一个个喷着#扬州疫情#深夜看到这张图真的好想哭啊，希望更多的恐惧(fear)水撒欢，买回家洗的时候，它们都害怕地紧闭着甲，人能够关注一下.#扬州广陵区防护服防护口罩短缺#过了太久安逸的生活了，被最近明星的国际大事惊呆了，惊奇(surprise)#扬州疫情#

47、为什么上不了热搜，看人下菜这么严重吗？这是什么节奏？无情绪(neutral)我没有你们与生俱来的自信也可能曾经有过第四次核酸了，疫情快点好起来.#扬州疫情#479仲兆满等：基于异构集成学习的多元文本情感分析研究第3期分类，词向量采用Word2vec，采样数T设置为5，其他参数使用文献2 9 中的默认参数.(7)基于 SelfAttention-BiLSTM,CNN,NBC-IE三种模型的情感分类，使用硬投票法进行模型融合，命名为ANC-H.(8)基于 SelfAttention-BiLSTM,CNN,NBC-IE三种模型的情感分类，使用软投票法进行模型融合，命名为ANC-S.(9)本文提出的基

48、于SelfAttention-BiLSTM,CNN,NBC-IE三种模型的情感分类，使用模糊积分进行分类器的权重分配，命名为ANC-F.第二组为欠采样实验组，在完全训练组的基础上对数据集进行随机欠采样，使多数类的数目趋近少数类别，再使用上述九种模型进行训练，第三组为过采样实验组，在完全训练组的基础上对数据集进行随机过采样，使少数类的数目趋近多数类别，再使用上述九种模型进行训练.完全训练组的模型在测试集上的实验结果如表3所示，由表可见，本文方法在SMP与扬州疫情微博评论数据集上均取了得较好的结果.前三种基分类算法 SelfAttention-BiLSTM,CNN,NBC-IE中,SelfAtte

49、ntion-BiLSTM的效果最好，这主要得益于注意力机制对语句关键性词语的聚焦以及BiLSTM对双向语义依赖的捕捉.NBC-IE的准确率在两个数据集上均取得了超过7 0%的优秀效果，主要是因为通过文本信息得到了对文本分类具有高贡献度的词汇集，加强了贝叶斯模型的分类效果与SentiXGboost，3W D-AdaCNN-SVM,ANC-H,ANC-S和本文 ANC-F五种模型对比，本文方法仅在SMP微博评论数据集上的表现略逊于3WD-AdaCNN-SVM,在扬州疫情微博评论数据集上的表现均优于其他方法，因为基于模糊积分的多分类器融合方法是一种扩展的加权平均法，它根据分类器输出和对应的模糊测度来

50、动态地输出整体集成的结果，使集成分类器获得了比最优的单个分类器更好的性能.3WD-AdaCNN-SVM也取得了不错的效果，该方法借助三支决策并通过SVM对分类结果不确定的文本进行二次分类，可以很大程度地提高分类准确率.软投票法（ANC-S)的效果也要好于硬投票法（ANC-H）,因为硬投票法根据少数服从表3完全训练组的模型在两个数据集上的实验结果Table 3Experimental results of the model under com-plete training group on two datasets扬州疫情SMP微博评论数据集微博评论数据集AccuracyMacro_F1Acc

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于集成学习多元文本情感分析研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。