基于异构集成学习的多元文本情感分析研究.pdf
《基于异构集成学习的多元文本情感分析研究.pdf》由会员分享,可在线阅读,更多相关《基于异构集成学习的多元文本情感分析研究.pdf(12页珍藏版)》请在咨信网上搜索。
1、(NATURASCIENCEMay,20232023年5月JOURNALOFNANJINGJNIVERSITYVol.59,No.3第3 期第59 卷南京大学学报(自然科学)DOI:10.13232/ki.jnju.2023.03.010基于异构集成学习的多元文本情感分析研究仲兆满1.2*,熊玉龙,黄贤波1(1.江苏海洋大学计算机工程学院,连云港,2 2 2 0 0 5;2.江苏省海洋资源开发研究院,连云港,2 2 2 0 0 5)摘要:多元文本情感分析旨在对文本表达的情感色彩进行划分,但目前多标签文本情感分类仍然存在数据集类别不平衡、提取特征不充分等问题.为了提高句子级文本的情感分类能力,提
2、出一种基于异构分类器的集成学习方法.基分类器分三种:基于自注意力机制的双向长短期记忆网络算法、基于词嵌人的卷积神经网络算法、基于文本信息熵的朴素贝叶斯算法,通过模糊积分算法确定各基分类器在待分类样本上的分类权重,最大程度地利用各分类器之间的联系与分类结果,实验结果表明,提出的集成学习方法与目前先进的集成模型SentiXGboost,3WD-AdaCNN-SVM相比,各项指标均得到提升,结合欠采样和重采样技术构建的集成分类模型能对类别不平衡文本情感进行准确的分类。关键词:情感分析,集成学习,注意力机制,双向长短期记忆网络,朴素贝叶斯,信息熵中图分类号:TP391文献标志码:AResearch o
3、n multivariate text sentiment analysis based onheterogeneous ensemble learningZhong Zhaomanl.-*,Xiong Yulong,Huang Xianbol(1.School of Computer Engineering,Jiangsu Ocean University,Lianyungang,222005,China;2.Jiangsu Academy of Marine Resources Development,Lianyungang,222005,China)Abstract:Multivaria
4、te text sentiment analysis aims to classify the sentiment color expressed by text,but current multi-labeltext sentiment classification stil suffers from unbalanced dataset categories and inadequate extracted features.In order toimprove sentence-level text sentiment classification,this paper proposes
5、 an ensemble learning method based on heterogeneousclassifiers,and the base classifiers are classified into three types:bidirectional long-and short-term memory network algorithmbased on a self-attention mechanism,convolutional neural network algorithm based on word embedding,and Naive Bayesianalgor
6、ithm based on text information entropy.The classification weights of each base classifier in samples to be classified aredetermined by the fuzzy integration algorithm,and the connection between each classifier and the classification results areutilized to the maximum extent.Experimental results show
7、 that the ensemble learning method proposed in this paper isimproved in all indexes compared with the current advanced ensemble models SentiXGboost and 3WD-AdaCNN-SVM,andthe constructed ensemble classification model combined with undersampling and resampling techniques effectively classify thecatego
8、ry imbalanced text sentiment acurately.Key words:sentiment analysis,ensemble learning,attention mechanisms,bidirectional long short-term memory networks,Naive Bayesian,Information entropy文本情感分析主要是对文本的情感极性(积极、消极和中性)进行自动分类、对带有感情色彩的主观性文字进行研判的过程。分析这些蕴含情感的评论可以很好地应用在舆情监控、意见挖掘基金项目:国家自然科学基金(7 2 17 40 7 9),江
9、苏省“青蓝工程 优秀教学团队基金(2 0 2 2-2 9)收稿日期:2 0 2 2 一12-0 3*通讯联系人,E-mail:472第59 卷南京大学学报(自然科学)搜索排名等领域1-2 ,高效精准地提取文本表达的情感已成为当前产业界和学术界的迫切需求,也是目前自然语言处理(Natural Language Pro-cessing,NLP)领域的一个研究热点.早期的文本情感分析主要是基于规则与机器学习的方法3.基于规则的方法依靠人工搭建情感词典,对文本的情感词进行规则匹配,但该方法受限于情感词典的质量,需根据领域需求构建高质量的词典,扩展性差4.基于传统机器学习的方法需要使用语料库训练分类模型
10、,优点是具有强大的多特征建模能力,但需要人工构建特征,模型泛化能力不强5.近年来,深度学习在NLP领域成为重要的研究工具,卷积神经网络(Convolu-tional Neural Network,CNN)和长短期记忆网络(Long Short-Term Memory Networks,LSTM)是NLP领域应用较广泛的两种神经网络模型6-7 .CNN通过不同大小的卷积核能有效获取文本的局部特征,Kim andKiml8第一次将CNN应用到文本分类任务中,在众多数据集中取得了高效的结果.CNN虽然可以有效地捕获局部信息,但无法获得句子的长序列依赖关系,使用LSTM可以弥补这一缺陷.Zhuetal
11、l9使用LSTM解决了评论语句情感长距离依赖问题.预测任务可能需要由前面若干输人和后面若干输入共同决定,这样会更准确,Bidirectional-LSTM(BiLSTM)可以更好地完成上述任务.PavanandJayagopal10提出基于上下文敏感词典的BiLSTM,在不平衡文本情感分类上取得了很好的效果.虽然上述神经网络在情感分类中取得了较好的效果,但均未在网络中添加注意力机制(AttentionMechanism),因而不能使分类器在识别时集中于部分重要特征.注意力机制源于对人类视觉的研究,可以使神经网络在进行识别时更关注高特征词汇,使识别更准确.Graves and Schmidhub
12、erl1提出基于注意力机制的BiLSTM来解决NLP中的复杂语义问题.Huddaretal12提出一种新的基于注意力机制的多模态语境融合策略,使用BiLSTM结合注意力机制从文本中提取重要的语境信息值得注意的是,以上情感分类器不仅有各自的优点,也有各自难以克服的弊端,如何应用这些优秀的分类器是一个新问题13.集成学习是一种新的机器学习范式,它联合多个基分类器来解决同一个问题,能显著地提高分类系统的泛化能力14.使用集成学习来联合多种分类器进行分类任务可以避免单一分类器的弊端,使集成模型达到扬长避短的效果15-16 ,显著提高分类性能.本文提出一种基于异构分类器的集成学习模型,以提升情感分类性能
13、为目标,从获取高区分度的子词列表和联合多分类器的分类结果两个方面开展理论和实验研究工作.本文的主要创新:(1)提出基于文本信息熵的朴素贝叶斯(NaiveBayesian)模型作为集成学习模型的基分类器之一,定义文本信息熵,从文本类别间和文本类别内两个角度综合度量文本包含的词汇对文本类别区分的贡献度.根据贡献度的大小实现对n-gram低区分度子词的过滤,产生高贡献度子词列表,使朴素贝叶斯的模型达到较高的分类性能。(2)提出 SelfAttention-BiLSTM,CNN 以及基于文本信息熵的朴素贝叶斯三种模型相结合的异构集成学习模型,创新性地使用模糊积分的方法确定各分类器在各待分类样本上的分类
14、权重,最大化地利用各个分类器的分类结果,最终得到待分类文本的具体类别.1相关工作1.1集集成学习方法简述集成学习是机器学习的重要组成部分,通过组合多个性能相似的模型,使整体模型具有更高的识别准确率和稳定性17 .常见的集成学习方法包括Bagging,A d a Bo o s t 和Stacking.1989 年Dasarathy and Sheela18的工作是集成模型的最早案例之一,提出了结合多个分类器的复合分类器系统的概念.Zhangetal19利用多个神经网络的集合来提高分类性能.集成学习方法通常根据基分类器的多样性分为同构和异构.通过结合分类器与相似算法来建立同构集成模型,Baggin
15、g和AdaBoost是最著名的同构集成学习方法.异构集成模型结合不同的分类器2 0 ,如Stacking就是一种异构集成学习方法,在基层结合不同的分类器,在下一层使用元分类器方法2 1.Bagging和Stacking由于其集成机制,适用于基模型较多的场景.Bagging方法也常用于构建在线评论情感分类集成模型2 ,但只适用于基473仲兆满等:基于文本情感分析研究异构集成学的多第3期分类器较多的情况,否则投票方式会导致模型整体不稳定.本文使用的集成模型是基于Stacking思想建立的异构集成分类模型。1.2集成学习在文本情感分析方面的应用情感分析作为NLP领域的重要任务,旨在判断文本的情感极性
16、对于如何提高情感分类算法的准确性这一问题,WanandGao23基于朴素贝叶斯、支持向量机(SupportVectorMachine,SVM)24、贝叶斯网络2 5 和C4.5决策树2 6 等多种分类方法的多数投票原则,提出一种集成的情感分类策略,在推特数据集取得了较好的分类效果.Wang etal27用五种基分类器证明集成学习能够作为一种可行的方法用于情感分类因为强分类器已经在情感分类任务中取得了较好的效果,所以目前的集成技术大都针对弱分类器设计,如何将强分类器应用到集成学习并发挥其优势成为当前的研究热点.Zhangetal28针对强分类器提出一种序贯三支决策(Sequential Thre
17、ew a y D e c i s i o n,S3WC)的成本敏感的集成模型,通过将目标分为正区、负区和边界区来减少错误分类代价,使总成本低于其他的集成组合技术,如多数表决、加权平均等,但该方法没有使用同构基分类器和异构基分类器进行扩充实验.LiangandYi29借助三支决策(Three-wayDecision,3WD)方法集成CNN模型和传统机器学习的方法对文本进行两次分类,对类别模糊文本的分类效果较好.随着微博服务的兴起,微博情绪分类在舆论监测、商品评估和市场预测等领域得到了大量的研究和应用,集成学习方法以其优异的性能在微博情感分类方面得到了一定的关注,Yeetal301采用局部融合和全
18、局融合的集成学习方法进行微博情感分类,在局部融合阶段利用原始特征拼接构造基分类器组合,并将这些分类器组合在全局阶段进行整合,但未能在集成模型中加入深度学习的方法,导致模型构造单一,微博文本较短,很难使用上下文模型将其联系在一起,针对这一问题,Zhuetal31在微博情感分析中加人历史用户信息来缓解上下文稀疏问题,并通过大量的实验证实其可行性.尹鹏博等32 提出一种基于异构深度学习的集成模型,通过二次训练的方式将不同的深度学习分类器组合起来,对微博谣言的检测效果很好,但未能将机器学习的强大表征能力加入模型.HamaandDimililer33将多个基分类器(弱学习者)组合成一个集成分类器,并结合
19、特征集的方式有效改善了社交媒体的情感分类问题.综上,现有的基于集成学习的多元情感分类模型存在基分类器相似度高、未能充分利用各分类器的优点以及在短文本分类上表现不佳等端,本文认为判断集成学习算法是否具有良好的性能,可以从五个方面人手:(1)模型是否具有结合上下文的能力,能学习到多大范围的上下文;(2)模型是否包括注意力机制,能否聚焦高特征词汇;(3)模型是否具有记忆力,能否记忆词汇顺序信息;(4)各个基分类器权重的划分能否联系各个分类器的相互关系;(5)能否解决多元情感数据集类别不平衡问题。本文基于这五个方面开展模型建立工作.2模型介绍2.1模型概述本文提出一种基于异构分类器的集成学习模型,首先
20、确定基分类器在分类问题中的核心地位,其性能对文本分类的效果起决定性作用.将已经训练好的多个分类器同时用于分类可以取长补短,获得更好的分类效果.选择的第一种情感分类器为SelfAttention-BiLSTM模型,由于重要的信息可能出现在句子的任何位置,可以利用BiLSTM模型获得文本的特征与长距离依赖,通过自注意力机制计算特征的重要性来获得句子中的语义信息.第二种文本情感分类器为CNN,利用不同大小的卷积核来获取文本的不同特征,使用CNN学习文本的构造特征和语义特征.第三种文本情感分类器为基于文本信息熵的朴素贝叶斯方法,创新性地提出文本类别内和文本类别间嫡值来筛选最大特征子词,结合朴素贝叶斯对
21、待分类文本进行分类,通过模糊积分的方式确定各分类器在每个待分类文本上的权重系数,最大程度地利用各分类器的分类结果,针对多元数据集类别不平衡问题,使用随机欠采样和随机过采样方法处理数据集,最大程度地提高模型的分类效果.整体模型如图1所示.2.2SelfAttention-BiLSTM模型情感分析任务中的输入序列具有时间特征,BiLSTM可以联474第59 卷南京大学学报(自然科学)基分类器训练模糊积分融合机制Machine Learning数据收集数据预处理待分类文本数据n-gram取词输入数据清洗爬取基于文本信息炳的朴素贝叶斯文本筛选去除预测类别停用词厂Deep Learning分词BERTW
22、ordEmbedding标注SelfAttention-CNNBiLSTM图1本文模型的总体框架Fig.1Thegeneral framework of ourmodel系文本的上下文和捕捉双向语义依赖来实现对信息的过滤.BiLSTM构造了两个LSTM神经网络,从两个相反的方向获取信息,更有利于从整体上记忆句子的长依赖关系以及文本的深层次语义表达.对于微博短文本数据,采用BiLSTM模型比LSTM模型分类更加准确和有效,BiLSTM的前后两个LSTM网络的结构是一致的.LSTM由三种门构成,即输人门、遗忘门和输出门,通过这三种门来控制信息传递,单一的LSTM的记忆单元在t时刻的前向计算过程如下
23、所示。输人门机制:i,=o(W,h-1,a,+b.)(1)C,=tanh(Weht-1,a,+be)(2)C,=f,X C-1+i,X c,遗忘门机制:fi=o(W,ht-1,a.+b)(3)输出门机制:0,=o(W。h t-1,a,+b.)(4)h,=o,X tanh(C.)其中,W,b.)是神经网络训练的参数集合,C,f,i,0,分别表示t时刻记忆单元的输出单元、遗忘门、输人门和输出门的输出值,ht-1和a,分别表示t时刻上第一个记忆单元以及当前记忆单元的输入,C,表示t时刻记忆单元的内部状态,h,表示t时刻记忆单元的输出BiLSTM模型可以增加文本逆向语义的学习,通过连接正反两个方向的L
24、STM模型输出向量h.,h,作为t时刻的BiLSTM的输出,即上下文的语义关系B,如式(5)所示:B,=,例 (5)BiLSTM考虑文本的时序信息并结合上下文来进行特征分类,但很难捕获不同词汇的重要性和获取细粒度的情感特征.对于微博文本这种复杂且带有多种特殊词语的长句,单独使用Bi-LSTM模型不一定能准确地获取特征信息.针对这个问题,考虑到自注意力机制可以在文本关键信息上分配足够的关注度,聚焦重要信息,故选用SelfAttention-BiLSTM算法作为基分类器之一.自注意力机制函数attention(Q,K,V)的本质可以被描述为一个查询(query)一系列键值对(key-value)的
25、映射,如式(6)所示:QKTattention(Q,K,V)=softmaxV(6)其中,Q,K,V均为向量形式,且QERxd,KERxd,VERnxd,d表示Q,K的维度.d起调节的作用,控制Q和K的内积不太大自注意力机制就是在序列内部寻找文本的联系,在词语层面添加自注意力机制可以得到一段文本内不同词语的重要性,模型如图2 所示,首先将文本词汇向量输入BiLSTM,BiLSTM输出每个时间步的词向量序列输出(O)与最后时刻的HiddenStates(H).注意力权重向量设置为Watetion使用注意力机制计算句子向量(V),计算步骤如式(7)和式(8)所示:Wattention=OXH(7)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 集成 学习 多元 文本 情感 分析研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。