基于BERT与注意力机制的方面级隐式情感分析模型.pdf
《基于BERT与注意力机制的方面级隐式情感分析模型.pdf》由会员分享,可在线阅读,更多相关《基于BERT与注意力机制的方面级隐式情感分析模型.pdf(10页珍藏版)》请在咨信网上搜索。
1、D0I:10.13878/ki.jnuist.20220914001杨春霞卓韩煜除陈启岗马文文基于BERT与注意力机制的方面级隐式情感分析模型摘要在方面级情感文本中存在部分不含情感词的评论句,对其情感的研究被称为方面级隐式情感分析.现有分析模型在预训练过程中可能会丢失与方面词相关的上下文信息,并且不能准确提取上下文中深层特征,本文首先构造了方面词感知BERT预训练模型,通过将方面词引入到基础BERT的输入嵌入结构中,生成与方面词信息相关的词向量;然后构造了语境感知注意力机制,对由编码层得到的深层隐藏向量,将其中的语义和句法信息引入到注意力权重计算过程,使注意力机制能更加准确地分配权重到与方面词
2、相关的上下文.对比实验结果表明,本文模型的效果优于基线模型.关键词方面级情感分析;隐式情感分析;门控循环单元;注意力机制;BERT模型中图分类号TP391文献标志码A收稿日期2 0 2 2-0 9-14资助项目国家自然科学基金(6 12 7 32 2 9,51705260);江苏省高校青蓝工程创新团队作者简介杨春霞,女,博士,教授,研究方向为自然语言处理韩煜(通信作者),硕士生,研究方向为自然语言处理1南京信息工程大学自动化学院/江苏省大数据分析技术重点实验室/大气环境与装备技术协同创新中心,南京,2 10 0 440引言方面级情感分析(Aspect-BasedSentimentAnalysi
3、s,A BSA)属于情感分析中的细粒度任务,目的在于预测评论中某个具体方面的情感极性.互联网的高速发展大大提升了舆论的产生和传播速度,评论中所包含的情感指向性和应用价值也成为关注的热点2.在常见的评论句中,存在着不少没有明确情感词的评论,却依旧可以清晰地表达情感.为了与带有明显情感倾向词的方面级显式情感区别开,将此类文本命名为方面级隐式情感.例如 HavingUSB3is whyIbought thisMini.句中方面词 USB3并没有对应的情感词,但仍可以清楚地感受到对该方面的积极情感.如今互联网中存在大量类似的委婉评论,而开展方面级隐式情感分析研究可以有效提升对这些评论的理解,从中获得的
4、数据可用于舆论分析、商品价格预测、民众心理分析等.相比于显式情感,隐式情感的研究主要有以下两个难点:一是缺乏情感词导致情感语义特征不易识别;二是隐式情感与上下文中的主观表达联系更加紧密,导致对语义的理解难度加大.早期隐式情感分析的研究主要基于构建隐式情感数据集或者构建隐式情感词典.Russo 等3提出在研究的语料中存在着隐含的情感极性,并提供了隐式情感数据集.Choi等4通过构造相应的EffectWordNet情感词典,检测到语料中的隐式情感.然而情感词典存在着更新代价大、效率不高等缺点,因此已经逐渐被更加高效的神经网络模型所取代.为了方便提取句子中的语义信息,目前隐式情感研究通常会对输入句进
5、行词向量化处理.词向量模型主要分为静态和动态两种.静态词向量模型的主要功能是为每个词提供固定的词向量,如Word2Vec5和Glove模型,但它们不适用于一词多义的文本,因此出现了动态词向量模型.动态词向量模型能够依据同一个词在不同语境中与其他词之间的联系而建模,并生成对应的词向量,如 ELMo7模型.近年出现的预训练模型如BERT(Bidirectional Encoder Represen-tations fromTransformers)8 也属于动态词向量模型,Li等9 利用BERT预训练模型和外部语料库知识来增强模型识别情感语义特征的能力,将方面级文本中的显式与隐式情感标签相匹配,有
6、效地捕获了上下文中的隐含情感知识,得到了更好的方面级隐式情感分类结果.但是该模型需要额外添加方面词遮掩任务才能感知方面词信息,这导致其在使用BERT进行预训练的过程中可能会丢失与方面词相杨春霞,等.基于BERT与注意力机制的方面级隐式情感分析模型.552YANG Chunxia,et al.Aspect-based implicit sentiment analysis model based on BERT and attention mechanism.关的上下文信息,并且在后续的编码过程中很难弥补这种损失.上下文感知模型与注意力(Attention)机制相结合的方法也在隐式情感分析中取得
7、了不错的效果,其主要原理是先对句子中的上下文信息进行建模,再依据不同信息的权重去度量它们的重要程度.Klinger等10 1 提出一个共享任务,对一个自动标记的Twitter数据集,要求系统在不需要捕获情感词特征的情况下能够识别其中的情感极性,参赛的前三名都采用BiLSTM与注意力机制相融合的模型,而他们的区别在于:Balazs等1采用基于深层的语境化(ELMo)表示编码词语信息;Chronopoulou等12 使用预训练模型的权重来初始化网络的特定层;Rozental 等13在大规模文本的基础上训练语言模型并获取词向量作为输入.此外在方面级显式情感分析中,杨春霞等14融合深度双向门控循环单元
8、(Deep Bi-directional Gated Recurrent Unit,DBGRU)与注意力机制进行情感分类任务,通过实验说明DBGRU能更加高效地提取深层语义特征.受其启发,本文尝试将DBGRU与注意力机制相融合,用于提取方面级隐式情感中的深层特征.然而一般注意力机制存在无法有效利用深层特征中语境信息的缺点,导致其不能准确提取与方面词相关的深层情感特征。本文提出一种融合深度双向门控循环单元及语境感知注意力机制的方面词感知BERT(DeepBi-di-rectional Gated Recurrent Unit Context-Aware AttentionAspect-Aware
9、 BERT,DCAB模型,主要贡献如下:1)本文改进了基础BERT的输入嵌人部分,构造了方面词感知BERT(A s p e c t-A w a r e BER T,AABERT),对句子中方面级隐式情感语料进行了预训练编码.AABERT将方面词作为输入句的相邻句进行预测,通过下一句预测任务,能够在预训练过程中有效捕获与方面词相关的上下文信息,最终获得与方面词相关的动态词向量表示.2)本文构造了一种语境感知注意力(Context-AwareAttention,C A T)机制,用于关注深层情感特征中与方面词相关的重要信息.对于由DBGRU编码器得到的深层特征向量,CAT机制在一般注意力机制的权重
10、参数中引入了深层语境信息,并添加了一个学习参数来明确每一个隐藏特征向量和深层语境信息对注意力权重大小的影响,有效地捕捉了深度上下文中与方面词相关的语义信息和句法信息。1DCAB模型本文提出的DCAB模型的结构框架如图1所示,主要组成部分如下:1)词嵌人层:将输人文本通过AABERT模型进行预训练,生成与方面词相关的动态词向量2)DBGRU词向量编码层:将AABERT词向量输入到DBGRU编码器中,提取包含上下文信息的深层特征向量,其中高层的隐藏特征包含上下文中的语义信息,低层的隐藏特征包含上下文中的句法信息.3)CAT机制层:将DBGRU编码器输出的深层特征向量作为输人,使用CAT机制更加准确
11、地关注上下文中与方面词相关的隐藏特征信息.4)输出层:对CAT机制层输出的特征向量使用Softmax分类器进行不同情感类别概率的计算.1.1词嵌入层BERT模型主要由输人嵌入、双向Transformer编码器15和无监督任务三部分构成,其主要原理是通过额外添加的输出层结合语境进行语义微调,能够联合所有层级中的上下文单词训练双向语义表示16.其中:输入嵌入负责对输入句子进行标记处理;Transformer编码器是BERT的核心部分,由输入、自注意力和前馈神经网络组成,负责捕捉上下文中各个词之间的特征信息;无监督任务负责对Transformer编码器输出的隐藏向量进行预训练.而自注意力部分是Tra
12、nsformer中最重要的模块,它能够将文本中的每个输入单词依次与其他单词进行建模,从而直接捕获隐藏层状态之间的依赖关系【17.随后将得到的隐藏向量再传递到前馈神经网络部分,进行求和、归一化与前向反馈等流程后,最终得到输出词向量。方面级隐式情感分析任务的目的是预测句子中给定方面所表达的情感,然而传统的BERT模型无论是输人嵌人、Transformer编码器还是无监督任务部分中都没有能够感知方面词的结构设计,这导致其在预训练过程中可能会丢失与方面词相关的上下文信息.为了解决这个问题,本文考虑从BERT的内部结构进行改进,使其获得方面词感知能力.但在实际情形中发现Transformer编码器和无监
13、督任务部分的结构设计紧凑、逻辑严谨、修改难度较大,如果添加的参数过多很可能会导致模型的复杂度大幅增加,出现过拟合现象,反而会降低原有的优秀建模能力;而输入嵌人部分结构则较为灵活,由于直接与输南京信息工统大学学报(自然科学版),2 0 2 3,15(5):551-56 0Journal of Nanjing University of Information Science&Technology(Natural Science Edition),2023,15(5):551-560553OutputLayerAttentionLayerSoftmax.Context-Aware Attentio
14、n4-GRUDBGRURUCRULayerCRUCRUGRU个GRUCRUGRUCRUCRUCRUGRUGRUCRUCRUGRUGRUGRUCRUGRUGRUGRUCRUCRUGRUCRUGRUGRUCRUCRUGRUTransformersTransformersWordEmbeddingsLayerQuick人句子接触,添加方面词信息更加方便,且在修改的过程中不会影响到BERT原有的建模能力.因此为了使BERT在拥有方面词感知能力的同时保持其优秀的语言建模功能,本文通过修改输人嵌人部分,将BERT调整为能够感知上下文中与方面词相关信息的 AABERT.AABERT的改进主要分为三个步骤:首
15、先,对于输人句子s=w1,w2,,w,,每次输人结束时的标点符号(比如句号)可以认为是一个弱分隔符,同时将给定的方面词插入到标点符号和最后的结束标记(SEP)之间,在标记嵌人(Token Embeddings)过程中对所有输人词汇(包括正常词汇和特殊符号)进行嵌入,就能生成对应的标点符号和方面词的位置标记,即提供了一个给定方面词的感知信号.其次在输入中再采用一个显式分隔符SEP来分隔输人的句子和方面词,进一步加深给定方面词的信号,它在位置嵌入(PositionEmbeddings)中的初始化标TransformersTransformersAspect-Aware Input Embeddin
16、gs个8andTransformersTransformers88hasbuilt图1DCAB模型结构Fig.1 Structure of DCAB model记与句尾的SEP设置相同.最后将方面词的片段嵌入(SegmentEmbeddings)标记与前句的片段嵌人标记分别设置为A、B,即在嵌入过程中将前句与方面词视为两个不同的句子.其输人部分结构如图2所示.改进后,输人句的格式被设置为I=CL S+W+SEP+w a s p e e t+SEP.在预训练过程中,先将输入句嵌人I.输人到Transformer编码器中进行编码,其过程如式(1)所示:Xk,Xaspect=TransEnc(I,)
17、其中,x;为输人句单词的隐藏输出向量,xaspet为方面词的隐藏输出向量.再将得到的隐藏向量送入掩码语言模型(Masked Language Model,MLM)和下一句预测(NextSentencePrediction,NSP)两个无监督任务中来完成词向量的预训练8.MLM会随机对单词遮掩(mask),让模型通过语境学习被遮掩的单词,它很好地利用了语境中的信息,但是不能直观地TransformersTransformers8inviruscontrol(1)杨春霞,等.基于BERT与注意力机制的方面级隐式情感分析模型.554YANG Chunxia,et al.Aspect-based im
18、plicit sentiment analysis model based on BERT and ttention mechanism.aspectInputTokenEmbeddingsSegmentEmbeddingsPositionEmbeddings判断文本对之间的逻辑关系.而 NSP 解决了这个问题,它通过判断后句即方面词是否为前句的下一个句子,挖掘了句子之间的逻辑关系,最终捕获了与方面词相关的词向量表示1ei,e2,e,.1.2深度双向门控循环单元编码层门控循环单元(Gated Recurrent Unit,GRU)4是由长短期记忆网络(Long Short-Term Memor
19、y,LSTM)改进而来的,它能够获取文本语境中的语义信息,并且相比于LSTM拥有更高的信息获取效率。但是GRU只能传递某一时刻中词向量序列的语义信息,忽略了全局文本中的语境所带来的影响,而BiGRU解决了这个问题,它由正反向 GRU最后一个状态向量连接而成,可以提取正反向时间序列中的隐藏状态.DBGRU由多层BiGRU叠加而来,其中每层BiCRU的输出将作为下一层的输入.本文采用由两层BiGRU组成的DBGRU来进一步挖掘方面级隐式情感语料中的深层语义信息.GRU的更新公式如下:zr=g(W,e,+U,hr-1+b,),r,=g(W,e,+U,hr-1+b,),h,=tanh(We,+U(r,
20、Oh-1)+bh),h,=z,Ohr-1+(1-z,)Oh,其中:z,r,分别为t时刻的更新门和重置门的输出向量;为sigmoid激活函数;W,W,W,U,U,U为权重矩阵;b,b,bh为偏置项;e,为t时刻的输入向量;ht,ht-1分别为t时刻和t-1时刻的细胞输出;h,为t时刻细胞的隐藏层输出;为Hardamard乘积运算.BiGRU的计算公式如下:h,=-CRU(h.1,e,),CLS+EAE+EEThepriceEpriceisEEAE图2AABERT输人序列Fig.2AABERT input sequenceh,=CRU(h1,e,),h,=h,h,DBGRU每个单元如下:hi-CR
21、U(hL,h),hT=CRU(h,hr-1),h=hi,h,其中:h-与h-分别是t时刻第n1层CRU与CRU的输出;h与h分别是t-1时刻第n层CRU与CRU的输出;h与h;分别是t时刻第n层GRU与CRU的输出;h为第n层BiGRU的最终输出向量,1.3请语境感知注意力机制在方面级语料中往往存在着不少具有情感倾向的词汇,它们对方面的情感极性有着不小的影响.为了提高情感分析的准确率,以往模型通常会采用一般注意力机制捕捉这些情感特征并分配其较大权重,其注意力权重向量u,计算过程如下:(2)un=tanh(W,h+bh),(3)其中:tanh为激活函数;WheRx为可训练的权重(4)参数矩阵,d
22、为单词嵌人的维度;bh为偏置项.本文在(5)应用一般注意力机制后发现分析效果不太理想,原因可能是:1)本文研究的方面级隐式情感语料与普通的方面级情感语料最大的不同在于句子中没有明显的情感词,这会导致一般注意力机制无法准确地捕获相关词向量;2)DBGRU得到的特征向量为多层,其中含有不同类型的语义和句法信息,而一般注意力权重向量uh仅由一个可训练的参数矩阵Wh控(6)制,错失了有效利用这些深层语境信息的机会.由于200EAE4dollarsEE,downEdownEAE。SEPE.EEPEEE,EpriceEpriceE干E(7)(8)(9)(10)(11)(12)SEPE南京信息工统大学学报(
23、自然科学版),2 0 2 3,15(5):551-56 0Journal of Nanjing University of Information Science&Technology(Natural Science Edition),2023,15(5):551-560注意力机制中最重要的部分是计算权重系数,权重系数越高,此部分信息越重要.因此,为了有效突出方面级隐式情感文本中隐含的重要信息,本文对一般注意力机制进行了改进,将DBGRU中的多层语境信息引人到权重参数中,从而构造了CAT机制.CAT的结构如图3所示.Context-AwareAttention555而导致模型梯度过小的问题由此
24、可以得到新的语境感知注意力权重向量:a,=tanh(W,h+bn).继续对权重向量进行归一化处理后,就可以得到关于特征h,的注意力分数t,再将注意力分数与深层特征矩阵H(H=h,h,h)中的子向量进行加权计算求和,可以得到文本特征向量Shexp(an),=(16)(17)(18):CTThe图3语境感知注意力网络结构Fig.3 Context-aware attention network structureW,=(1-入)W,+入,CUu,入=g(W,Vh+CU.V.),C=C,.,Ccl-,其中:W,=R d 为语境感知注意力的权重参数矩阵;表示 sigmoid 逻辑函数;入,RxI 为调
25、节W,大小的学习参数;U R(-1)ax,V,=RaxI 和 V。eRx1为可训练的参数矩阵;C=R(l-1)为语境矩阵,I为BDGRU编码器输人的特征向量h,的层数,其中高层的隐藏状态可以提供语境的语义信息,低层的隐藏状态可以提供语境的句法信息.假设特征矩阵第1层 为当前输入层,注意力机制在分配权重时,通过将输入层下面第1到第l1层的语境特征,Cl-引人到权重参数矩阵中,使其在感知输人层信息的同时,还能感知到与输人特征相关的深层语义和句法信息,从而更加精准地分配注意力权重到特征向量上。此外,本文还在新的权重参数W,中分配了一个学习参数入w,它的作用是明确量化每个隐藏表示与语境矩阵C对注意力权
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BERT 注意力 机制 方面 级隐式 情感 分析 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。