基于知识增强的方面级情感分析方法.pdf
《基于知识增强的方面级情感分析方法.pdf》由会员分享,可在线阅读,更多相关《基于知识增强的方面级情感分析方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第10期总第338期收稿日期:2022-12-03;修回日期:2023-01-21基金项目:国家自然科学基金资助项目(61876031);辽宁省自然科学基金一般项目(20180550921)作者简介:李诗月(1998),女,河北保定人,硕士研究生,研究方向:情感分析,E-mail:;孟佳娜(1972),女,辽宁大连人,教授,硕士生导师,博士,研究方向:机器学习和文本挖掘,E-mail:;于玉海(1980),男,辽宁大连人,副教授,硕士生导师,博士,研究方向:情感分析和深度学习,E-mail:。文章编号:1006-2475(20
2、23)10-0001-080引言情感分析是自然语言处理(Natural LanguageProcessing,NLP)领域比较活跃的一个研究方向1,根据研究粒度不同,可细划分成:文档级、句子级和方面级情感分析。方面级情感分析(Aspect Based Sentiment Analysis,ABSA)属于细粒度的情感分析,细粒度的情感分析更具有针对性1。以评论“这个餐馆装修很大气,但是消费太高了!”为例,对于餐馆的“装修”方面,其情感倾向是正向的,而对餐馆的“消费”方面则是负向的。通过该例子可以看到,方面级情感分析具有粒度更细、决策更准、标准统一等特点,能够保留用户针对不同方面的情感信息,其在社
3、交、电子商务等领域发挥着至关重要的作用2。目前方面级情感分析的研究出现了很多基于深度学习的方法,循环神经网络在序列问题中具有优秀的学习能力,Tang等人3提出了基于目标依赖的长短期记忆神经网络和基于目标关联的长短期记忆神经网络,可以学习目标词语跟上下文的相互关系;注意力机制能够准确区分不同方面的关联程度,Wang等人4最先提出带有方向嵌入的、基于注意的LSTM方法,它为每个关键词都分配了一个注意力,让模型自主重视句子中的较重要部分。虽然,基于注意的神经网络模型在一些数据集取得了不错的效果,但由于没有考虑句子中不同方面词的句法依赖关系,导致权重分配错误,进而对方面词情感进行了错误的预测。基于知识
4、增强的方面级情感分析方法李诗月,孟佳娜,于玉海,李雪莹,许英傲(大连民族大学计算机科学与工程学院,辽宁 大连 116600)摘要:方面级情感分析能够准确判断出句子中方面词的情感极性,在社交、电子商务等领域发挥着重要的作用。现有的方法大多通过序列表示或者注意力机制建模上下文和目标词间的关系,忽略了文本的背景知识以及方面词之间的概念链接,导致学习到的语义关系不够充分。针对上述问题,提出一种基于知识增强的方面级情感分析模型(Aspect BasedSentiment Analysis Model Based on Knowledge Enhancement,ABSA-KE)。首先,通过预训练模型BE
5、RT提取特征并得到对应的词向量,并使用解析器获取文本对应的依存关系树,利用BiLSTM和图注意力网络联合建模来学习节点嵌入表示并获得文本向量;其次,使用外部知识库引入不同语境下的方面词知识向量来增强方面级情感分析模型;最后,进行情感分类任务。通过与已有模型对比的实验结果表明,本文所提出的模型在方面级情感分析任务上是有效且合理的。关键词:方面级情感分析;图注意力网络;外部知识库;BERT;依存树中图分类号:TP391文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.10.001Aspect Based Sentiment Analysis Model Based
6、on Knowledge EnhancementLI Shi-yue,MENG Jia-na,YU Yu-hai,LI Xue-ying,XU Ying-ao(School of Computer Science and Engineering,Dalian Minzu University,Dalian 116600,China)Abstract:Aspect based sentiment analysis can accurately determine the emotional polarity of aspect words in sentences,andplays an imp
7、ortant role in social networking,e-commerce and other fields.Most of the existing methods model the relationshipbetween context and target words through sequence representation or attention mechanism,but ignore the background knowledgeof text and the conceptual links between aspect words,resulting i
8、n insufficient semantic relationships learned.To solve the aboveproblems,the Aspect Based Sentiment Analysis Model Based on Knowledge Enhancement(ABSA-KE)is proposed.First,thefeatures are extracted and the corresponding word vector is obtained through the pre-training model BERT,and the dependencytr
9、ee corresponding to the text is obtained using the parser.Then,the joint modeling of BiLSTM and graph attention network isused to learn the node embedded representation and obtain the text vector.Second,the external knowledge base is used to introduce the aspect word knowledge vector in different co
10、ntexts to enhance the aspect level emotion analysis model,and finally theemotion classification task is carried out.Compared with the existing models,the experimental results show that the proposedmodel is effective and reasonable in aspect level emotion analysis tasks.Key words:aspect based sentime
11、nt analysis;graph attention network;external knowledge base;BERT;dependency tree计算机与现代化2023年第10期Devlin等人5设计了具有多层变压器编码器结构的BERT模型,有效解决了LSTM模型的并行计算和深度困难。最近的研究6-8利用图的模型来整合句子的句法结构,比那些不考虑句法关系的模型表现出了更好的性能。使用外部知识库(Knowledge Base,KB)增强神经模型已在一系列NLP应用中显示出优势,Peters等人9提出在输入文本中的显式建模实体跨度,并使用实体链接器从KB中检索相关的实体嵌入,以形成知
12、识增强的实体跨度表示形式。Li等人10提出吸收外部知识的注意力模型,实验表明吸收外部知识可以降低对数据的依赖并提升模型表现。Liu等人11通过融合非结构化知识和结构化知识,提出基于扩充知识图的开放域对话生成模型,并在对话系统中进行灵活的多跳知识图推理。Islam等人12提出了一种2级全局-局部实体嵌入方案,该方案允许有效地联合训练基于KG的方面嵌入和ABSA模型。尽管外部知识库在NLP问题中应用比较广泛,但将其使用在方面级情感分析任务中还是比较少的。在方面级任务中,常识知识通过其结构关系帮助模型理解情感术语和观点目标13,并且可以为模型提供监督信号,提高模型语义解析能力14。对于方面级情感分析
13、问题,目前深度学习方法大多是通过序列表示方法或者注意力机制来建模目标词和上下文间的关系,但由于语言的复杂性,这些模型并未充分考虑方面词与对应意见词存在的背景知识。为了解决上述问题,本文提出基于知识增强的方面级情感分析模型(Aspect Based Sentiment AnalysisModel Based on Knowledge Enhancement,ABSA-KE),通过预训练模型BERT建立较为准确的方面词向量特征表示,然后获取文本对应的依存关系树与BiLSTM学习到的方面词和意见词的上下文信息,以及节点在图中的序列特征,将结合后的特征通过图注意力网络(Graph Attention
14、Networks,GAT)建立最终的向量表示,再根据方面词获得ConceptNet15子图,增强文本特征表示,获取方面词的图特征向量,最后与文本特征进行融合,实现情感分类。主要工作有:1)将GAT应用到方面级情感分析中,沿着依存关系树的句法路径建模依存关系,为不同句法路径分配不同的权重,以此增强节点嵌入。2)使用外部知识库获取方面词的概念表示,增强上下文语义知识,并通过其结构关系帮助模型理解情感术语和观点目标。3)融合来自依存树、图注意力网络和外部知识库的特征进行方面级情感分析任务,在5个基准数据集上进行实验,得到了比较好的结果。1相关工作1.1依存关系分析依存关系分析16又名依存句法分析,目
15、的是给定一段文本,识别文本中词与词之间的相互依存关系,为每个单词(头节点)找到其对应的尾节点,可以更好地帮助理解整个句子的含义,这也是NLP领域中比较关键的技术之一。其表示方式通过有向箭头从核心词指向依存词,而有向图、依存投影树和依存树为依存关系结构常见的表达方式。以“I prefer themorning flight through Denver”这个文本为例,其依存树表达方式如图1所示。图1依存树表示方式1.2图注意力网络图 卷 积 网 络17(Graph Convolution Networks,GCN)在文本分析方面已经有了许多探索,图卷积是一种对图形结构数据进行半监督学习的网络结构
16、,是基于直接对图进行操作的卷积神经网络的一种有效变体。Yao等人18构建共词网络和文档关系网络,利用图卷积网络在不使用外部知识和单词表达的情况下取得了较好的结果;Sun等人19利用句法信息和单词依赖关系提出了卷积依赖树模型,该模型在依存树上进行卷积操作获取节点特征和连接边的依赖信息,但信息传播中可能会错误地将句法上不相关的单词与目标方面相关联。结合图卷积与注意力机制,Velickovic等人20提出了图注意力网络,GAT是基于图形结构化数据的新型神经网络。采用注意力机制,可以为不同节点分配不同权重,训练时依赖于成对的相邻节点,而不依赖具体的网络结构,并且可用于有向图。Huang等人21提出基于
17、记忆融合的图注意模型,利用卷积运算和注意力机制分别提取节点的局部信息和为边分配不同权重,得到了较好的准确率和F1值。1.3外部知识库知识库有助于将文本与真实实体、事实知识和常识概念联系起来,尤其是常识知识库提供了丰富的背景概念来源,可以通过提供某一领域的概念来增强文本的语义。Ghosal等人13利用外部知识库来调整一个流行的领域对抗性基线方法,有效地提高了其性能。本文使用的ConceptNet是一个语义网络,也是一个知识图谱,以3元组形式的关系型知识构成。利用句子中蕴含的文本自身的语法知识可以提高情感分析任务的准确度。因此,本文考虑借助外部知识库丰富文本中方面词背景信息,增强评论文本特征表示,
18、提高模型分类能力。2模型介绍2.1基本定义本文提出基于知识增强的方面级情感分析模型(ABSA-KE),该模型的实现建立在依存树的基础上,依存关系树可以形象展现出句子的句法结构,更好理I prefer the morning flight through Denver.nsubjrootdobjdetnmodnmodcase22023年第10期解文本中整个句子的含义,并引入外部知识库对方面词进行概念表示,帮助模型取得更好效果。其大概步骤为:使用BERT模型对评论文本信息进行文本特征提取,使用BiLSTM和图注意力网络分别对上下文信息和依存关系进行建模,同时利用方面词提取 ConceptNet子图
19、,通过图卷积网络对子图进行图特征向量提取,三者集成来获取含深层语义的信息特征表示,经过分类器实现情感判别。该方面级情感分析模型的总体结构如图2所示,主要由以下5个部分组成。1)向量表示层:将预处理后的评论文本送到预训练模型BERT中,获得包含了单词语义的双向编码词嵌入表示,即BERT词嵌入。2)BiLSTM层:将向量表示层获得的方面词和上下文词嵌入输送到BiLSTM网络中,学习单词之间的上下文信息,得到BiLSTM层的高维词嵌入表示。3)图注意力网络层:将高维词嵌入送到 GAT中,并且GAT沿着依存关系树的句法路径建模依存关系,并为不同句法路径分配不同权重,阻止无关词向方面词的信息传播,从而增
20、强节点嵌入,输出该层的向量表示。4)概念编码层:通过方面词提取ConceptNet子图,并对其进行概念化,得到图特征向量。5)情感预测层:将得到的GAT词嵌入通过平均池化操作得到方面词向量与概念编码层的图特征向量进行拼接,再经过Softmax分类器输出不同情感极性的概率分布,实现情感分类。双层GCNSoft-max输入向量表示层BiLSTM层图注意力网络层情感预测层文本数据依存树方面词ConceptNet子图概念编码层w1w2w3w4w5h01GATh02h03h04h05Roothl+11hl+12hl+13hl+14hl+15hjhzzgrp图2ABSA-KE模型结构图2.2方法2.2.1
21、向量表示层目前,比较常见的词向量模型主要有 GloVe 和Word2Vec,但是这些模型在训练过程中不能注意到单词间的前后序列关系,不能解决单词的一词多义问题,不能准确定位到单词的位置信息,而BERT预训练语言模型解决了上述这些问题。BERT模型使得每个词语在训练过程中都能同时利用到自身信息和上下文信息,参与运算的信息较充分,具有极好的表征能力4。本文使用 BERT来提取输入句子的更深层次序列特征,然后将输出的特征向量送到下游方面级情感分析任务中。假设一个包含n个单词的句子,s=(w1,w2,wn),句子s有对应的词嵌入x,记为x=(x1,x2,xn);它由一个方面句子对(a,s)构成,其中方
22、面词a是s的一个子序列,记为a=(w1,w2,wm),经过BERT预训练模型后,转化成低维、连续的实数向量,得到较为准确的方面词向量特征表示。2.2.2BiLSTM层BiLSTM 网络能够从语料中学习到长期依赖关系22;该网络重复利用了每个输入序列和时间步长,充分全面学习到方面词和意见词的上下文信息以及节点在图中的序列特征,有助于提高模型情感预测效果,前向LSTM在词嵌入 x1,x2,xn上学到的隐藏表示,记为 h01,h02,h0n,后向 LSTM 在词嵌入 x1,x2,xn上 学 到 的 隐 藏 表 示,记 为 h01,h02,h0n,前后 2 个方向捕捉上下文信息,然后拼接得到高维的表示
23、,记为 h01,h02,h0n,其中子序列方面向量a的隐藏表示为 h0+1,h0+2,h0+m,高效捕获方面词和意见词的上下文。2.2.3图注意力网络层在ABSA-KE模型中,用斯坦福解析器23解析句子,得到对应的依存关系树后,依存关系树被看作为一个有n个节点的图G,图中的边代表单词间的依存关系路径。而依存关系的存储形式是一个对称的nn的邻接矩阵,这里用A表示,行与列的长度与句子的李诗月,等:基于知识增强的方面级情感分析方法3计算机与现代化2023年第10期长度等价,0代表单词之间不存在依存关系,1代表单词间有关联,即存在连接路径。假设图G是一个自循环结构,图注意力网络从邻接矩阵A处获取图结构
24、信息和句法信息,辅助ABSA-KE模型实现情感分类。图注意力网络通过这些路径进行更新和传播信息,不断更新节点的嵌入表示。在这样的操作过程中,GAT只考虑了节点的一阶邻域,以此类推,l个连续的GAT操作即表示信息在l阶邻域内传播。给定一个n个单词的句子s,其中包含从第+1个令牌开始的对应的m个单词方面。为了增强上下文与方面词的相关性,在第l层时,对节点i施加一个位置权重函数,计算公式如式(1)所示,qi表示节点i的位置权重。qi=1-+1-in,1 i +10,+1 i +m1-i-mn,+m i n(1)衡量节点i和节点j之间的重要程度,本文采用注意力系数ali,j,计算方式如式(2)所示:a
25、li,j=exp()LeakyReLU()aTWlahliWlahljk Niexp()LeakyReLU()aTWlahliWlahlk(2)其中,Wla表示单词进行线性变换的共享权矩阵,hli是节点i的特征向量,a a是权重向量,Ni表示节点i的邻居集合。为了使得图注意力的学习过程更加稳定,在设置相同参数条件下,本文对K个不同注意力进行了实验,由此,可以得到第 l+1 层节点 i 的最终隐藏表示,如式(3)所示:hl+1i=ReLU()1Kk=1Kj Nil,ki,jWlkhli(3)其中,l,ki,j代表第k个注意力系数;Wlk代表在第l层第k个注意力的权重矩阵。最后,图注意力网络第l+
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 知识 增强 方面 情感 分析 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。