知识增强的方面词交互图神经网络.pdf
《知识增强的方面词交互图神经网络.pdf》由会员分享,可在线阅读,更多相关《知识增强的方面词交互图神经网络.pdf(8页珍藏版)》请在咨信网上搜索。
1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2412-2419ISSN 10019081CODEN JYIIDUhttp:/知识增强的方面词交互图神经网络衡红军,杨鼎诚*(中国民航大学 计算机科学与技术学院,天津 300300)(通信作者电子邮箱)摘要:现有的方面级情感分析方法对句法依存树蕴含信息使用不足,忽略多方面词之间的关联,并且缺少对外部知识的使用。针对这些问题,提出一种知识增强的方面词交互图神经网络(KEAIG)模型。首先利用融合领域知识的BERT-PT(Bidirectional Encoder Represe
2、ntation from Transformers with Post-Train)编码文本,并利用知识图谱增加句法树的情感信息。模型分两部分对句法依存树蕴含的信息进行提取:第一部分利用句法依存树中的关联关系和每个单词的词性标签提取句子特征,第二部分对融入知识图谱的句法依存树进行特征提取。之后使用融合门控单元将多方面词关联特征融合进提取到的特征中。最后将两部分句子表示拼接起来作为最终分类依据。在4个数据集上的实验结果表明,所提模型相较于基准模型关系图注意力网络(RGAT),在准确率上分别提升了2.17%、5.54%、2.60%和2.83%,在F1值(MacroF1)上分别提升了2.69%、6.
3、87%、8.77%和14.70%,充分表明了利用句法树、引入外部知识和提取多方面词关联的有效性。关键词:方面级情感分析;句法依存树;领域知识;知识图谱;图神经网络;门控单元;方面词交互中图分类号:TP391 文献标志码:AKnowledge enhanced aspect word interactive graph neural networkHENG Hongjun,YANG Dingcheng*(College of Computer Science and Technology,Civil Aviation University of China,Tianjin 300300,Chin
4、a)Abstract:Existing aspect-based sentiment analysis methods do not use enough information of syntactic dependency trees,ignore the associations between multiple aspect words,and lack the use of external knowledge.Aiming at these problems,a Knowledge Enhanced Aspect word Interactive Graph neural netw
5、ork(KEAIG)model was proposed.Firstly,BERT-PT(Bidirectional Encoder Representation from Transformers with Post-Train)fused with domain knowledge was used to encode text,and the knowledge graph was used to add sentiment information to the syntactic trees.The information contained in the syntactic depe
6、ndency tree was extracted by the model in two parts:in the first part,the association relationships in the syntactic dependency tree and the part-of-speech tag of each word were used to extract sentence features,and in the second part,the feature extraction was performed on the syntactic dependency
7、tree combined with the knowledge graph.Afterwards,the fusion gated unit was used to fuse the association features of multiple aspect words.Finally,the two parts of the sentence representations were concatenated together as the final classification basis.Experimental results on four datasets show tha
8、t compared with the benchmark model Relational Graph Attention Network(RGAT),the proposed model improves the accuracy by 2.17%,5.54%,2.60%,and 2.83%,respectively,and the F1 score(MacroF1)by 2.69%and 6.87%,8.77%,and 14.70%,respectively,fully demonstrating the effectiveness of using syntactic trees,in
9、troducing external knowledge and extracting multi-aspect word associations.Key words:aspect-based sentiment analysis;syntactic dependency tree;domain knowledge;knowledge graph;Graph Neural Network(GNN);gated unit;aspect word interaction0 引言 情感分析任务作为自然语言处理(Natural Language Processing,NLP)中的研究任务之一,因对电
10、商有较大的指导意义,越来越受研究者们的关注,其中作为最细粒度的方面级情感分析也成为情感分析任务的焦点。以 SemEval-2014 Task 4 餐馆数据集中的一条数据“The pizza is tasty while the waiter is unfriendly.”为例,用户在该句中分别对“pizza”和“waiter”两个方面词表达了正面和负面的情感。方面级情感分析任务的重点在于获取与方面词最相关的表达情感的上下文1。早期的方面级情感分析深度学习方法使用长短时记忆(Long Short-Time Memory,LSTM)2网络对句子建模,同时聚焦注意力机制,致力寻找一种合适的方式将注意
11、力机制融入模型中以获取更相关的上下文。虽然注意力方法能够获取方面词与上下文的特征关联,但是难以获取深层次关联,同时针对多方面词的句子表现较差,并且忽略了句子句法结构所包含的信息,导致捕捉的特征片面。这就需要使文章编号:1001-9081(2023)08-2412-08DOI:10.11772/j.issn.1001-9081.2022071041收稿日期:20220719;修回日期:20221028;录用日期:20221111。作者简介:衡红军(1968),男,河南周口人,副教授,博士,主要研究方向:自然语言处理、智能信息处理;杨鼎诚(1998),男,山西霍州人,硕士研究生,主要研究方向:自然
12、语言处理、情感分析。第 8 期衡红军等:知识增强的方面词交互图神经网络用句法依存树来捕捉深层次特征。句法依存树作为NLP中的关键技术之一,早期就被NLP研究者发现并用于方面级情感分析,早在2014年,Li等3就将句法依存树和递归神经网络结合,以提取句子中的句法信息。随着图神经网络(Graph Neural Network,GNN)4的火热,研究者们开始将句法依存树与图神经网络相结合,以获取单词之间的句法关联。基于图神经网络的模型获取到单词间的句法关联,得到了较为准确的句子表示,但仍存在依存树蕴含信息利用不完全、出现次数较少的单词难以学习其情感极性等问题。而知识图谱蕴含着丰富的单词词义,能够完美
13、地解决模型缺少词义信息的问题,但鲜有研究者将知识图谱蕴含的词法信息和与句法依存树蕴含的句法信息结合起来进行文本编码。因此本文模型分别利用知识图谱和句子词性对句法依存树进行增强,以解决上述问题。此外,当前主流的方面级情感分析数据集如 SemEval-2014、SemEval-2015等,存在数据量较小、导致模型训练不足的问题,此时就需要使用数据增强的方法或外部知识辅助模型判断单词极性,所提模型则利用后者进行特征增强。基于上述问题,提出一种知识增强的方面词交互图神经网 络(Knowledge Enhanced Aspect Interactive Graph neural network,KEAI
14、G)模型。本文主要工作如下:1)使 用 领 域 知 识 增 强 的 BERT(Bidirectional Encoder Representation from Transformers)模型5获取更准确的句子文本表示;2)分别使用关系图注意力网络和图卷积网络获取标签的信息和节点的深层次关联;3)使用知识图谱与句法依存树结合,使模型学习到更多情感信息;4)构建方面词交互图,利用图卷积网络获取不同方面词之间的关联,并利用一种交互式门控特征融合单元将方面词关联特征融入句法信息特征。1 相关工作 早期的方面级情感分析任务主要有:基于规则、词典的情感分析方法和基于机器学习的方法;而随着深度学习的发展,
15、这些方法逐渐被摒弃。现有的方法依据使用的机制或主干网络 又 可 分 为:基 于 卷 积 神 经 网 络(Convolutional Neural Network,CNN)的模型、基于循环神经网络(Recurrent Neural Network,RNN)的模型、基于注意力机制的网络、基于记忆网络的模型和基于图神经网络的模型等。本章主要介绍与本文模型密切相关的两种:基于注意力的方法和基于图神经网络的方法。1.1基于注意力方法20世纪90年代,科学家受人类视觉注意力启发,提出注意力机制,该机制能通过关注某些特定特征、忽略次要特征来筛选出数据中的高价值部分。注意力机制被广泛用于NLP任务中。Tang
16、等6将方面词作为特征获取的关键,利用LSTM从两个方向将特征聚合至方面词处,从而获取方面词与上下文的关联,但这种方法获取的关联性很弱;Wang等7则利用注意力将方面词向量和上下文向量结合起来,获取其中关联部分;Tang等8将多跳记忆网络和注意力机制结合,同时探索一种利用位置注意力权重获取特定方面词相关上下文的方法;Ma等9设计了利用两个注意力网络交互的模型,提出交互式注意力网络(Interactive Attention Network,IAN)模型,通过注意力机制分别获取了上下文和方面词中的重要部分,从而得到更准确的句子特征;Huang等10则设计了一个多层的注意力网络模型 AOA(Atte
17、ntion Over Attention neural network),分别获取上下文和方面词中每个单词对之间的匹配分数,以此作为权重筛选文本表示,获得更准确的特征关联;Chen等11则受文献 8 的启发利用RNN与记忆网络相结合,同时改进位置注意力的计算方式,获取更准确的文本表示。1.2基于图神经网络方法尽管基于注意力的方法表现不差,但随着图神经网络的火热,这种能够解决注意力所缺乏的句法约束和长距离依赖等问题的全新方法开始被广泛使用。Sun 等12利用图卷积网络(Graph Convolution Network,GCN)获取句法依存关联,将得到的方面词表示作为最终分类依据;Zhang等1
18、3将句法信息和注意力机制结合,提出句法树卷积模型,利用图卷积得到的结果作为注意力分数获取重要的上下文;Zhao 等14的 SDGCN(Sentiment Dependencies with Graph Convolutional Network)同样在使用句法依存树的基础上增加了注意力机制,利用方面词和位置信息分别对词嵌入生成的上下文表示做加权处理,之后再送入图神经网络获取句法信息;Wang等15则对依存树进行重构,将依存关系均重构到方面词上,同时提出关系图注意力网络(Relational Graph Attention Network,RGAT),将句法依存关系编码并利用注意力机制获取文本表
19、示。1.3启发与改进为了提升模型在方面级情感分析的综合表现,本文模型将文献 13 中表现优异的图神经网络与注意力机制相结合的掩膜操作加入模型中,利用图神经网络解决模型缺少句法约束的问题,利用注意力机制过滤图神经网络所生成的冗余特征;模型以RGAT为基础,同时加入词性标签和知识图谱增强句法树;考虑到多数主流模型没有关注多方面词之间的关联,模型还利用门控机制将多方面词关联特征提取出来。在经过这些改进和调整后,模型就能很好地契合方面级情感分析任务,从而获得更好的分类表现。2 本文模型 2.1问题形式化定义给定一个句子S=w1,w2,wa1,wam,wn,其中A=wa1,wa2,wam为句中需要分析情
20、感的方面词,其他 wi表示句中上下文单词,句子S的长度为n,方面词A的长度为m。任务的主要目标是建立一个分类模型,能够正确地预测句子S中对方面词A所表达的情感极性(积极、中性、消极)。2.2KEAIG模型本文模型主要利用领域知识增强的BERT模型进行文本编码,利用知识图谱和词性标签对句法树进行增强,利用门控单元融合多方面词特征。模型主要由三部分组成:领域知识增强的文本编码层、特征提取层和解码分类层。特征提取层可分为标签编码模块、知识编码模块、方面词交互模块和方面词掩膜模块。整体模型结构如图1所示。2413第 43 卷计算机应用2.3领域知识增强的文本编码层NLP任务通常使用Google提出的B
21、ERT预训练模型对句子S进行词嵌入工作,以获取文本的特征表示V。首先构建单词序列X=CLS+S+SEP+A+SEP,其中 CLS 和 SEP 为BERT中的特殊表示,分别在句首和分句时出现。在BERT嵌入结构中,每一个词由词向量(token embeddings)、段向量(segment embeddings)和位置向量(position embeddings)这3个嵌入向量组成,3个向量叠加形成了BERT输入。BERT原理可以通过式(1)来解释:h0i=hToki+hSegi+hPosihli=transformer()hl-1i(1)其中hli表示第i个单词在第l层输出的向量表示。为了增强
22、 BERT 模型在数据量较小时的编码表现,Xu等16提出一种基于迁移学习的BERT微调方式,称为后训练(Post-Train,PT),该BERT-PT使用亚马逊数据集中笔记本领域的评论集与Yelp数据集中餐厅领域的评论集作为语料库训练 BERT 模 型 中 Masked Language Model 与 Next Sentence Prediction模块,增强BERT模型在特定领域中的编码表现,以获取单词级和句子级的领域知识。本文模型使用BERT-PT替代了原始BERT,以获取融合领域知识的文本表示,增强在训练集数量较少的情况下的文本表示的准确性。最终,句子S被矩阵H=v1,v2,va1,v
23、am,vn表示。2.4特征提取层2.4.1标签增强模块本文方法首先利用Stanford Corenlp Tookit工具分析句子的句法依存,得到句法依存树T=(ri,j,i,j),其中:i和j表示两个相关联单词wi和wj的位置;ri,j表示单词wi和wj在句法依存树中的关联关系。受文献 14 启发,对T剪枝,并生成方面词导向树,以增强方面词的主导,具体操作为:将方面词作为Root,与方面词直接相连的依存关系予以保留,并由方面词作为头节点;与方面词间接相连的单词调整为直接与方面词相连,依存关系ri,j 简化为n:con(n表示与方面词n跳相连)。生成方面词导向树的例子如图2所示。考虑到句法依存关
24、系与单词词性作为单词在句子中语义表达的重要组成部分,将重构后的依存关系与单词的词性标签作嵌入,并利用RGAT提取特征,以获得句子依存关系和单词词性中蕴含的深层次特征。RGAT是一种图注意力网络的变体,该网络将计算注意力的依据由图节点间的关联转化为使用节点之间的关联关系,从而获取节点关联关系中蕴含的相关信息。此处计算方式如式(2)(6)所示:hl+1=|Mm=1j NilmijWlmhlj(2)lmij=exp()glmijj=1Niexp()glmij(3)glmij=(ReLU(rijWm1+bm1)Wm2+bm2)(4)rij=Wm1(dij+pi)+bm1(5)h0j=vj(6)其中:d
25、i,j为方面词导向图中节点i与方面词之间的关联关系;图2生成方面词导向依存树的例子(staff为方面词)Fig.2Example of aspect-oriented dependency tree generation(aspect word is“staff”)图1本文模型的整体结构Fig.1Overall structure of the proposed model2414第 8 期衡红军等:知识增强的方面词交互图神经网络pi表示单词i的词性标签;hlj表示树中节点j在第l层的向量表示;为非线性激活函数;|Mm=1xm表示将向量x1到xM进行拼接操作;Wlm为一个输入变换权重矩阵;b为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识 增强 方面 交互 神经网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。