基于图神经网络文档相似度的实体与关系层次匹配方法.pdf
《基于图神经网络文档相似度的实体与关系层次匹配方法.pdf》由会员分享,可在线阅读,更多相关《基于图神经网络文档相似度的实体与关系层次匹配方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 55 卷第 6 期郑 州 大 学 学 报(理 学 版)Vol.55 No.62023 年 11 月J.Zhengzhou Univ.(Nat.Sci.Ed.)Nov.2023收稿日期:2022-06-14基金项目:国家自然科学基金项目(61373160);河北省自然科学基金项目(F2021210003);河北省教育厅青年基金项目(QN2020197)。第一作者:赵文彬(1985),男,副教授,主要从事知识图谱与事理认知、大数据处理与挖掘研究,E-mail:zhaowb2013 。通信作者:吴峰(1971),男,正高级工程师,主要从事大数据处理与挖掘、科技信息资源聚合与分析研究,E-mail
2、:hebwf 。基于图神经网络文档相似度的实体与关系层次匹配方法赵文彬1,王佳琦2,吴峰3,任雁3,安寅生1(1.石家庄铁道大学 信息科学与技术学院河北 石家庄 050043;2.大秦铁路股份有限公司山西 太原 030024;3.河北省科学技术情报研究院 河北省科技信息处理实验室河北 石家庄 050021)摘要:针对文本中深层语义难以计算的问题,提出了基于句法依存关系的多头图注意力实体关系联合抽取模型和融合层次类型的文档相似性匹配。首先通过多头图注意力网络对文本进行实体关系抽取,然后设计融合层次类型的词移距离相似性计算方法以及基于图相似的文档相似性计算模型,利用文档中的实体和关系构建图结构,根
3、据图级特征进行相似性计算。最后,通过对比实验验证了所提方法在文档相似性计算、图相似度计算和图分类任务中的有效性。关键词:实体关系抽取;相似性;层次类型;图神经网络中图分类号:TP391文献标志码:A文章编号:1671-6841(2023)06-0008-07DOI:10.13705/j.issn.1671-6841.2022159 A Hierarchical Matching Method of Entity and Relation Based on Graph Neural Network for Document SimilarityZHAO Wenbin1,WANG Jiaqi2,W
4、U Feng3,REN Yan3,AN Yinsheng1(1.School of Information Science and Technology,Shijiazhuang Tiedao University,Shijiazhuang 050043,China;2.Daqin Railway Co.,Ltd,Taiyuan 030024,China;3.Hebei Science and Technology Information Processing Laboratory,Hebei Institute of Science and Technology Information,Sh
5、ijiazhuang 050021,China)Abstract:Aiming at the difficulty to mine deep semantics in text,a multi-head graph attention entity-relation joint extraction model based on syntactic dependencies and a fusion hierarchical type of document similarity matching were proposed.Firstly,the entity relation extrac
6、tion was carried out on the text through the multi-head graph attention network.Then,the word shift distance similarity calculation meth-od of fusion hierarchical type and the document similarity calculation model based on graph similarity were designed,and the graph structure was constructed by usi
7、ng the entities and relations in the docu-ment.Thus,the features representing the graph level were obtained for similarity calculation.Finally,the effectiveness of the proposed method in document similarity calculation,graph similarity calculation and graph classification tasks was verified by compa
8、rative experiments.Key words:entity relationship extraction;similarity;hierarchical type;graph neural network0引言近年来,知识图谱技术促进了自然语言处理与文本语义分析1的发展。其中,借助实体关系抽取技术来理解文本中的深层语义信息,为文档相似性研究提供了新的思路。实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重第 6 期赵文彬,等:基于图神经网络文档相似度的实体与关系层次匹配方法要环节2,能够从文本中提取出命名实体以及实体间的关系。实体关系抽取主要有基于流水线的方法和
9、联合抽取方法3。基于流水线的方法首先对给定句子进行命名实体识别,将实体标注出来,然后针对句子进行关系抽取,模型的灵活性高、独立性好,但是关系抽取的效果依赖于实体识别的效果,同时容易忽视两个任务之间的联系,造成交互缺失。Zeng 等4提出分段卷积神经网络来捕获结构信息,利用多示例学习进行远程监督关系提取。Zhong 等5提出分别用于学习实体识别和关系提取的编码器,利用实体的边界信息进行关系分类。联合抽取方法是利用实体识别和关系抽取两个任务之间的交互,基于神经网络的端到端模型,同时得到实体和关系。联合抽取方法通常采用端到端抽取模型,使用神经网络联合表示实体和关系。Zheng 等6使用 LSTM 与
10、卷积神经网络的联合抽取框架,其中 LSTM 进行命名实体识别,卷积神经网络进行关系分类。但是,现有的联合抽取工作主要使用循环网络和卷积网络以及其改进模型,较少利用句子的结构信息。文本相似性一般是指文字描述在语义上的相似性度量,被广泛应用于自然语言信息处理任务的诸多方面7。现有的文本相似性度量主要有使用词频与逆文档频率(TF-IDF)的余弦相似性、潜在语义分析的相似性、主题建模相似性以及基于泊松分布的相似性等方法。文本相似性一般有字符匹配相似度、结构相似度和语义相似度。其中,字符匹配相似度采用基本的文本相似性计算方法,如编辑距离、Jaccard 距离等;结构相似度计算的关键在于分析文本的结构;语
11、义相似度通常是将文本表示成特征向量的形式,然后利用统计方法进行相似度计算。Chandrasekaran 等8回顾了近年来提出的语义相似性方法的演变过程,将其分类为基于知识的方法、基于语料库的方法、基于深层神经网络的方法和混合方法。Kusner 等9利用两个文档之间所有词的距离作为文档间的相似程度,即一个文档的嵌入单词“移动”到另一个文档所消耗的最小代价。Pan等10将语义信息与网络模型相结合,提出一种基于语义网络的文档相似性度量方法,为评估文档提供了一个新的视角。在当前信息极速增长的背景下,短语和句子的相似性在一些情况下无法满足海量信息检索的需求。因此,探索基于文档相似性度量的方法具有重要意义
12、。本文提出了图神经网络实体关系联合抽取模型以及文档相似性计算模型,将文档转换为图结构,引入结构信息和语义信息来对文本进行特征提取,实现了文档相似性计算,并通过实验验证了所提出的相似度计算方法的有效性。1基于句法依存图的多头图注意力实体关系抽取首 先 对 文 本 采 用 双 向 长 短 期 记 忆 网 络(bi-directional long short-term memory,BiLSTM)进行上下文特征提取,然后获得句子的句法依存图,通过图卷积神经网络进行结构区域特征提取。在此基础上,利用多头图注意力神经网络进行实体关系抽取。基于句法依存图的多头图注意力实体关系抽取模型如图 1 所示。图
13、1基于句法依存图的多头图注意力实体关系抽取模型Figure 1Entity and relation extraction model based on syntactic dependency graph and multi-head graph attention9郑 州 大 学 学 报(理 学 版)第 55 卷1.1基于句法依存图的文本特征提取1.1.1句法依存图根据句法依存分析,词之间存在从属依赖的关系。模型将句子的依存图作为输入,依存图可以看作一个具有 n 个节点的有向图 G,其中节点表示句子中的单词,边表示依存图中单词与单词之间的句法依存关系。将句子的依存关系表示为一个 n n 的
14、邻接矩阵 Ann,若节点 ni在依存关系中与节点 nj相连,则将邻接矩阵中对应的 Aij的值设置为 1,即Aij=1,if i.children=j,0,otherwise。(1)通过将句子表示为句法依存图,可以在句子序列关系的基础上引入纵向关系即层级关系,能够更好地表示句子的结构信息,同时也有利于采用图的方式来对句子进行语义特征提取。1.1.2BiLSTM 特征提取层LSTM11是循环神经网络的一种,可以学习长期依赖信息。针对长期记忆和反向传播中梯度消失和梯度爆炸问题,LSTM中引入了三个门结构:输入门、遗忘门和输出门,从而能够对输入的序列信息进行选择性记忆和遗忘。先将句子中的文本信息进行分
15、词,再把包含 n 个词的文本转换成向量序列 wi,i=1,2,n,并且在分词之后通过句法依存分析获得词性标签。将词性标签转换为特征向量,与文本向量进行拼接,形成LSTM 层的输入,xi=Ew(wi);Etag(ti)。(2)通过 BiLSTM 特征提取层,将输入的文本序列信息与句子中的上下文特征充分结合,得到新的特征向量 G,G=g1,g2,gn=BiLSTM(x1,x2,xn)。(3)1.1.3图卷积层图卷积神经网络(graph convolu-tional network,GCN)能够将卷积操作应用到图结构上,具有强大的特征学习能力。图卷积层的输入为通过 BiLSTM 层进行上下文特征提取
16、之后的节点特征向量 G=g1,g2,gn,以及通过句法依存图构建的邻接矩阵 A。一个 GCN 层通过考虑相邻节点的特征来计算新的节点特征,其公式为H(l+1)=(D-12AD-12H(l)W(l),A=A+I,D=jAij,(4)其中:H(l)表示第 l 层文本节点信息的隐藏特征表示,是一个 N d 维的特征矩阵,N 为句子分词后词的个数,d 为节点的特征向量维度;W(l)是可学习的权重参数;是非线性激活函数,实验中采用 ReLU函数。1.2基于多头图注意力的实体关系联合抽取1.2.1图注意力层图注意力网络(graph attention network,GAT)12将注意力机制引入基于空间域
17、的图神经网络中。在 GAT 中,每个节点可以根据邻居节点 的 特 征 被 赋 予 不 同 的 权 值。定 义 权 重 矩 阵W RFF,用来完成节点的特征转换过程,变换公式为zj=Whj。(5)设当前节点为 vi,其中一个邻居节点 vj到 vi的权重系数为eij=a(W(hihj),(6)其中:a()是一个共享的注意力计算函数。模型可以对任意两个节点进行注意力系数计算,但是为了保证图的结构信息,将图的结构融入图注意力机制中。对于每个实体,计算与其相邻的节点的注意力系数。为了更好地分配权重,将当前节点与其所有邻居节点的注意力系数进行归一化处理,ij=softmax(eij)=exp(eij)kN
18、iexp(eik)。(7)对于线性层的运算,一般情况下都要对其进行非线性函数的激活。采用 LeakyReLU 激活函数,最终的注意力计算公式为ij=softmax(LeakyReLU(eij)=exp(eij)kNiexp(Leaky(eik)。(8)计算完节点 vi的每一个相邻节点的注意力系数之后,根据权重对节点 vi的所有相邻节点进行特征求和更新,作为 vi的最终输出,计算公式为hi=(jNiijzij)。(9)通过引入图注意力机制,对单词的不同邻居节点自适应分配不同的注意力,让模型更多地关注更重要的词节点,从而提高神经网络模型的表达能力,有助于提高实体识别以及关系抽取的准确率。1.2.2
19、多头注意力层GAT 层中可以计算任意两个节点之间的注意力系数。在模型中为了保留图结构信息,只计算了中心节点的一阶邻居节点的注意力系数。为进一步提升注意力层的表达能力,引入多头注意力机制13,即对注意力计算公式建立 K 组相互独立的注意力机制,每组注意力机制能够针对关系进行计算,然后将输出的结果进行连接,01第 6 期赵文彬,等:基于图神经网络文档相似度的实体与关系层次匹配方法hi=Kk=1(jNikijzkij)。(10)模型将每一种关系作为一组独立的注意力机制,不同的关系注意力能够突出不同的关系,使模型具有更强大的关系学习能力,并使模型对于关系的抽取更加准确。为了将不同的关系作为独立的注意力
20、机制来进行计算,首先为每一种关系构建相应的邻接矩阵,通过图卷积之后得到节点特征 H(l)。然后,通过 softmax 分类扩展为所有关系对应的类别特征,每个关系形成一个邻接矩阵,作为多头图注意力层的图结构特征。对每一组注意力机制得到的特征向量进行平均操作,这样不仅可以得到一个整体的特征表示,同时也避免了特征向量维度过高,对应的计算公式为hi=(1KKk=1jNikijzkij)。(11)2融合层次类型的文档相似性匹配利用加权层次类型编码以及词移距离(word movers distance,WMD)9的思想对文档间的相似性进行评价分析,提出基于 WMD 的融合层次类型的相似度计算模型和基于图相
21、似的计算模型。2.1基于层次类型的 WMD 文档相似性计算2.1.1加权层次类型编码层次类型14信息暗示了一个实体在不同场景中可能扮演的不同角色,这些类型通常由层次结构构成,其中不同粒度的语义概念被认为是不同层中的子类型,大多数实体都有多个层次类型。最精确的子类型是距离实体最近的层次,即第 1 层,将层次结构自下而上地编号,可以得到层次类型的表示为c=c(1),c(2),c(k)。(12)假设有层次类型 c,其在层次类型结构中对应了一条由子类型构成的链,其中粒度由细到粗的子类型依次为 c(1),c(2),c(k-1),其对应的投影矩阵分别为 Mc(i)。由于结构中子类型的不同粒度可能在重要性上
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 神经网络 文档 相似 实体 关系 层次 匹配 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。