基于证据句与图卷积网络的文档级关系抽取.pdf
《基于证据句与图卷积网络的文档级关系抽取.pdf》由会员分享,可在线阅读,更多相关《基于证据句与图卷积网络的文档级关系抽取.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于证据句与图卷积网络的文档级关系抽取马建红,龚天,姚爽(河北工业大学 人工智能与数据科学学院,天津 300401)摘要:针对基于图卷积网络的文档级关系抽取模型存在未对邻居节点贡献度加以区分及句子噪声的问题,在将证据句融入图卷积网络进行消息传播的基础上,构建一种改进的文档级关系抽取模型。基于启发式路径得到包含证据句的路径信息,在包含证据句的路径信息基础上进行关系抽取,统计所有样本路径中的句子占比,并在异构图中融入证据句路径信息进行相似度计算,得到与样本相关的 3句证据句。在证据句信息的基础上对不同类型的边根
2、据贡献度区分规则赋予相应权重,并使用图卷积操作对节点信息进行二次增强,最终实现文档级关系抽取。在DocRED 数据集上的实验结果表明,该模型的 F1 值达到 56.96%,相比于 Paths、Hin-Glove 等基线模型提升了 0.4213.51个百分点,验证了在文档图中融入证据句信息对于提升文档级关系抽取模型性能的有效性。关键词:文档级关系抽取;图卷积网络;证据句;异构图;权重开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(8):104-110.英文引用格式:MA J H,GONG T,YAO S.Document-level relat
3、ion extraction based on evidential sentences and graph convolutional network J.Computer Engineering,2023,49(8):104-110.Document-Level Relation Extraction Based on Evidential Sentences and Graph Convolutional NetworkMA Jianhong,GONG Tian,YAO Shuang(School of Artificial Intelligence,Hebei University o
4、f Technology,Tianjin 300401,China)【Abstract】In document-level relation extraction models based on a Graph Convolutional Network(GCN),the contribution of neighboring nodes and sentence noise cannot be distinguished.To address this issue,an improved document-level relation extraction model is built,wh
5、ereby evidential sentences are integrated into the GCN for message propagation.Based on heuristic paths,path information containing evidential sentences is obtained to extract relations.The proportion of sentences in all sample paths is counted,and evidential sentence path information is integrated
6、into heterogeneous graphs for similarity calculations to obtain three evidential sentences related to the samples.The evidential sentence information is subsequently used to assign corresponding weights to different types of edges according to contribution differentiation rules.A graph convolution o
7、peration is used to enhance the node information twice,ultimately achieving document-level relation extraction.The experimental results on the Document-level Relation Extraction Dataset(DocRED)show that the F1 value of the model reaches 56.96%,which is 0.42-13.51 percentage points higher than those
8、of models such as Paths and Hin-Glove.This verifies the effectiveness of incorporating evidential sentence information into document graphs to improve the performance of document-level relation extraction models.【Key words】document-level relation extraction;Graph Convolutional Network(GCN);evidentia
9、l sentence;heterogeneous graph;weightDOI:10.19678/j.issn.1000-3428.00654610概述目前,互联网上的信息多数是以半结构化或者非结构化数据的形式存在,这就需要利用可学习文本语义的模型对其进行数据挖掘与分析,因此信息抽取技术应运而生。关系抽取作为信息抽取的子任基金项目:科技部创新方法工作专项(2019IM020300)。作者简介:马建红(1965),女,教授、博士,主研方向为自然语言处理、知识图谱;龚 天,硕士研究生;姚 爽(通信作者),助理研究员、硕士研究生。收稿日期:2022-08-08 修回日期:2022-11-10 Em
10、ail:人工智能与模式识别文章编号:1000-3428(2023)08-0104-07 文献标志码:A 中图分类号:TP391.3第 49卷 第 8期马建红,龚天,姚爽:基于证据句与图卷积网络的文档级关系抽取务,受到研究人员的广泛关注,通过对海量数据进行关系抽取并将非结构化文本转化为结构化的关系数据,为问答系统、知识图谱等下游任务提供支持,同时对篇章理解、摘要生成等任务也具有重要作用。关系抽取的目的在于识别出头尾实体之间的关系。早期的关系抽取工作1-3侧重于提取句子内的关系,但是现实世界中实体之间的大量关系通常跨多个句子,根据对维基百科语料库的分析4,至少40.7%的关系无法简单通过单个句子获
11、取,因此近些年的研究5-7将其提升到了文档层面。相较于传统卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)等网络结构,图神经网络能够更好地在文档层面建立实体之间的联系,进而更好地完成文档级推理。因此,在解决文档级关系抽取问题时,基于文档图的关系抽取8成为主流方法,同时使用图神经网络进行文档级关系抽取主要分为基于同构图9和基于异构图10两类。在图神经网络编码方面,Glove11和 BERT12都可以得到 token级别嵌入,包含自身语义、类型、相对位置等多种信息。在图神经网络迭代方面,图卷积
12、网络(Graph Convolutional Network,GCN)13-15以及图注意力网络(GAT)16可以为邻域中的不同节点指定不同的权值,注意力图卷积网络17-18经过多次迭代可得到平滑后的节点结构化特征。部分图神经网络模型使用多个层级的图神经网络抽取不同层级的结构化特征。GAIN10构建指称级别和实体级别的两个图,通过指称级别的图卷积网络得到更好的指称嵌入,并以此得到更好的实体嵌入。DHG19将词和句子构建为挖掘实体的结构特征图,并建立指称和实体的关系推理子图,得到推理层级信息。在图神经网络分类方面,通常在图神经网络得到节点结构化特征后,模型会使用跳跃连接的方式将节点的语义和上下文
13、特征与结构化特征进行联合,通过双线性函数对实体对进行关系分类,由于同一个实体对之间可能存在多种关系,因此通常使用多标签Sigmoid的方式输出全部类别下的概率,使用二元交叉熵损失进行训练。Sigmoid 函数输出存在阈值选择问题,ATLOP 模型20使用自适应阈值技术解决了Sigmoid函数阈值选择和多标签分类问题。HUANG等21通过在 DocRED5和 GDA22数据集上的实验结果表明,仅通过 1 句证据句就能预测实体对之间关系的比例超过 50%,当达到 3句证据句时可覆盖 95%以上的实体对关系,通过使用证据句可大幅缩短文档中与该实体对无明显语义关系的句子数量,避免分散注意力。近年来,在
14、图卷积网络上进行跨句子关系抽取的研究主要集中于图卷积网络的聚合过程。虽然图卷积网络有很强的聚合信息的能力,但在聚合过程中仍存在:1)句子噪声问题,在文档级关系抽取中,虽然推断一个关系可能需要多句句子,但文档中的句子对每个实体对而言并不同等重要,有些句子可能与关系预测无关,这些无关句子会给模型带来一定的噪声,在图卷积网络中更新一个节点时会依赖邻居节点信息进行消息传递,这可能使一些无关的句子节点也会对该节点的更新产生影响;2)没有有效区分邻居节点的贡献度,图卷积网络充分利用了全局信息,根据边类型进行更新,保证了信息完整性,但是没有对邻居节点贡献度加以区分。针对以上问题,本文提出基于证据句与图卷积网
15、络的文档级关系抽取模型(ESAG),通过基于图卷积网络的证据句抽取来减少无关句子的数量,以解决句子噪声问题,同时在证据句的基础上对不同类型的边赋予相应权重,构造一个带权重的异构图区分邻居节点贡献度。1基于证据句与图卷积网络的关系抽取模型ESAG 主要包括编码、证据句抽取、贡献度区分、关系预测等 4个模块,如图 1所示。在模型训练过程中,编码模块的作用是将训练集经过 Glove的映射处理后使词转化为词向量,然后经过 BiLSTM 的处理获取包含语义信息的词嵌入。证据句抽取模块主要是得到 3 种不同的表征,分别是经过 GCN 后的词嵌入表征、包含头尾实体词的证据句表征以及在语义的基础上包含与头尾实
16、体词义相近的证据句表征,具体为:基于编码模块输出的词向量构造无权异构图,通过 GCN 进行一次特征增强图 1ESAG模型框架Fig.1Framework of ESAG model1052023年 8月 15日Computer Engineering 计算机工程可以得到相应节点的向量表示;基于启发式路径21对训练集中每个文档进行处理,得到包含每个样本中头尾实体词的证据句;为了不局限于词语本身,基于前两种输出并在相似度计算的基础上得到与头尾实体词义相近的证据句。为了使模型更加关注每个样本中与证据句相关的节点,在 GCN 后的词嵌入和包含语义的证据句基础上采用有权图进行贡献度区分,经过二次增强来区
17、分不同节点的作用。在关系预测模块中基于多种表征来构成实体对表征,并在多分类器的基础上进行预测,最后通过反向传播更新参数。1.1编码模块编码模块是将文档Dd=wini=1转换为向量序列gini=1。对于文档中的每个单词wi,将其对应的单词嵌入、实体类型嵌入和共指嵌入相连接,如式(1)所示:xi=Ew(wi);Et(ti);Ec(ci)(1)其中:Ew()、Et()和Ec()分别表示单词嵌入、实体类型嵌入和共指嵌入;ti和ci表示实体类型和实体 id,使用 None表示不属于任何实体类型的情况。将包含 3 种信息的词表征输入编码器,获得每个词的上下文表示,如式(2)所示,其中,编码器可以是 Glo
18、ve、LSTM、BERT等。g1 g2 gn=Encoderx1x2xn(2)1.2证据句抽取模块1.2.1 无权异构图构建为了对文档级信息、提及和实体之间的交互进行建模,采用无权异构图进行处理,异构图中有指称节点、实体节点、句子节点等 3 种不同类型的节点,其中:指称节点对应于文档中实体的不同提及,通过计算包含这些实体的单词特征的平均值来表示;实体节点表示独特的实体概念,每个实体可能有多个指称,因此实体节点的特征依赖于指称节点的特征,由与实体相关的指称节点特征的平均值来表示;句子节点由句子中所有单词特征的平均值来表示。为了区分图中不同的节点类型,将节点类型信息嵌入每个节点表示,并根据节点类型
19、设计 5 种类型的边:1)指称-指称(M-M)。在不同句子中同时出现的指称和指称可能是一种比较微弱的关系,只有当不同的指称位于同一个句子中时,才会创建指称与指称的边。2)指称-实体(M-E)。同一个实体包含多个指称,因此创建指称与实体的边。3)指称-句子(M-S)。将指称与其所在的句子构建一条指称到句子的边。4)实体-句子(E-S)。实体的表征是对应指称求和之后的平均值,因此实体到句子的边是由对应指称所在句子决定的。5)句子-句子(S-S)。与指称到指称的边类似,为了减少图中边的数量,只考虑相邻句子之间的情况。1.2.2 一次特征增强在构建异构图后,在异构图上应用图卷积网络来聚合邻居节点的信息
20、,这是对全图节点的特征进行增强,图卷积运算定义如下:h(l+1)u=(k=Knv Nk(u)nW(l)kh(l)v+b(l)k)(3)其中:K表示 5 种类型的边;W(l)k Rd d和b(l)k Rd表示可学习的参数,l表示图卷积网络的层数;Nk(u)表示节点u的第k类边所对应的邻居节点集合;为激活函数。GCN 的每一层表示不同抽象级别的特征,为了覆盖所有层级的特征,将每个层的隐藏状态进行融合,得到指称节点、实体节点、句子节点的最终表示,如式(4)式(6)所示:mu=1Ll=1Lm(l-1)u(4)ei=1Q+1(1Ll=1Le(l-1)i+j=1Qmj)(5)sn=1Ll=1Ls(l-1)
21、n(6)其中:L表示 GCN 的层数;Q表示实体节点对应的指称节点个数。1.2.3 证据句抽取通过对 3 个广泛使用的数据集 DocRED、DGA和 CDR23进行统计发现:95%以上的实例需要不超过 3句证据句,其中 87%甚至只需 2句或更少。为了加速模型训练,假定只需要 3 句证据句就能得到每个实体对之间的关系。该模型在训练前通过启发式路径获取每个样本关于证据句的 3类路径信息,分别是连续路径、多跳路径和默认路径,优先级依次降低。连续路径表示的头尾实体出现在连续的 3 句句子中,那么头尾实体所在的句子就构成了连续路径。多跳路径表示的是头尾实体不出现在 3 句连续的句子中,但可以通过桥实体
22、连接,如句子 A 包含头实体和桥实体,句子B 包含尾实体和桥实体,并且句子 A 和句子 B 不在3句连续的句子中,那么句子 A 和句子 B就是多跳路径,考虑到只有 3 句证据句,因此仅涉及 1 跳和 2 跳的情况。默认路径表示头尾实体所在的任意 2句句子的组合。考虑到每条路径都有自己独立的语义信息,将每条路径的句子按原文档的顺序组合成一个新的文档,重新经过 BiLSTM 得到与上下文有关的特征,通过双层感知器得到当前样本所对应的每条路径的概率,然后选择概率最高的路径作为局部信息。为了106第 49卷 第 8期马建红,龚天,姚爽:基于证据句与图卷积网络的文档级关系抽取选择与头尾实体词义相近的词,
23、从统计学角度出发,将样本中所有路径包含的句子进行统计,依据每条路径中句子的占比分配,统计占比最大的 2 句句子作为证据句,并通过将目标实体对与sn做相似度计算,得到相似度最大的 1句句子,最终得到每个样本所对应的 3句证据句。1.3贡献度区分模块1.3.1 贡献度区分规则为了使模型更加关注每个样本中与证据句相关的节点,采用有权图进行贡献度区分。有权图中节点的类型和边的类型采用与第 1.2.1 节相同的类型,不同的是每条边都赋予一定的权重。为了对与证据句相关的边进行增强,将边分为4 种类型,分别是与句子无关且没有自反边的 M-E、与句子无关但有可能包含自反边的 M-M、与句子相关且没有自反边的
24、M-S和 E-S、与句子相关但可能包含自反边的 S-S,其中,自反边是为了防止丢失节点自身携带的信息,为每个节点添加一条指向自身的边18。不同类型的边采用不同的权重策略,贡献度区分规则如下:1)M-E的权重通过超参数进行调整。2)M-M 的权重根据是否包含自反边进行区分,如果不包含自反边,则权重通过超参数进行调整,否则设置权重为 1,这样便于在消息传播过程中保留自身节点信息。3)M-S、E-S 根据相应的句子节点是否为证据句进行不同的设置,如果是证据句,则权重设置为,如式(7)所示,否则直接通过超参数进行调整。=+F(Sevijnnodej)j=13i=1njF(Sevijnnodej)(7)
25、其中:nj表示以证据句j为节点的边的数量,边的一端是以证据句j为节点,另一端的节点用nnodej表示,nnodej使用经注意力机制增强后的节点进行表示,使实体、指称节点更趋近证据句;证据句j由Sevij来表示;F是相似度计算函数;加入超参数进行调整,使相应边的权重具有一定适应性。4)S-S 的权重在规则 3)的基础上还要考虑自反边的情况。1.3.2 二次特征增强在得到有权异构图后,在异构图上应用图卷积网络来聚合邻居节点信息,此时的特征增强是在贡献度区分规则的基础上进行,以样本节点为基本单位进行增强。图卷积运算定义如下:L(l+1)u=(k=Knv Nk(u)nD-1/2AD-1/2h(l)uW
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 证据 图卷 网络 文档 关系 抽取
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。