基于实体对注意力机制的实体关系联合抽取模型.pdf
《基于实体对注意力机制的实体关系联合抽取模型.pdf》由会员分享,可在线阅读,更多相关《基于实体对注意力机制的实体关系联合抽取模型.pdf(10页珍藏版)》请在咨信网上搜索。
1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 0 9 9-1 0基于实体对注意力机制的实体关系联合抽取模型朱继召1,赵一霖1,张家鑫1,黄友澎2,范纯龙1(1.沈阳航空航天大学 计算机学院,辽宁 沈阳1 1 0 1 3 6;2.武汉数字工程研究所,湖北 武汉4 3 0 0 7 4)摘 要:实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图
2、谱的关键技术。考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(E P S A)。首先,使用双向长短时记忆网络(B i-L S TM)结合条件随机场(C R F)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取。在公开数据集NY T和W e b N L G上对提出的E P S A模型进行评估,实现结果表明,与目前
3、主流联合抽取模型相比,E P S A模型在F1值上均得到提升,分别达到8 4.5%和8 8.5%,并解决了单一实体重叠问题。关键词:知识图谱;注意力机制;实体关系联合抽取中图分类号:T P 3 9 1 文献标识码:AJ o i n tE n t i t ya n dR e l a t i o nE x t r a c t i o nM o d e lB a s e do nE n t i t y-P a i rS p e c i f i cA t t e n t i o nM e c h a n i s mZ HUJ i z h a o1,Z HAOY i l i n1,Z HAN GJ i
4、a x i n1,HUAN GY o u p e n g2,F ANC h u n l o n g1(1.C o l l e g eo fC o m p u t e rS c i e n c e,S h e n y a n gA e r o s p a c eU n i v e r s i t y,S h e n y a n g,L i a o n i n g1 1 0 1 3 6,C h i n a;2.W u h a nD i g i t a lE n g i n e e r i n gR e s e a r c hI n s t i t u t e,W u h a n,H u b e i
5、 4 3 0 0 7 4,C h i n a)A b s t r a c t:E n t i t ya n dr e l a t i o ne x t r a c t i o n i s ak e y t e c h n o l o g y t oa u t o m a t i c a l l yb u i l d l a r g e-s c a l ek n o w l e d g eg r a p h s f r o mm a s s i v e t e x td a t a.C o n s i d e r i n gt h ee f f e c to f t h ee n t i t y
6、o nt h ed i s c r i m i n a t i o no f r e l a t i o nt y p e s,t h i sp a p e rp r o p o s e saj o i n t e n t i t ya n d r e l a t i o ne x t r a c t i o nm o d e l b a s e do ne n t i t y-p a i r s p e c i f i c a t t e n t i o nm e c h a n i s m(E P S A).F i r s t,t h e e n t i t yr e c o g n i
7、t i o ni sc o m p l e t e db a s e do nB i-d i r e c t i o n a lL o n gS h o r t-T e r m M e m o r y(B i-L S TM)a n dC o n d i t i o n a lR a n d o mF i e l d s(C R F).T h e nt h ee x t r a c t e de n t i t i e sa r ec o m b i n e d i n t oe n t i t y-p a i r sa n dt r a n s f o r m e d i n t oau n
8、i f i e de m b e d d i n g.T h es e n t e n c er e p r e s e n t a t i o n i so b t a i n e db yt h ee n t i t y-p a i rs p e c i f i ca t t e n t i o nm e c h a n i s mp l u st h ee n t i t y-p a i re m b e d-d i n g.A n df i n a l l y,t h er e l a t i o ne x t r a c t i o n i sc o m p l e t e db y
9、t h eac l a s s i f i c a t i o np r o c e s s.E x p e r i m e n t a l r e s u l t so nNY Ta n dW e b N L Gd a t a s e t s s h o wt h a t t h ep r o p o s e dm e t h o do u t-p e r f o r m s t h eb a s e l i n e sb ya c h i e v i n g8 4.5%a n d8 8.5%F1v a l u e,r e s p e c t i v e l y.K e y w o r d
10、s:k n o w l e d g eg r a p h;a t t e n t i o nm e c h a n i s m;j o i n t e n t i t ya n dr e l a t i o ne x t r a c t i o n收稿日期:2 0 2 2-1 1-0 7 定稿日期:2 0 2 3-0 1-1 6基金项目:国家自然科学基金(6 1 9 7 2 2 6 6)0 引言互联网、云计算和5 G通信等技术群的发展成果被广泛应用于各领域,引发了网络空间数据的爆炸式增长,这其中包含7 5%以上的非结构化数据。如何对海量非结构化数据进行有效组织和管理,成为备受学术界和工业界关注
11、的热点问题1。2 0 1 2年,谷歌提出的知识图谱技术2将数据表达为知识化的大规模语义网络,这是目前用于多源异构数据融合的最有效手段之一。知识图谱由节点(N o d e)和边(E d g e)构成,其中,节点代表客观世中 文 信 息 学 报2 0 2 4年界中的实体(E n t i t y)或者概念(C o n c e p t),边代表实体/概念 之 间 的 关 系(R e l a t i o n)3。实 体 关 系 抽取4作为知识图谱构建的核心任务,通常被分解为实体识别和关系抽取,其实现方法主要是通过对文本信息建模,识别文本中的实体以及实体对间的 语 义 关 系,常 被 用 于 文 本 摘
12、要5、智 能 问答6、信息检索7等领域。早期的实体关系抽取通常以基于规则的方法和基于机器学习的方法为主。基于规则的方法8需要大量专业人士编写规则,而且覆盖的领域也有限,不具备迁移性。基于机器学习的方法9通常以基于统计的方法为主,这种方法严重依赖人工提取的特征,并且无法应用到大规模文本中。近年来,随着深度学习技术的不断发展,基于深度学习的实体关系抽取方法1 0能够自动获取数据中的深层次的特征,有效缓解上述方法过于依赖自然语言处理工具带来的误差问题,因此受到了极大的关注。基于深度学习的实体关系抽取方法主要分为流水线(P i p e l i n e)和联合(J o i n t)抽取方法。流水线抽取方
13、法1 1-1 4将实体识别和关系抽取看作是两个独立的任务,首先识别出一个句子中的所有实体,然后进行实体配对,最后对每对实体进行关系分类。该方法易于实现,灵活度高,但存在特征提取不全、误差传播、信息冗余的问题,并且两个子任务之间缺乏交互1 5。相比于流水线抽取方法,联合抽取方法1 6-2 3作为目前实体关系抽取的主流方法,采用共享参数、联合解码等手段将实体识别和关系抽取两项子任务联合,并基于深度神经网络框架完成实体关系抽取。联合抽取方法能够有效缓解流水线抽取方法带来的误差传播问题,并利用实体和关系之间的紧密联系,提高实体关系抽取任务的准确率,成为目前实体关系抽取的主流方法。在实际应用中,文本数据
14、中存在大量三元组重叠现象,例如,“成龙导演并主演了辛亥革命。”,实体“成龙”和实体“辛亥革命”之间存在“导演”和“主演”两种语义关系。对于上述文本中存在的三元组重叠情况,现有的大多数实体关系抽取方法仍无法有效应对。Z e n g等人1 8根据实体重叠的方式将三元组类型划分为:标准(N o r m a l),没有重叠的实体;单一实体重叠(S i n g l eE n t i t yO v e r-l a p,S E O),三元组共享一个实体;实体对重叠(E n t i t yP a i rO v e r l a p,E P O),三元组共享一对实体。详见表1所示。表1 重叠三元组类型类型文本三元
15、组N o r m a l特朗普出生于纽约。(特朗普,出生于,纽约)S E O特朗 普 出 生 于 纽 约,美国。(特朗普,出生于,纽约)(纽约,位于,美国)E P O成龙导演并主演了辛亥革命。(成龙,导演,辛亥革命)(成龙,主演,辛亥革命)针对三元组重叠问题,Z e n g等人1 8提出了一种基于复制机制的端到端模型C o p y R e,能够在一定程度上解决上述三种重叠类型的实体关系三元组抽取,但 存 在 无 法 预 测 多 单 词 实 体 问 题。为 此,Z e n g等人1 9又提出了一个基于复制机制的多任务学习框架C o p y MT L。F u等人2 0和D u a n等人2 1采用
16、图卷积神 经 网 络(G r a p hC o n v o l u t i o n a lN e t-w o r k,G C N)来解决重叠三元组问题,并取得一定的进展,但模型仍有待改进之处。早期研究表明,利用实体信息、实体类型信息以及实体的其它额外信息,对关系抽取任务均具有重要意义2 4。为此,本文考虑到头尾实体信息对关系抽取的重要影响,提出了一种基于实体对注意力机制的实体关系联合抽取模型(J o i n tE n t i t ya n dR e l a t i o nE x t r a c t i o nM o d e lB a s e do nE n t i t y-p a i rS p
17、 e c i f i cA t t e n t i o nM e c h a n i s m,E P S A),旨在生成不同实体对下的句子表示用于关系抽取。首先,使用B i-L S TM结合C R F的方法进行实体识别;其次,将抽取出的实体进行配对,并采用基于实体对注意力机制的句子编码模型,有效融合实体对信息,生成特定实体对注意力下的句子表示;最后,将句子表示输入到全连接层中,再通过由S o f t m a x函数构成的分类器完成关系类型的预测。在公开数据集NY T和W e b N L G上对本文模型进行了验证,实验结果表明所提模型在实体关系联合抽取任务上十分有效,F1值分别达到8 4.5%和
18、8 8.5%,并能解决单一实体重叠问题。1 相关工作1.1 流水线抽取方法 流水线抽取方法将实体识别和关系抽取看作是两个独立的任务,在实体已被标注的基础上进行实体间关系的抽取。该方法包括采用卷积神经网络(C o n v o l u t i o n a lN e u r a lN e t w o r k s,C NN)、循环神经网络(r e c u r r e n tn e u r a ln e t w o r k s,R NN)或者其改进 模 型 如 长 短 时 记 忆 网 络(L o n gS h o r t-T e r m0012期朱继召等:基于实体对注意力机制的实体关系联合抽取模型M e
19、 m o r y,L S TM)2 4。L i u等人1 1首次提出采用卷积神经网络进行关系抽取,该方法通过结合词汇特征,采用同义词词典对输入的单词进行编码,将语义知识集成到神经网络中进 行关系抽取。Z e n g等人1 2利用卷积神经网络提取词汇级和句子级特征,形成一个最终的特征向量,输入到S o f t m a x分类器中进行关系 分类。S o c h e r等 人1 3首 次 提 出 采 用R NN学习任意句法类型和长度的短语和句子的组合向量表示,用来分类句子中单词之间的语义关系。由于传统的R NN模型存在梯度消失、梯度爆炸等问题,L S TM网络通过其门控操作有效缓解了这些问题,并且能
20、够学习到语料中的长期依赖关系,后得到了广泛应用。X u等人1 4提出了一种基于最短依赖路径的L S TM模型,结合单词本身、单词词性、语法关系和W o r d N e t多种信息,后使用S o f t m a x函数进行关系抽取。虽然流水线抽取方法具有操作简单、易于实现的优点,但是实体识别任务的错误会继续传入到关系抽取任务中,造成错误的累积;其次,并不是所有抽取出的实体之间都存在关系,会出现实体冗余的情况,并且大大增加计算量;最后,它忽略了两个任务之间的内在联系,不能很好地利用两个任务之间的隐含关系,从而造成信息的缺失。1.2 联合抽取方法由于流水线抽取方法存在以上问题,研究者们提出了实体关系
21、联合抽取的方法。联合抽取方法是指对实体识别和关系抽取任务同时建模,使用一个模型直接抽取出实体关系三元组7,并能够增强两个任务的联系,从而提高联合任务的准确率。M i w a等人1 6首次提出使用一个模型来抽取实体及实体之间的关系,其中实体识别和关系抽取两个子任务采用共享底层编码器B i-L S TM的方法进行交互,然后依据构造的依赖树进行实体间关系的抽取。Z h e n g等人1 7首次提出将联合抽取任务转换成一个序列标注问题,并提出一种新的标记方案同时抽取实体和实体间关系,解决了流水线抽取方法中实体冗余的问题。由于参数共享和序列标注方法均不能有效解决重叠三元组的抽取问题。为此,研究者们基于复
22、制机制、图、序列到序列的方法开展了一系列深入研究工作。Z e n g等人1 8提出一种基于复制机制的端到端模型C o p y R e,用于解决重叠三元组抽取不全面的问题。该方法通过复制实体,使实体能够被多次使用,再针对不同情况使用不同的解码器,从而有效解决了三元组重叠问题。之后,Z e n g等人1 9又针对C o p y R e模型不能预测多单词实体的缺点,提出基于复制机制的多任务学习框架C o p y MT L,该框架通过在编码阶段添加序列标记层,解决了实体边界识别不清晰的问题,从而有效提高实体关系抽取的准确率,但是该模型预测三元组数量受到限制。F u等人2 0提出基于图卷积神经网络的端到
23、端模型联合抽取实体和关系,通过结合R NN和G C N,不仅能够提取每个单词的顺序特征,还能够提取其他的区域依赖特征,引入的加权G C N能够考虑实体和关系之间的相互作用,从而更好地抽取关系,因此能在一定程度上解决重叠三元组问题,但模型性能受到依存树影响。D u a n等人2 1提出一种基于多头自注意力机制和密集连接的图卷积神经网络的关系自适应实体关系联合抽取模型MA-D C G C N,使用多头注意力机制对实体之间的多种关系类型分配不同的权重,确保多种关系不互相排斥,利用密集连接的G C N进行文本更深层次的信息提取,从而有效提升模型的抽取效果,但关系之间缺少信息交互。Y u a n等人2
24、2提出一种特定关系下的注意力网络,构建不同关系下的句子表示,然后抽取其对应的头尾实体,以此完成实体关系的联合抽取,模型中所提出的关系注意力网络能够过滤掉不相关的关系,减少计算量,但在E P O类三元组上表现不佳。Y u等人2 3将联合抽取任务分解成两个相互关联的子任务,即HE提取和T E R提取,并采用基于跨度的标记方案将这两个子任务进一步分解为若干个序列标记问题。HE提取是区分可能与目标关系相关的所有头实体,T E R提取是为每个提取的头实体识别出对应的尾实体和关系。在联合模型中引入分解策略和跨度策略,能够捕获语义间的依赖关系,但是会存在头尾实体交互缺失的问题。综上所述,实体关系联合抽取已取
25、得丰硕的研究成果。但是,在语义信息融合、重叠三元组抽取等问题上还存在不足。为此,本文针对这些问题开展深入研究,提出了基于实体对注意力机制的实体关系联合抽取模型,能够获取更深层次的语义信息,并且能够融合实体的相关信息进行关系预测,在一定程度上解决三元组重叠问题。2 基于实体对注意力机制的实体关系联合抽取模型 受Y u a n等人2 2在2 0 2 1年提出的R S AN模型的启发,本文设计了一种基于实体对注意力机制的101中 文 信 息 学 报2 0 2 4年实体关系联合抽取模型E P S A,整体采用统一学习框架将实体识别和关系抽取两个子任务进行联合训练,E P S A模型的总体架构如图1所示
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 实体 注意力 机制 关系 联合 抽取 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。