![点击分享此内容可以赚币 分享](/master/images/share_but.png)
文档级关系抽取中的小波变换特征增强方法.pdf
《文档级关系抽取中的小波变换特征增强方法.pdf》由会员分享,可在线阅读,更多相关《文档级关系抽取中的小波变换特征增强方法.pdf(13页珍藏版)》请在咨信网上搜索。
1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 1 0 9-1 2文档级关系抽取中的小波变换特征增强方法杨 肖,肖 蓉(湖北大学 计算机与信息工程学院,湖北 武汉4 3 0 0 6 2)摘 要:传统的文档级关系抽取方法在特征表示的有效性和噪声消除方面存在局限,不能准确地找出证据句子和实体对的关系。为了进一步提升文档级关系抽取和证据句子抽取的准确性,
2、该文提出了一种使用小波变换对预训练语言模型生成的文本向量进行特征提取、清洗和去噪处理的方法。首先利用预训练语言模型对文档进行编码,将得到的初始文本向量应用小波变换出更精确的特征,其次引入多头注意力机制对小波变换的数据进行加权处理,以凸显与实体对关系相关的重要特征。为了充分利用原始数据和清洗后的数据,采用残差连接的方式将它们进行融合。在D o c R E D数据集上对模型进行了实验,结果表明,该文所提模型能够更好地抽取实体对的关系。关键词:文档级关系抽取;小波变换;多头注意力机制中图分类号:T P 3 9 1 文献标识码:AF e a t u r eE n h a n c e dD o c u
3、m e n t-L e v e lR e l a t i o nE x t r a c t i o nw i t hW a v e l e tT r a n s f o r mYAN GX i a o,X I AOR o n g(S c h o o l o fC o m p u t e rS c i e n c ea n dI n f o r m a t i o nE n g i n e e r i n g,H u b e iU n i v e r s i t y,Wu h a n,H u b e i 4 3 0 0 6 2,C h i n a)A b s t r a c t:T r a d
4、i t i o n a lm e t h o d so fd o c u m e n t-l e v e l r e l a t i o ne x t r a c t i o nh a v el i m i t a t i o n si nt h ee f f e c t i v e n e s so f f e a t u r er e p r e s e n t a t i o na n dn o i s ee l i m i n a t i o n.T oa d d r e s s t h i s i s s u e,t h i sp a p e rp r o p o s e s am
5、e t h o d t h a t u t i l i z e sw a v e l e t t r a n s-f o r mt oe x t r a c t,c l e a n,a n dd e n o i s e t e x tv e c t o r sg e n e r a t e db yp r e-t r a i n e d l a n g u a g em o d e l s.F i r s t l y,t h ed o c u m e n t i se n c o d e db yap r e-t r a i n e d l a n g u a g em o d e l,a n
6、 d t h e o b t a i n e d i n i t i a l t e x t v e c t o r s a r e a p p l i e d t ow a v e l e t t r a n s f o r mt oo b-t a i nm o r ep r e c i s e f e a t u r e s.N e x t,am u l t i-h e a da t t e n t i o nm e c h a n i s mi s i n t r o d u c e dt ow e i g h t t h ed a t af r o m w a v e l e tt r
7、 a n s f o r m,h i g h l i g h t i n gt h ei m p o r t a n tf e a t u r e sr e l e v a n tt oe n t i t yr e l a t i o n s h i p s.T of u l l yu t i l i z eb o t ho r i g i n a la n dc l e a n e dd a t a,ar e s i d u a l c o n n e c t i o n i se m p l o y e dt of u s et h e mt o g e t h e r.E x p e r
8、 i m e n to nt h eD o c R E Dd a t a s e td e m o n-s t r a t e t h a t t h ep r o p o s e dm e t h o dp e r f o r m sb e t t e r i ne x t r a c t i n gr e l a t i o n s h i p sb e t w e e ne n t i t yp a i r s.K e y w o r d s:d o c u m e n t-l e v e l r e l a t i o n s h i pe x t r a c t i o n;w a
9、v e l e t t r a n s f o r m;m u l t i-h e a da t t e n t i o nm e c h a n i s m收稿日期:2 0 2 3-0 8-0 9 定稿日期:2 0 2 3-1 1-0 1基金项目:湖北省自然科学基金(E 1 K F 2 9 1 0 0 5);云南省自然科学基金(2 0 2 2 K Z 0 0 1 2 5)0 引言关系抽取(R e l a t i o nE x t r a c t i o n)1是自然语言处理(N a t u r a lL a n g u a g eP r o c e s s i n g,N L P)领域中的重
10、要任务,其目标是从文本数据中准确识别实体之间的语义关系。现有的研究主要集中在句子级关系抽取,即预测单个句子中的实体对关系2。然而,随着实际应用场景的拓展,关系抽取任务逐渐升级至更复杂和更具全局性的实体关系抽取,导致句子级关系抽取面临着文本复杂性和全局信息获取的挑战。文 档 级 关 系 抽 取(D o c u m e n t-l e v e lR e l a t i o nE x t r a t i o n,D o c R E)任务的目标是从文档中准确识别出实体之间的关系,要求模型能够充分利用全局的上下文信息,包括实体在整个文档中的出现位置、实体之间的相互依赖关系等。因此,D o c R E更具
11、挑战性,也更具应用潜力,可以为信息提取3、知识图谱构建4和智能问答5等多个应用领域提供更丰富、更准确的实体关系信息。在D o c R E中,使用预训练语言模型6-7(P r e t r a i n e dL a n g u a g eM o d e l)生成文本向量是一种常见的方法。预训练语言模型能够通过大规模的无监督学习中 文 信 息 学 报2 0 2 4年丰富的语义信息,为文本向量表示提供强大基础。然而,D o c R E面临着一个重要问题:预训练语言模型编码的文本向量可能包含大量无关信息,影响实体关系推理的准确性和效率。为了解决这一问题,本文提出一种新的文本向量处理方法:对预训练语言模型
12、 编 码 的 文 本 向 量 进 行 小 波 变 换(W a v e l e tT r a n s f o r m),可以清洗和去除文本向量中的无关信息,从而提高实体关系的表示准确性。此外,本文还引入多头注意力机制8和残差连接,进一步加强文本向量的表示能力,有助于提高关系抽取的准确性和鲁棒性。1 相关工作早期的研究主要集中在句子级关系抽取9,其目标是预测单个句子中两个实体之间的关系。然而,很多复杂的关系实际上是由多个句子共同表达的,因此近年来的研究开始转向D o c R E。目前,基于T r a n s f o r m e r模型1 0的D o c R E是最流行且取得最好结果的方法。为了通过
13、实体提及增强实体对表示,V e r g a等1 1提出一种使用T r a n s f o r m e r模型实现D o c R E和多实例学习的方法,通过合并多个实体对提及实现关系抽取。由于提及加强实体对表示之后缺少相应的上下文表示,因此Z h o u等1 2使用预训练语言模型中的注意力提取与实体有关的上下文,并对每个实体对采用自适应阈值解决抽取关系的多标签分类问题。为了用提及之间的依赖关系增强实体对表示,X u等1 3改进传统的T r a n s f o r m e r模型,将提及之间的依赖关系嵌入到注意力机制中,从而在整个编码阶段贯穿提及之间的语义信息。X u等1 4设计了一个评估句子重要
14、性的框架,通过聚焦句子损失获取句子重要性框架,鼓励模型重点关注证据句子。Y u等1 5关注文档中实体不同提及的不同语义,通过将预训练语言模型编码的提及表示与候选关系进行注意力机制加权运算,选择性地关注不同的提及关系,从而获得实体的灵活表示。T a n等1 6提出使用轴向注意力和知识蒸馏的方法来加强 实体表示,以 提高关系抽 取的推理 性能。H u a n g等1 7使用预训练语言模型作为文档输入的编码器,同时提取关系和证据句子,但并未将提取到的证据句子特征补充到实体中,仅使用预训练语言模型中的注意力矩阵关注实体相关的上下文。X i e等1 8在此基础上将抽取的证据句子形成伪文档,并与原文档抽取
15、的结果进行融合,从而提升关系抽取的准确率。M a等1 9针对证据句子检索面临的高内存消耗和有限注释可用性问题,通过采用证据信息作为监督信号引导D o c R E模型的注意力模块对证据赋予较高权重,并采用自我训练策略在海量数据中自动学习证据句子的提取方法。上述思想都是从实体、提及、证据句子、上下文这四个角度进行优化和提升,基础编码器均为预训练语言模型。M a h a j a n等2 0首次将基于小波变换的算法应用于短文本分类中的特征选择。基于此,本文直接从预训练语言模型的角度出发,将其编码生成的文本向量作为输入信号,使用小波变换进行数据清洗和去噪,并使用注意力机制重新获取文本向量中实体标记之间的
16、上下文表示,为了保持全局信息的有效性,使用残差连接将两种文本向量融合。其中,小波变换是一种多尺度的信号分析方法2 1,其特点是在相同宽度的频带上进行信号去噪2 2。在小波变换的过程中,信号经过逐层分解,每层分解将信号分成两个子信号,分别代表不同频率分量。这样的分解过程使得小波变换能够提供更全面和细致的信号特征,从而使信号的表达更加丰富和准确。首先,信号去噪是小波变换的主要应用之一2 2,能够有效地清洗和去噪输入信号,通过去除无关信息和冗余,提高输入信号的质量和准确性。这对于提取干净的信号非常重要,尤其在复杂环境下的实际应用中,信号通常伴随着噪声和干扰。小波变换能够对信号进行逐层分解和重构,从而
17、去除噪声,使得提取的信号特征更加可靠和准确。其次,小波变换提供了非常好的特征提取能力2 3,能够捕捉信号的细微特征和频率信息。通过在不同尺度上对信号进行分解,小波变换能够获取不同频率分量的信息,从而更准确地描述实体之间的关系和语义信息。此外,引入多头注意力机制和残差连接进一步增强了输入信号的表示能力,提高了关系抽取的准确性和鲁棒性。综上所述,通过将预训练语言模型编码的文本向量应用小波变换,可以有效去除无关信息,增强文本的表示能力,从而提高D o c R E的准确性和鲁棒性。2 模型架构本文采用的方法与传统的关系抽取的管道模型不同,它采用联合抽取模型实现对D o c R E任务的一体化处理。在此
18、过程中,除了关系抽取外,还同时提取文档中的证据句子。接着,利用这些抽取的证据句子构建一个证据文档。随后对证据文档进行关系抽取,得到另一组关系预测结果。将两组关系抽取结果0112期杨肖等:文档级关系抽取中的小波变换特征增强方法进行融合,得到最终的关系预测结果。这种联合抽取模型的设计,能够更好地处理D o c R E任务,充分利用了文档中的证据信息,提高了关系抽取的准确性和鲁棒性。基于小波变换的D o c R E模型如图1所示。图1 D o c R E模型的整体结构2.1 问题定义给定一个包含L个句子SnLn=1和N个实体eiNi=1的文档D。D o c R E的目标是预测给定实体对(ep,ec)
19、的所有关系类型,其中,ep和ec分别表示主实体和客实体。文档中所有关系的集合被定义为RN A,其中,R表示已经存在的关系,N A表示不存在关系的标记。实体集合eiNi=1中的每一个实体至少会出现一次,因此每个实体有多个实体提及mijN ej=1,实体提及是实体的另一种表现形式,实体对之间的关系都是通过实体提及表示的。关系r如果存在于实体对(ep,ec)之间,对于该实体对而言就属于有效关系PTr,反之属于无效关系NTr,不存在关系的实体对就会被标记为N A,本文将具有关系的实体对(ep,ec)所在的句子称为证据句子E v ip,c=SeKe=1,数据集D o c R E D2 4存在证据注释句子
20、,但是人工注释的证据句子不能被用来推理实体对的关系。2.2 增强预训练语言模型编码在本 节 中,将 基 于 现 有 的 预 训 练 语 言 模 型B E R T和R o B E R T a作为本文模型的编码器并结合小波 变 换 做 数 据 清 洗 和 特 征 提 取,进 一 步 增 强D o c R E的性能。在训练中,本文使用联合抽取模式预测实体对关系和证据句子,两个部分共享编码器2 5的所有参数,可以增强关系抽取的准确性,但是分别使用不 同的分类器 实现关系抽 取和 证据抽取。给定文档d=xtmt=1,m表示所有标记个数,t表示每个标记所在位置,本文通过在实体提及的开始位置和结束位置 插入
21、“*”表示实体提及的位置,其改编自实体标记技术2 6,将文档输入到预训练语 言模型中可 以获得标记 的嵌 入表示,如式(1)所示。H,A=P R LM_Em b e d d i n g(x1,x2,xl)(1)其中,H=h1,h2,hN 是文档中的标记的矩阵表示,A表示T r a n s f o r m e r最后一层注意力平均值。小波变换能够将文本数据转换到小波域,从中提取频域特征和时域特征,有助于捕捉实体对之间的关系。本文采用一级小波变换,将H作为原始的输入信号,并使用具有双正交性的小波基b i o r 3.5对111中 文 信 息 学 报2 0 2 4年其进行卷积运算,得到近似系数和细节
22、系数。经过小波变换可以在不同频率和时间尺度上对输入信号进行分解,从而获得更全面和详细的信号特征,小波变换特征提取模型如图2所示。图2 小波变换特征提取模型其中,H(n)为原始输入信号,其中n表示数据的索引。然后,定义低通滤波器系数为h1(n),高通滤波器系数为g1(n)。利用这些滤波器系数,计算一级小 波 变 换 的 近 似 系 数A1(n)和 细 节 系 数D1(n)。近似 系 数A1(n)可 以 通 过 将 输 入 信 号H(n)与低通滤波器系数h1(n)进行卷积运算得到。近似系数反映了较低频的特征成分,代表输入数据在时间尺度上的平滑部分,在实体关系分析中能够有效地提取输入数据的整体趋势和
23、共性特征。细节系数D1(n)可以通过将输入信号H(n)与高通滤波器系数g1(n)进行卷积运算得到。细节系数反映了较高频的细节成分,代表输入数据在时间尺度上的快速变化部分。本文选择保留小波变换中的低频系数舍弃细节系数的原因如下:首先,这样的处理方式能够在处理文本向量时去除噪声和冗余信息,从而提高文本向量的质量和准确性。其次,通过保留文本数据的整体趋势,可以更好地捕捉文本数据中的局部特征和全局特征,从而更好地描述实体之间的关系和语义信息。另外,这种保留低频系数的处理方式有助于降低计算复杂度和存储开销,因为细节系数通常包含更多的细节信息,可能会导致向量维度增加。通过舍弃细节系数,能够在保证关系抽取准
24、确性的同时减少计算资源的使用,从而提高模型的效率和速度。具体运算如式(2)、式(3)所示。A1n=(H*h)n(2)(H*h)n=kHk hn-k(3)其中,h代表与b i o r 3.5相关的低通滤波器系数矩阵,用于计算近似系数A1n,“*”表示进行卷积运算。经过小波变换处理之后的原始信号会失去原本的上下文信息,为了应对这一挑战,本文引入了多头注意力机制,这种机制允许模型同时关注文本向量中不同位置的信息,从而捕捉全局的语义关联和上下文信息。多头注意力机制在文本向量处理中具有多个优点。首先,它能够增强文本向量的表示能力,使模型可以更全面地理解实体之间的复杂关系和语义信息。其次,多头注意力机制提
25、供了多样化和丰富的特征表示,从而提高了关系抽取的准确性和鲁棒性。此外,多头注意力机制还能抑制噪声和冗余信息,增强模型的抗干扰能力。最重要的是,多头注意力机制能够有效建模长程依赖关系,增强对实体关系的全局理解能力。通过使用多头注意力机制,可以在经过小波变换后的文本向量中恢复相应的上下文信息,并充分利用全局的语义关联和上下文信息,从而提高D o c R E任务的准确性和鲁棒性。多头注意力模型如图3所示。图3 多头注意力模型首先对小波变换的结果A1(n)应用多头自注意力机制,其中使用不同的线性映射矩阵Q、K、V。通过 汇 集 所 有 注 意 力 头 的 输 出,获 得 中 间 结 果W a v eH
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文档 关系 抽取 中的 变换 特征 增强 方法
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。