基于小样本学习的中文文本关系抽取方法.pdf
《基于小样本学习的中文文本关系抽取方法.pdf》由会员分享,可在线阅读,更多相关《基于小样本学习的中文文本关系抽取方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 卷第 期 年 月南 京 邮 电 大 学 学 报(自 然 科 学 版)():基于小样本学习的中文文本关系抽取方法季一木,张 旺,刘 强,刘尚东,洪 程,邱晨阳,朱金森,惠 岩,肖 婉,南京邮电大学 计算机学院,江苏 南京 南京邮电大学 高性能计算与大数据处理研究所,江苏 南京 国家高性能计算中心南京分中心,江苏 南京 南京邮电大学 高性能计算与智能处理工程研究中心,江苏 南京 南京邮电大学 教育科学与技术学院,江苏 南京 摘要:实体关系抽取作为文本挖掘和信息抽取的核心任务,是知识图谱构建过程中的关键一环。然而人工建立大规模有标签的数据耗时耗力。使用小样本学习来进行关系抽取,仅仅需要少量样本实
2、例就能使模型学会区分不同关系类型的能力,从而缓解大量无标签数据带来的标注压力。本文对中文关系抽取数据集 进行了重构使之适用于少样本学习,并引入了语义关系网络 对实体进行更为精确的语义划分,并在此基础上使用双重注意力机制提高句子编码质量,从而提高了模型在面对噪声数据时的效能,减轻了长尾关系的影响。使用本文的方法在该中文数据集进行了评估,与原始原型网络相比,基于句子级别与实体级别的注意力机制的原型网络在抽取准确率上提升了 的性能。关键词:小样本学习;关系抽取;注意力机制中图分类号:文献标志码:文章编号:(),收稿日期:;修回日期:本刊网址:基金项目:国家重点研发计划(,)、江苏省重点研发计划()、
3、中电鸿信信息科技有限公司合作项目、江苏省自然科学基金()、江苏省高校自然科学研究重大项目(,)、江苏省创新创业人才项目、江苏博士后基金()、江苏省博士后研究实践创新项目(,)、南京邮电大学鼎山人才培养对象项目和南京邮电大学引进人才科研启动基金()资助项目作者简介:季一木,男,博士,教授,博士生导师,;刘强(通信作者),男,博士,讲师,引用本文:季一木,张旺,刘强,等基于小样本学习的中文文本关系抽取方法南京邮电大学学报(自然科学版),():,;,:;随着互联网的快速发展,数据越来越多样化,文本作为信息传播的主要形式之一,不断地更新。实体关系抽取作为文本挖掘和信息抽取的核心任务,是知识图谱构建过程
4、中的关键一环。其主要目的是对句子中实体与实体之间的关系进行识别,抽取句子中的三元组信息,即实体 实体 关系三元组,得到的三元组信息可以提供给知识图谱的构建、问答、机 器 阅 读 等 下 游 自 然 语 言 处 理(,)任务。由于近年来自然语言处理的发展与应用,关系抽取也吸引了许多研究者。有监督的关系抽取方法如、等在该任务上已取得非常好的效果。但是,有监督的关系抽取的准确率往往过于依赖高质量的数据集,而人工标准数据集往往需要耗费大量精力。为了快速构造有标签的大规模数据集,等提出了远程监督的思想,用来生成带标签的大规模数据集。该思想基于这样一个假设:如果一个句子中含有一个关系涉及的实体对,那这个句
5、子就是描述的这个关系。因此,远程监督的数据里存在大量噪声。为了缓解噪声数据问题,等使用分段卷积神经网络()提取特征,基于该模型的扩展有 、等。虽然这些模型在公共关系上取得了令人满意的结果,但当某些关系的训练实例很少时,它们的分类性能仍然会急剧下降。且现有的远程监督模型忽略了长尾关系的问题,这使得这些模型难以从纯文本中提取全面的信息。在小样本学习()方法中,仅仅需要几个样本实例就能使模型学会区分不同关系类型的能力,从而缓解大量无标签数据带来的标注压力。小 样 本 学 习 的 概 念 最 早 从 计 算 机 视 觉()领域兴起,近几年受到广泛关注,在图像分类任务中已有很多性能优异的算法模型,但是在
6、自然语言处理领域发展得较为缓慢,主要原因是与图像相比,文本更加多样化和嘈杂。最近,随着元学习方法()、图卷积神经网络(,)等概念的提出,使得模型能快速地从少量的样本中进行学习。等构建了一个用于小样本关系抽取的数据集,并基于不同的少样本模型对其进行 了 评 估。在 这 些 模 型 中,基 于 原 型 网 络()和 匹 配 网 络()的方法能快速有效地对小样本进行学习并取得比较好的效果。但是 是针对英文文本构建的关系抽取数据集,而相对于英文来说,中文更为复杂,具体表现在:()在中文里,最小的语义单位是字,而字与字之间又能组成不同语义的词,所以在处理中文分词时容易遇到歧义问题;()随着互联网的发展,
7、会对一些词赋予新的含义,同时组合不同的字也会产生一些新的词汇,给模型的训练带来了不小的难度;()中文还有一个特点是重意合而不重形式,句子结构比较松散,不易于提取特征。为了解决上述问题,本文以 为基础,重新构建了中文关系抽取数据集,使用语义关系的网络 对抽取实体进行语义细分,同时基于改进后的 对输入的文本进行编码,使用少样本学习中的原型网络对数据进行关系抽取。同时,为了减少噪声数据对结果准确率的影响,考虑到每一次训练中,不同的实例对结果的影响不同,这里使用了基于实例级别的注意力机制对模型进行优化。综上所述,本文的主要贡献如下:()基于 重新构建了适合少样本学习的中文数据集。()在对句子级的注意力
8、机制的基础上,使用对实体进行语义拆分,引入了实体级别编码层面的注意力机制,使模型关注质量更高的特征,提高实例编码质量。()为了评测该方法的有效性,人工地在训练集里加入了一定比例的噪声数据进行训练。结果显示,基于注意力机制的原型网络要优于原始原型网络,关系抽取的准确率提升在 之间。相关工作关系抽取是非常重要的一项任务,许多研究者第 期季一木,等:基于小样本学习的中文文本关系抽取方法提出了各种不同的解决方法。处理关系抽取任务的第一步就是需要将文本字符编码成计算机可以理解的数值常量,以便于提取特征。等开源了一款用于词向量计算的工具 ,用于计算非常大数据集中单词的连续矢量表示。但是由于计算出来的词和向
9、量是一对一的关系,所以一次多义的问题无法解决。这种缺点在中文上表现得比较明显,因为中文里单独的字的含义就非常丰富,组合成词的语义就更为繁多复杂。发布的模型在处理输入的中文序列时,将每个字视为最小的语义单位,使用双向 进行编码,使得每个词都要和该句子中的所有词进行注意力计算,从而学习句子内部的词依赖关系,捕获句子的内部结构。目前,在 的多个研究领域中都取得良好效果。但是,原始的 模型参数众多,导致模型训练速度慢,且对中文词向量的表示效果远不如英文。本文使用 等提供的基于 的 预 训 练 模 型,该 模 型 使 用 的原始语料库,包 含 亿 个 汉 字。与 发布的原生模型 相比较,在保证准确率不受
10、影响的情况下,训练和预测速度均有提高。在将句子编码为向量后,如何优化关系抽取模型也是研究的热点。最近,元学习的思想被应用到少样本关系抽取中,目的是让模型获得一种学习能力,这种学习能力可以让模型在新的领域自动学习到一些元知识。在常规小样本关系抽取算法中,基于度量和优化的元学习方法最为常见。等提出基于卷积神经网络的多级别匹配聚合网络,等提 出 的 基 于 图 网 络 的 以 及提出的标签语义感知预训练等方案提升了少样本关系抽取的准确率。但这些复杂的方法往往对训练时间要求更长以及机器的性能要求更高,同时在小样本关系分类任务上的表现相较于基于简单度量和优化的方法并没有特别大的提升。原型网络的思想和实现
11、方法都十分简单明晰,效果与之前的工作相比得到了一定的提升。等基于简单度量的元学习方法提出了原型网络(),认为每个类别在向量空间中都存在一个原型(),通过将不同类别的样例数据映射成向量并提取它们的“均值”表示一个类别的原型,通过比较向量之间的欧式距离进行相似度的判断。然而简单地提取样例数据映射向量的均值并不能很好地反映类别的特征,因为不同的样例对原型向量的影响不同。由于样本量少,分类边界存在误差,当数据存在噪声时,容易对结果造成干扰。在少样本学习图像任务中,注意力机制已被用于减少噪声的影响。等提出了基于混合注意力的原型网络,针对实例级别和特征级别分别设计了不同的关注方案,以分别突出关键实例和特征
12、,在英文数据集 取得了比较好的效果。但是在中文语境里,一个实体往往有更为丰富的含义。因此,如何在中文语境里准确地关注每个实体在上下文中对应的语义,以及如何减少噪声实例对模型准确率的影响是本文的关注点。在本文工作中,使用双重注意力机制给每个类别的不同样例以及每个实体不同的含义赋予不同的权重参数,在一定程度上减少了噪声对结果的影响,提升了模型对抗噪声的能力。同时,在少样本关系抽取中,无需构造数据,数据不会存在长尾关系,仅需要少量的样本就能训练出优质的模型。基于 的双重注意力机制小样本关系抽取算法 本节详细介绍基于小样本学习的中文文本关系抽取方法。整体框架图如图 所示,表示支持集,表示查询集,为总体
13、框架图,部分为原型网络计算出来的原型向量,部分为注意力机制计算结构图。符号和定义在小样本关系抽取问题中,将训练数据集划分为已分类的支持集合 和待分类的查询集合,该任务被定义为预测查询集中的实体对(,)在对应的支持集中属于关系。对于给定关系集合,支持集 以及查询集,有如下定义 ,()(,),(,),()(,)()其中,(,)表示一个具体实例,为单个文本,为文本中的头实体,为文本中的尾实体。对于一次预测,每个支持集 有 种关系,每种关系类型有 个不同的实例,判断查询实例属于支持集合中的哪一种,这样一次预测被称为一次 分类。通过多次这样的分类训练,让模型具有区分不同关系类别的能力。南京邮电大学学报(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 小样 学习 中文 文本 关系 抽取 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。