因果关系抽取研究综述.pdf
《因果关系抽取研究综述.pdf》由会员分享,可在线阅读,更多相关《因果关系抽取研究综述.pdf(12页珍藏版)》请在咨信网上搜索。
1、因果关系抽取是自然语言处理技术的一个重要研究分支 以时间为轴线概述了各阶段的特点 因图神经网络能更好应对复杂因果关系重点总结了基于图神经网络因果关系抽取的模型从依赖路径、语义结构、时序等方面分析了现有研究中图结构的构建方式并对各模型进行了归纳与比较 最后展望了因果关系抽取领域的发展趋势关 键 词:因果关系关系抽取图神经网络实体抽取事件抽取中图分类号:.文献标志码:():().:收稿日期:基金项目:国家自然科学基金资助项目()作者简介:第一作者:冉紫涵女硕士研究生通信作者:向尕女博士讲师 引言信息抽取()旨在从非结构化文本中抽取出结构化的信息例如从病人的医疗记录中抽取出症状、检验结果等一系列信息
2、信息抽取主要包括实体抽取、事件抽取、实体关系抽取和事件关系抽取等任务 其中关系抽取是信息抽取的主要研究方向之一旨在从非结构化的文本数据中抽取关系信息并用结构化数据表示以加深对文本的理解 关系抽取主要分为实体关系抽取和事件关系抽取)实体关系抽取 实体是文本中基本的信息元素是正确理解文本的基础 狭义地讲实体是指现实世界中的、具体的或抽象的实体如人名、组织名、公司名、地名等 广义地讲实体还可以包含时间、因果、数量表达式等 实体之间的关系能预先定义为地理位置关系()、因果关系()、雇佣关系()等)事件关系抽取 事件在不同领域中有着不同的 含 义 在 话 题 检 测 追 踪()中事件是指关于某一主题的一
3、组相关描述这个主题可以是由分类或聚类形成 在信息抽取中事件是指在某个特定的时间片段和地域范围内发生的由一个或多个角色参与由一个或多个动作组成的一件事情 一个事件内包含着参与者、地点、时间、行为等基本论元多个事件间也存在着以共指、因果、顺承 种关系为主的外部联系 现有事件关系抽取研究主要包括共指关系抽取、因果关系抽取以及时序关系抽取其目的主要是提取一段文本内容中多个事件之间可能存在的关系 它在文本理解、逻辑推理和知识图谱构建等众多应用中都发挥出了重要作用 北京信息科技大学学报第 卷在实体和事件的各种关系中因果关系是对问题更本质的认识诸如物理学、行为学、社会学和生物学中许多研究的中心问题是对因果关
4、系进行阐述即对变量或事件之间直接作用关系的阐述 追溯文本中的因果联系对于航空安全、军事、医学、社会安全等多个领域的事件检测与预测、情景生成等都具有重要意义 例如在河南暴雨致人死亡的事件中认真梳理相关事件的因果关系和先后联系就能归纳出相关的原因便于相关部门有针对性地、及时地采取有效措施减轻灾害的影响 比如:群众“被困”原因是地铁“积水”“积水”的原因可能有“排水口堵塞”、“降雨量过大”、“没有及时疏散”等各类情况 对海量文本进行关系抽取和因果关系分析可以对原因进行梳理和归纳下次发生类似事件时可以快速进行一个合理推测预防事件发生 在智能问答中也可以达到相应的效果对相关问题给出快速解答因果关系抽取的
5、研究是文本挖掘中的一项基本任务对于关系推理具有重要意义具有重要的学术研究价值 在军事、医学、情报分析和舆情监控等领域的关系推理中有重要的应用价值 本文聚焦于因果关系抽取的研究进展对因果关系抽取的概念、分类和相关数据集进行介绍综述了因果关系抽取的主要方法 重点分析总结了基于图神经网络的因果关系抽取相关研究 对因果关系抽取面临的挑战及未来研究进行了展望 因果关系及其分类因果关系包括实体之间的因果关系和事件之间的因果关系 实体之间的因果关系抽取是从非结构化文本数据中抽取实体与实体之间原因与结果的关系事件之间的因果关系抽取是抽取事件与事件之间原因与结果的关系 无论实体之间还是事件之间的因果关系都反映了
6、原因与结果之间某种确定的联系是人类认识世界的客观基础 从信息抽取的角度看实体因果关系与事件因果关系的抽取原理基本相同 本文对实体因果关系和事件因果关系抽取的研究进行了综合分析重点对二者共通的技术进行概述.根据因果数量分类因果关系表示客观事物间存在的一种普遍联系事物的因果关系主要由原因主体和结果主体两个部分构成 根据原因与结果的不同可以分为:一因一果(一个原因导致了一个结果)、多因一果(多个原因导致了一个结果)、一因多果(一个原因导致了多个结果)、多因多果(多个原因导致了多个结果)一因一果 文本中只包含着相对应的一个原因和一个结果 例:台风导致了死亡 一个原因(台风)对应着一个结果(死亡)多因一
7、果 文本中包含多个原因对应一个结果的情况 例:小强生病了可能是因为他昨晚过劳而且着凉了 小强一个“生病”的结果有着“过劳”和“着凉”两个原因导致一因多果 文本中包含一个原因对应了多个结果的情况 例:小丽整容之后变得更加自信了也收获了爱情“整容”原因对应着“自信”和“收获爱情”的两个结果多因多果 文本中包含着多个原因与多个结果相对应的情况 例:食物残渣和幽门螺旋杆菌造成了她的胃溃疡和胃穿孔 其中“食物残渣”、“幽门螺旋杆菌”这多种病理原因导致了“胃溃疡”和“胃穿孔”的多种病理实体结果.根据因果结构分类因果关系也可以根据因果结构或者因果本身的明确与否分成显式因果关系与隐式因果关系 显式因果关系多指
8、原因和结果在文本中同时出现或者有着明确的连接词成分存在连接上的关联词比如“导致”、“引起”、“是因为”等隐式因果关系通常指原因与结果不同时在一个语句中出现或者无明确的连接词出现)显式因果 有明显连接词或因果同时出现例:中东的暴乱导致了难民潮 此处“导致”为明显的连接词且“暴乱”、“难民潮”对应因果关系均在句内出现)隐式因果 原因结果没在同一句内或无明确连接词出现无明显连接词 例:木材是一种多孔性材料具有吸湿性 木材具有“吸湿性”的原因是它本身是一种“多孔性材料”此处无明显连接词存在但又包含着因果关系非句内因果 例:据河南日报消息柘城县“”重大火灾事故发生后河南省委省政府立即成立事故调查组 目前
9、柘城县委书记、县长远襄镇党委书记、镇长已免职武术馆经营者陈林等 名涉事嫌疑人已被公安机关依法采取刑事强制措施在这一段文本中可以把结果事件理解为柘城县委书记、县长远襄镇党委书记、镇长已“免职”将相应的原因事件归纳为柘城县“”重大火灾事故“发生”两个事件所在的文本位置并不在同一句内分别在上下句中第 期冉紫涵等:因果关系抽取研究综述 因果关系抽取方法因果关系抽取任务旨在从非结构化文本中抽取原因和结果并以结构化的形式将其呈现出来 完成因果关系抽取任务一般需要两步:候选信息对的抽取因果关系分类即给定句中的因果候选对判断是否有因果关系 候选事件对抽取需要对文本中的实体、事件触发词和相关论元进行定位抽取关系
10、分类需要对候选事件进行过滤找出属于因果关系的事件对并确定原因事件和结果事件因果关系的抽取方法主要分为 类:基于模式匹配的方法、基于模式匹配与机器学习相融合的方法以及基于深度学习的方法.基于模式匹配的方法早期的因果关系抽取都是通过模式识别来完成利用语义特征、词汇符号特征和自构约束等方法人工找寻并构建事件对之间的关系之后将规则与预处理的非结构文本相匹配提取出具有因果关系的事件对最早提出了一种 的 自动定位工具根据文本中的语言规则对法语相关领域的技术文本的触发词即动词进行定位从中获取因果知识实现因果关系的提取 等发现除了动词以外有些介词也能成为新的语言线索进行模式匹配并对华尔街日报进行了因果知识的抽
11、取随后又在 年运用图形模型在医疗数据库中提取了因果知识模式匹配的方法虽然多为早年间学者使用的一种方法但随着自然语言处理分词等技术的发展模式匹配的方法也因此具有了较高的可行性仍有不少研究者投身于其中取得了一些成果 等给日语中谓语赋予了词义属性将其分为刺激性、抑制性和中性发现刺激性谓语能够有效地提取因果关系对并从一个 亿页的 语料库中提取出了 万个因果关系对精度达到 左右 等基于大约 种语言模式和不同句法特征集定位因果关系中的语法助词首次完成针对阿拉伯文本中事件因果关系的抽取即使具有较高的可行性模式匹配的缺陷依然很明显:需要耗费大量的时间和精力去研究语言学本身观察得到相应的语义特征以制定相关规则难
12、度很高人工工作量很大研究人员通常仅进行单一语言及领域的因果关系文本挖掘因此模式匹配的方法跨域适应性差可迁移性弱不能适应需要广泛的领域知识的情况 为了使整个抽取过程变得更加便捷高效学者们开始利用模式匹配与机器学习相融合的方法进行抽取.基于模式匹配与机器学习相融合的方法因果关系的抽取通常可以将其看成流水线式的两个子任务:候选因果对的抽取和关系分类 基于模式匹配和机器学习相融合的主流研究思路是用模式匹配、机器学习两种方式对应两个子任务即使用模式匹配方法进行候选信息对的抽取然后使用机器学习方法来识别有效信息 本质转换成了文本分类的问题即将具有因果关系的信息对从众多候选信息对中进行选择分类 各类研究的区
13、别在于各分类器的构造和特征的选择发现 的编码模式只关注了语言模式而没有依据知识进行推论 受此启发 设计了一种约束于词汇句法()语义关系的因果分类方法利用.决策树进行学习 等为了区别显示因果标志词中的模糊特征词提出了一种新编码模式来检测动词短语和副词从句之间的特征标记使用了.决策树进行分类 等将词汇句法模式设定为一对相互关联的连接标记和一个表示因果边界的结束标记基于局部的语义依赖树的解析器来提取时间的谓语参数 等认为特征之间不是独立的结合了语境句法连接词位置等类别特征利用隐藏朴素贝叶斯进行因果分类 随后 等发现已有基于词汇句法模式不能识别事件的边界并且相关参数容易丢失导致因果关系事件的抽取不完整
14、于是提出了一种朴素贝叶斯概率的方法识别因果事件的边界接着提出了多类决策树以解决识别因果事件边界中可能导致参数缺少的问题 该方法对大规模的中文网络语料库有很好效果机器学习的方法虽然不依赖于语料的内容与格式但依然没有解决模式匹配中需要大量人工标注以构建标准语料库的问题 且机器学习的难点在于如何对于离散型数据进行合理处理以及如何对文本特征进行选择 大部分使用机器学习研究的文本仍然局限于句内的显式因果关系并没有适应于跨句乃至跨段的文本内容此外如何摒弃传统的流水方法直接对事件对进行联合抽取也成了学者们进行研究的主要方向.基于深度学习的方法深度神经网络具有学习上下文语义、读取隐含事件特征的能力弥补了模式匹
15、配与机器学习方法 北京信息科技大学学报第 卷的诸多不足能够更好抽取语句间的因果关系 因此近年来构建深度学习模型实现因果关系抽取已成为研究的主流 等使用卷积神经网络()对文本中的因果关系进行分类对因果关系的方向识别有正向的效果 等通过基于长短期记忆()网络的深层模型进行浅层的语义分析以挖掘语言上的因果关系 周威面向金融新闻对比了 个不同的序列标注模型发现基于双向长短期记忆网络与条件随机场()结合的 模型具有最好的性能郑巧夺等针对关系边界识别能力弱和文本语义表征不足的问题 结合了门控循环单元()提出了一种基于双层 深度学习模型的事件因果关系抽取方法 等提出了多列卷积神经网络丰富了事件的语义表征实现
16、了事件因果关系的分类.小结因果关系抽取研究早期因为模式匹配的高可行性成为学者们研究的主流手段随着机器学习的出现句法模式与分类器相结合减少人工的工作量而成为热点神经网络如今蓬勃发展也吸引了更多研究者开展基于深度学习的因果关系抽取研究 神经网络的出现让可以用线性结构表征的许多研究问题得到了一定程度上的解决但自然语言中的的许多情景并不能简化为固定的排列规则和顺序 针对不适用于线性结构的场景面向图类结构的图神经网络就占据了很大的优势 基于图神经网络的因果关系抽取图()是 由 个 顶 点()和 边()组成的集合顶点又可以称为节点()两个节点之间可能存在着方向依赖关系 如果有方向依赖关系是有向图否则是无向
17、图 一个图可被记为()其中 是数量为 的节点集合 是数量为 的边集合 边()表示由 和 者两个节点相连如图 所示 图结构广泛存在于文本关系中句法依存、语义关系、事理图谱等都是典型的图结构图 简单的图结构目前因果关系抽取的主要手段依然是序列标注 可以将句子中的每一个单词都看作节点在词与词之间建立各种类型的边所以选词的不同、关系类型的不同序列标注中的图的构建更加多样 常规的神经网络不能解码很多关于图类的结构来学习特征以完成相应的任务 针对这类问题图神经网络应运而生.图神经网络的基础模型.图神经网络基础 的 图 神 经 网 络()可以将每个节点 的初始隐含状态用向量 表示然后随着时间步 的推移递归式
18、的计算节点后续隐含状态来更新和完善特征如图 所示 在节点间信息不断交换的过程中达到自我更新的平衡稳定之后特征也随之出现图 节点隐含状态的迭代第 期冉紫涵等:因果关系抽取研究综述 基础的图神经网络把神经网络带入了图的领域是后续变体模型研究的基础 但其不足之处也十分明显:一是其迭代求解隐含状态的计算效率低下且每一层的参数相同导致模型性能也不够理想其次基础的 模型忽略了边的特征不能对边进行建模也不能学习边的隐含状态而在因果关系中边的信息十分重要是区分其他信息关系的重要特征.图卷积神经网络图卷积神经网络()前期大量的研究都聚焦于卷积算子的构建 等和 等提出了谱域的图卷积方法将图卷积网络的实用性提升到一
19、个新的阶段 在此基础上 等将层级运算的 限制为 将图卷积的谱域和空域结合起来提出了 最经典的模型他将 模型拓展到具有多个边类型的有向关系图 该模型可以利用不同权重来收集具有不同标签边的信息增加了实用性尤其适用于关系数据的建模 但它过于聚焦于邻居节点的权重参数较少不能高效利用节点信息导致传播范围窄或特征向量过于平滑.图注意力神经网络自注意力机制的引入可以为每个相邻节点分配不同的注意力分数使模型能够专注于和当前任务最相 关 的 信 息 图 注 意 力 网 络()这一概念最早由 等提出它与带有门的 变体非常相似两者之间的边界不是很严格其结构模型如图 所示 其中代表了模型参数权重 可通过对邻居节点进行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 因果关系 抽取 研究 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。