论证挖掘研究现状与进展.pdf
《论证挖掘研究现状与进展.pdf》由会员分享,可在线阅读,更多相关《论证挖掘研究现状与进展.pdf(13页珍藏版)》请在咨信网上搜索。
1、2023 年第 35 卷第 6 期论证挖掘研究现状与进展李娇1,2袁 赵瑞雪1,2,4*袁 鲜国建1,2,4袁 黄永文1,2袁 孙坦3,4(1.中国农业科学院农业信息研究所,北京 100081;2.国家新闻出版署 农业融合出版知识挖掘与知识服务重点实验室,北京 100081;3.中国农业科学院,北京 100081;4.农业农村部 农业大数据重点实验室,北京 100081)摘要院 目的/意义论证挖掘是近年来计算语言学领域的热点研究内容,为论证计算模型提供机器可处理的结构化数据,对其研究现状及进展进行总结和分析可为后续的研究及应用深化提供借鉴。方法/过程本研究通过对国内外论证挖掘重要文献进行收集、
2、整理和分析,从相关研究基础、技术体系、应用实践等多个维度进行系统性综述,通过梳理总结论证挖掘发展路径展示该研究领域的发展全貌和特征,并重点描述多模态论证挖掘研究的现状。结果/结论论证挖掘任务与自然语言处理等人工智能技术息息相关,相关研究经历了“机器学习-深度学习”“文本-多模态”的发展变迁,且领域发展与应用水平不一;如何实现多粒度、多模态内容泛化,以及如何促进其应用落地实践将是下一步研究的热点和重点。关键词院 论证挖掘;技术体系;发展路径;多模态中图分类号院G254文献标识码院A文章编号院1002-1248渊2023冤06-0016-13引用本文院 李娇,赵瑞雪,鲜国建,等.论证挖掘研究现状与
3、进展J.农业图书情报学报,2023,35(6):16-28.收稿日期:2023-05-05基金项目:中国科协青年人才托举工程项目“面向科研论文的科学论证语义识别与解析研究”(2022QNRC001)作者简介:李娇(1989-),女,博士,助理研究员,研究方向为文本挖掘、知识图谱与知识服务研究。鲜国建(1982-),男,博士,研究员,博士生导师,研究方向为关联数据与知识服务。黄永文(1975-),女,博士,副研究馆员,研究方向为科学数据与知识组织。孙坦(1970-),男,博士,研究馆员,博士生导师,研究方向为数字信息描述与组织*通信作者:赵瑞雪(1968-),女,博士,研究员,博士生导师,研究方
4、向为信息与信息系统、知识服务研究。Email:DOI院10.13998/ki.issn1002-1248.23-03471 引言论证挖掘 渊Argument Mining袁AM冤袁 又称论辩挖掘袁 是指自动识别和提取自然语言文本内容中论证结构 渊如前提尧 结论冤尧 推理方案及逻辑关系的技术1袁通过论证理论模型建模和分析文本的知识内容袁 实现语用层面上的语篇分析2袁 促进论证内容深层次尧 全面化挖掘与领域内论证链条揭示遥 论证挖掘研究可追溯至2007年的法律文件论证句抽取实验3袁 随后研究对象扩展至政府报告尧 产品评论尧 科技文献尧 维基百科尧社交网络等遥 人工智能视域下的论证挖掘目标是实现可用
5、资源的发现和重用4袁 涉及自然语言处理尧 知识表示与推理尧 人机交互等多项关键技术1遥目前国际上已有较为系统的研究袁 形成较为明确的技术实现路线遥 随着资源形态的丰富及深度学习尧大模型 渊Large Language Model袁LLM冤 等技术的快速发展与迭代袁 新的研究成果不断涌现遥 本文对论证挖掘研究相关文献进行梳理分析袁 从任务框架尧 复杂度影响因素尧 方法分类等多个方面归纳其技术体系袁 介绍面向特约综述162023 年第 35 卷第 6 期不同细分领域的应用实践现状并作对比分析袁 总结论证挖掘发展阶段与趋势袁 重点追踪新的人工智能技术环境下多媒体论证挖掘进展袁 并对论证挖掘技术体系变
6、革尧 与领域知识结合尧 落地应用等方面的研究内容进行展望袁 以期为相关领域研究和实践提供参考与借鉴遥2 论证挖掘研究基础2.1 论证挖掘相关研究论证挖掘的价值在于通过论证链条的语义揭示实现流派尧 观点等知识产生过程的发现袁 通常以观点挖掘 渊Opinion Mining冤尧 争议发现 渊Controversy Detec-tion冤尧 引用挖掘 渊Citation Mining冤 等多项研究作为技术起点进行延伸和扩展遥渊1冤 观点挖掘遥 观点挖掘是指通过自动分析用户的评论文本从而提取用户对所评价事物的情感和态度等主观内容5袁 主要应用于信息预测尧 舆情分析等方面遥 通常与观点挖掘可交替使用的还
7、有情感分析渊Sentiment Analysis冤袁 它聚焦积极或消极观点两个具体层面或范畴遥 论证可以促进观点或情感的表达袁 因此论证结构常被应用于观点或情感挖掘袁 如经济情感发现模型6遥 反之袁 观点或感情也可作为论证过程中的指标或组件袁 以结论挖掘为例袁 与文档整体描述情绪或情感一致的部分相较于不一致的内容更有可能是结论遥渊2冤 争议发现遥 争议发现本质上是观点挖掘外延的扩展袁 其目的是识别有争议的主题和呈现冲突观点的文本袁 包括信任模型和在线争议两类技术研究遥 争议发现具备发现潜在热点问题的能力袁 并可以在冲突出现的早期阶段予以处理袁 如RUMSHISKY等7利用基于内容和基于图形的特
8、征来分析社会或政治冲突随时间发展的态势遥 论证挖掘和争议发现最直接的联系是袁 经过论证句的文本相似性聚类可以识别在线辩论中的突出论点或争议遥渊3冤 引用挖掘遥 引用挖掘是科技文献领域用于确定引文背后激励因素的技术袁 主要是对文献中的引文实例及其在语篇中的修辞作用进行标引袁 涉及引文动机及引文功能等维度知识遥 作者对引文的观点 渊或态度冤 通常被分类为积极/消极/客观或赞同/反对8遥论证挖掘任务中可基于论证角色对文本跨度进行标记袁如强调差距或不足的引用大概率表示冲突关系袁 表示以当前工作或研究为基础的引用很可能存在支持关系遥2.2 论证语义表示模型论证语义表示模型是指对语篇内容中论证单元和其逻辑
9、关系等结构及过程进行规范化和形式化表达袁是论证挖掘及其应用实现的重要依据遥 相关理论包含图尔敏 渊Toulmin冤 模型尧 修辞结构理论尧 沃尔顿模型等袁 其中图尔敏模型最为典型袁 定义了断言尧 数据尧保证尧 反驳尧 支持和修饰语6个论证要素9袁 是论证语义建模最常采用的理论模型基础遥 在语义出版尧 信息科学等技术发展的推动下袁 论证语义表示模型的研究经历了从粗粒度尧 浅层次到细粒度尧 深层次的变化过程袁 本体模型是论证内容语义描述的主要形式遥相关研究成果颇丰袁 诸多研究者已做系统评述袁本文以科技文献领域为例进行说明袁 早期的论证语义表示模型多关注论证过程中的独立知识单元袁 如科学论述本体渊S
10、cholarlyInterpretation andDiscourse袁ScholOnto冤10针对主张尧 假设尧 方法尧 软件尧 证据等论证过程中的知识单元进行类和属性的定义遥 语义出版的发展和相关研究的深入使得论证语义表示模型的设计与研究重点逐渐过渡到逻辑论证过程的描述袁 代表性实例有院博洛尼亚大学VITALI等11基于图尔敏模型设计的论证模型本体 渊Argument Model Ontology袁AMO冤袁 定义了6种相互关联的论证要素要要要主张尧 证据尧 保证尧 支持尧反对和限定词曰 哈佛大学CLARK等12提出的微语义出版模型 渊Micro Publication冤 注重描述科学主张
11、及其论据的关联特征袁 通过陈述尧 数据尧 方法尧 材料支撑等内容元素形成论文的科学论证链曰 同样源自生物医学领域的SWAN渊SemanticWeb Application in Neuromedicine冤 本体描述科研知识生态中的假设尧 主张尧 对话尧 出版物等要素13遥论证语义表示模型是指导论证挖掘的关键袁 通用性较低袁 不同学科领域论证模式的差异性使得论证语李娇,赵瑞雪,鲜国建,黄永文,孙坦论证挖掘研究现状与进展172023 年第 35 卷第 6 期义表示模型的设计需要考虑处理对象研究范式尧 应用场景等多种因素遥 实际应用中袁 研究者们通常在优先继承复用经典模型的基础上结合领域特征进行改
12、造袁 如科技文献领域王晓光等14基于AMO尧 微型出版物模型构建通用论证本体SAO渊Scientific Paper ArgumentationOntology冤袁 曲佳彬等15借助图尔敏模型构建句子级及实体级的多粒度论证结构本体遥3 论证挖掘技术体系3.1 论证挖掘任务框架论证挖掘是 野在语用学层面上分析语料并应用一定的论证理论来建模和自动分析数据的一般任务冶2袁包含了人工智能尧 计算机语言学和知识表示的许多不同概念袁 这种内在的异质性使得论证挖掘涉及自然语言处理尧 信息提取尧 特征发现尧 话语分析等多方面的技术遥2018年袁CABRIO和VILLATA归纳提炼出论证挖掘的基本流程框架袁 涉
13、及两个重要阶段1遥渊1冤 论证抽取 渊Argument Extraction冤遥 识别输入自然语言文本中的论证内容袁 包含论证组件检测和论辩成分分类两个主要任务遥 具体过程为院 将原始文本中具有论证性质的文本片段分割成最小论证分析单元要要要论证文本单元 渊Argumentative Discourse Unit袁ADU冤16袁 进而对其在论证文本中的功能类型进行分类袁 如依据尧 前提尧 结论等遥渊2冤 关系预测 渊Relations Prediction冤遥 预测论证文本单元间的关系袁 包括一般论证关系和复杂论证关系袁是一项涉及高级知识表示和推理的复杂任务袁 目前的研究重点集中在一般性论证关系
14、的判断17遥 各论证文本单元及单元间关系共同构建论证图 渊ArgumentationGraph冤袁 论证关系对应于该图中的边遥 结构化论证挖掘中袁 这一阶段还负责预测各论证文本单元的内部关系袁 如前提和主张之间的联系18遥3.2 论证挖掘复杂度影响因素论证挖掘复杂度与论证单元和关系识别的细粒度呈正相关 渊图1冤袁 经历了 野单句是否论证冶野简单的前提/结论关系考虑论证关系冶野考虑一组子句是否形成复杂论证关系冶 这样一个由简单到复杂尧 由个体到联系的发展路径19遥从任务层面可将论证挖掘框架进一步细分为3类院论证组件识别袁 即识别切分文本中论证/非论证分类过程袁 这一步骤的执行与文本切分方法紧密相
15、关袁 若采用人工分析工具袁 该步骤可与文本切分同时执行袁只需避免对文本中与论点无关的部分进行分段曰 若采用自动分割或由不同的分析员进行分割袁 则该步骤必须独立进行袁 这种情况下判断一个特定的片段是否具有论证性可以作为确定结构的初步步骤袁 也可以留到分析的最后袁 任何与结构的其他部分没有联系的片段都可以直接丢弃尧 属性识别和关系属性识别遥 任务由浅层向深层逐步深入又互为基础遥属性识别袁 即识别论证组件的属性袁 包括固有属性 渊如证据尧 断言冤和语境属性 渊如支持尧 反对冤遥关系属性识别袁 主要是指论证句间关系的属性袁 包括一般论证关系 渊如支持尧 反对尧 中立冤 和复杂论证关系 渊如修辞尧 对话
16、冤遥3.3 论证挖掘方法分类上述任务框架阐述了论证挖掘研究的重要目标和阶段袁 与之对应的关键支撑技术也成为近年来相关研 参数组件识别属性识别关系属性识别切分论证/非论证复杂论证关系例如:X,Y和Z是专家论证的案例吗?固有属性例如:X是证据?X做汇报?语境例如:X是假设?X是结论?一般论证关系例如:X是Y的假设?X和Y相冲突?图1论证挖掘技术的复杂度19Fig.1 Tasks and levels of complexity in argument miningtechniquesDOI院10.13998/ki.issn1002-1248.23-0347特约综述182023 年第 35 卷第 6
17、 期究密切关注的热点主题遥 本文以时间为主线对相关文献进行整理和分析袁 梳理出两类具有代表性的论证挖掘方法并归纳其主要思路袁 以期为后续研究和实践提供参考遥3.3.1基于特征工程机器学习的方法早期论证挖掘研究多为基于特征工程机器学习的方法袁 其基本思想是院 通过对人工标注的浅层特征集渊词汇特征如主题词尧 线索袁 句法特征如命名实体数量尧 动词数量等冤 进行训练袁 进而使用分类器来实现论证抽取遥 一个典型的基于特征工程机器学习的论证挖掘流程20如图2所示袁 机器学习算法和技术部分采用系列模型和特征分析技术判定筛选出论证挖掘任务中表现较好的模型和变量子集袁 同时基于模型预测向标注平台中的用户提供未
18、标注文本中的潜在论证遥 这类方法主要采用有监督算法分类模型袁 使用较为广泛的如支持向量机21-23尧 逻辑回归24尧 朴素贝叶斯25尧 决策树和随机森林26等遥朴素贝叶斯模型是最早被应用于论证挖掘的方法袁PALAU等27通 过 野 论 证 渊Argument冤 冶 和 野 论 证渊Non-Argument冤冶 两类标签对不同类型文本 渊如法律判决书尧 报纸尧 议会记录尧 周刊等冤 拆分的句子进行特征检测和分类袁 经过朴素贝叶斯分类器训练后在实验数据集上达到了73%的准确率遥 其中袁 句子的论证和非论证分类也是其它机器学习方法中通常会融合考虑采用的特征分类方式遥MOCHALES等28将论证尧 非
19、论证特征分类与支持向量机模型组合袁 使用独立分类器来识别前提和主张袁 并通过定义上下文无关的语法来预测不同论证组件之间的关系遥GOUDAS等29提出一种针对表达不正式尧 语法或拼写规范性较差的社交媒体文本的两步论证抽取方法袁 采用逻辑回归分类器实现准确率达77%的论证挖掘遥GROZA等30采用本体和自然语言处理技术从生物医学文献中挖掘论证结构及逻辑关系遥WACHSMUTH等31使用PageRank算法来构建论证相关性模型袁 结合专家手动标注和递归加权方案进行分析袁 得到的结果超过同数据集上的多个Benchmark遥就基于特征工程机器学习的论证挖掘方法准确率而言袁LIPPI等32通过不同的实验效
20、果对比发现袁 部分研究者使用相同特征集训练的不同分类器产生了非常相似的性能袁 决定挖掘效果的关键是特征的选择与设计遥3.3.2基于深度学习的方法随着深度学习技术的发展袁 其强大的编码和表征能力使其在包括自然语言处理的众多领域中广泛应用起来袁 基于深度学习的神经网络模型已逐渐发展成论证挖掘任务的基本模型遥 相较于基于特征工程机器学习的方法袁 这一类模型可自动学习尧 提取文本的特征表示袁 不再依赖人工标注特征袁 在编码过程中可基于更广泛的上下文语境捕获长距离依存关系袁 提升论证挖掘的效率和识别效果遥 基于深度学习模型的论证挖掘方法通常结合或伴随着其它技术或方法袁 如图神经网络尧 注意力机制33等遥
21、 石岳峰等17结合深度学习任务特征袁 归纳出基于深度学习的论证挖掘模型与流程如图3所示袁 包含输入尧 编码和解码3个重要阶段遥COCARASCU等34提出基于单向和双向两种长短期记忆网络的论证挖掘深度学习架构袁 用于预测输入文本对间的攻击和支持关系曰 随后结合深度学习和论标注平台数据预处理语料库学习实例特征抽取机器学习算法和技术模型(假设)特征集图2基于特征工程机器学习的论证挖掘一般流程20Fig.2 Workflow process of argument mining based on machinelearning输入阶段论证文本编码阶段图神经网络预训练语言模型序列编码结构上下文知识注意
22、力机制解码阶段关系预测论证扩展任务论证抽取图3基于深度学习的论证挖掘流程17Fig.3 Argument mining process based on deep learning李娇,赵瑞雪,鲜国建,黄永文,孙坦论证挖掘研究现状与进展192023 年第 35 卷第 6 期证推理定义了一种基于关系的论证挖掘方法袁 分析新闻标题是否支持推文及判断评论是否具有欺骗性袁 与标准监督分类器结合使用时在小数据集上表现出优异性能35遥NICULAE等36针对文档中论证关系不一定能生成树结构的场景袁 结合循环神经网络和支持向量机设计了一种可以强制结构约束 渊如可传递性冤 的因子图模型袁 表达相邻关系和主张之
23、间的依赖关系遥GALASSI等37首次将残差网络 渊Residual Networks冤38引入到论证挖掘任务袁 结合多目标学习 渊Multi-Objec-tive Learning冤 算法提出一种优于等效深度网络的模型袁在链接关系预测方面成效显著遥随着以BERT渊Bidirectional Encoder Representationfrom Transformers冤39为代表的基于深层Transfomer的大规模预训练语言模型的出现与发展袁 预训练-微调的方法逐渐成为论证挖掘任务的研究主流遥ZHANG等40在多个法律BERT变体及其它预训练嵌入模型研究基础上袁 采用神经网络针对欧洲人权法
24、院ECHR渊EuropeanCourt of Human Rights冤 的实际案例法进行论证挖掘遥SRIVASTAVE等41提出基于BERT和自注意力嵌入的论证挖掘方法袁 对网络语篇中典型论点结构的因果层次进行建模袁 通过变压器编码器层来预测关系遥HARLY等42采用CNN渊Convolutional Neural Network冤-BERT架构来解决论证挖掘中比较困难的一致性预测任务袁相较于纯粹基于BERT的方法袁 可将准确率提升至71.87%遥REIMER43等利用BERT尧 词向量生成模型ELMo渊Embeddings from Language Models冤 对主题相关的论证进行分
25、类和聚类遥 上述研究反映出以BERT模型为基础的论证挖掘实现已成为当前研究者们的主要解决方案袁 在各数据集上性能表现优异遥4 论证挖掘应用研究4.1 面向领域的论证挖掘应用实践领域资源的价值很大程度体现在其中蕴含的丰富论证性质信息袁 如观点尧 依据尧 事实尧 决策等论证单元袁 支持尧 反对等关联关系袁 通过论证挖掘可以分析和呈现出领域内知识逻辑链条袁 为知识发现尧 决策分析尧 知识推理等提供重要支撑遥 实际应用中袁 论证挖掘在法律领域尧 网络内容尧 政治辩论尧 科技文献等基础语料资源丰富的领域开展了大量实践且成果颇丰袁社会科学尧 数字人文等相关领域近年也开始受到更多关注遥4.1.1法律领域的论
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 论证 挖掘 研究 现状 进展
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。