基于词性自动机的关键短语抽取方法.pdf
《基于词性自动机的关键短语抽取方法.pdf》由会员分享,可在线阅读,更多相关《基于词性自动机的关键短语抽取方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、 31 中国科技资源导刊 ISSN 1674-15442023 年 9 月 第 55 卷第 5 期31-40,64CHINA SCIENCE&TECHNOLOGY RESOURCES REVIEWISSN 1674-1544 Vol.55 No.5 31-40,64 Sept.2023基于词性自动机的关键短语抽取方法王凌霄等王弋波 朱礼军(中国科学技术信息研究所,北京 100038)摘要:关键短语抽取是一种识别目标文本中具有特殊价值的关键词组合的自然语言处理任务场景,对科技文献情报挖掘具有重要的实践价值。由于缺少足够的标注数据、知识库、预训练模型,针对前沿细分学科颠覆性内容的关键短语抽取还存在
2、着许多挑战。将有限状态自动机概念引入关键短语抽取任务中,把关键短语的词性标注组合模式抽象为一系列有限状态自动机文法。这种基于词性自动机的无监督关键短语提取算法,能够在不依赖标注数据和高性能计算设备的条件下,通过高度自定义的词性组合模式,抽取不定长度的细分领域关键短语。这种算法具备运行速度快、环境依赖低、匹配模式多、提取效果好等特点。使用SemEval-2017 数据集和智能新药发现领域的文献摘要作为测试数据,将研究所提出的算法和几种广泛应用的关键短语抽取算法进行对比。对比结果显示:这种算法在所有关键词中的准确率达到 30.8%,召回率达到 34.1%,F1 值达到 32.4%;在关键短语中的准
3、确率达到 30.8%,召回率达到 52.0%,F1值达到 38.7%。召回率指标与F1 指标相比关键词抽取开源算法库有显著提升。关键词:命名实体识别;关键词抽取;关键短语抽取;有限状态自动机;词性标注DOI:10.3772/j.issn.1674-1544.2023.05.004 CSTR:15994.14.issn.1674.1544.2023.05.004中图分类号:TP391 文献标识码:AKeyphrase Extraction Algorithm via Tagging Finite AutomationWANG Lingxiao,WANG Yibo,ZHU Lijun(Instit
4、ute of Scientific and Technical Information of China,Beijing 100083)Abstract:Keyphrase extraction is a natural language processing task scenario for identifying keyword combinations with special value in target texts,which has important practical value in mining scientific and technological literatu
5、re information.Due to the lack of sufficient labeled data,knowledge base,and pre-training models,there are still many practical challenges in the extraction of keyphrases for subversive content in cutting-edge sub-disciplines.In this paper,the concept of finite state automata is introduced into the
6、key phrase extraction task,and the part-of-speech tagging combination patterns of keyphrases are abstracted into a series of finite state automata grammars.This unsupervised key phrase extraction algorithm based on part-of-speech automaton can extract keyphrases of indeterminate length in subdivisio
7、n fields through a highly customized part-of-speech combination mode without relying on labeled data and high-performance computing equipment.The algorithm has the characteristics of fast running speed,low environment dependence,many matching modes,and good extraction effect.This paper uses the SemE
8、val-2017 dataset and literature abstracts 作者简介:王凌霄(1996),男,中国科学技术信息研究所研究实习员,硕士,研究方向为机器学习与自然语言处理;王弋波(1985),男,中国科学技术信息研究所副研究员,硕士,研究方向为科技资源管理、生物医学数据治理(通信作者);朱礼军(1974),男,中国科学技术信息研究所研究员,博士,研究方向为管理信息系统。基金项目:中国科学技术信息研究所创新研究基金资助项目“基于文本实体挖掘的新药发现领域人工智能技术应用识别方法”(QN2022-06)。收稿时间:2022 年 8 月 25 日。中国科技资源导刊第55卷第5期2
9、023年9月 32 0 引言关键短语抽取(Keyphrase Extraction)指的是从文本资料中提取特定短语的自然语言处理过程,是知识图谱、推荐系统、搜索系统等复杂工程的基础任务,在信息管理、情报分析、搜索推荐等领域中有着重要意义。关键短语抽取算法的设计过程需要紧密联系具体任务场景和任务需求,如新闻舆情关键短语抽取任务需要提取高频名词短语,而颠覆性技术关键短语抽取任务需要保留低频的潜在技术关键短语。如果把抽取算法应用在场景不匹配的任务中,那么可能会得到难以满足需求的结果。本文将针对前沿细分领域的科技情报文献关键短语提取场景,提出一种运行速度快、环境依赖低、匹配模式多的轻量级关键短语抽取算
10、法。关键短语抽取领域有着较好的研究基础1-2,其解决方案涵盖多种范式,包括传统监督学习方法、无监督学习方法、现代深度学习方法等。与新闻舆情、社交媒体等领域不同,科技文献情报领域缺乏大规模高质量的标注数据,也缺乏对应的大规模预训练神经网络模型,特别是在前沿细分领域文献挖掘任务中。囿于上述限制,科技文献情报方向的关键短语抽取任务难以在标注语料库上进行监督学习训练,也无法直接在特定领域的文献文本中进行大规模预训练模型参数微调。基于此,本文提出了词性自动机(Tagging Finite Automation,TFA)模型。这个模型能够在不依赖标注数据和高性能计算设备的条件下,通过高度自定义的词性组合模
11、式,抽取不定长度的细分领域关键短语的无监督方法。本文将有限状态自动机(Finite Automation)引入关键短语抽取任务中,把关键短语的词性标注(Part-of-Speech Tagging)3组合模式抽象为一系列有限状态自动机文法。虽然许多关键短语提取算法在工作流程中使用了无监督词性标注,但是其词性标注的利用程度较低,一些算法仅仅约定了认可的词性标签范围,或只是有限枚举了认可的词性标签组合。本文提出的词性自动机使用状态自动机的归纳规则,能够支持多种关键短语词性组合模式的灵活定义,能够高度抽象地定义词性标签的组合模式,从而实现召回程度较高的关键短语抽取。本文使用SemEval-2017
12、数据集和智能新药发现领域的Web of Science文献摘要作为测试数据,将本文提出的抽取算法和几种广泛应用的关键短语抽取算法进行对比,发现其优势,以在科技文献情报的关键词挖掘中发挥实际应用价值。1 相关工作概述关键短语抽取算法的通用流程大致由 5 个步骤组成,即预处理语料文本、划定候选关键短语范围、选择关键短语特征、根据规则给候选关键短语计分、抽取最终关键短语并进行效果评估。关键词短语抽取的大量研究工作主要集中在短语特征选择与评分步骤。此环节所应用的方法可以分为 3 种范式,分别是无监督学习式、监督学习式、深度学习式。深度学习式算法实际上是使用监督学习进行的,但是按惯例进行单列讨论。1.1
13、 无监督学习型关键短语抽取算法无监督型关键短语抽取算法所使用的关键短语特征通常是启发式的结构信息、频率信息等,并不依赖标注数据训练。无监督算法的计算量较少,程序实现灵活,适用于缺乏标注数据任务场in the field of intelligent new drug discovery as test data,and compares the algorithm proposed in this paper with several widely used keyphrase extraction algorithms.The accuracy rate of this algorithm
14、in all keywords reaches 30.8%,the recall rate reaches 34.1%,the F1 value reaches 32.4%,the accuracy rate in key phrases reaches 30.8%,the recall rate reaches 52.0%,and the F1 value reaches 38.7%.Compared with the open source algorithm library for keyword extraction,the recall score and the F1 score
15、are significantly improved.Keywords:named entity recognition,keyword extraction,keyphrase extraction,finite state machine,part-of-speech tagging科技资源共享与管理王凌霄等:基于词性自动机的关键短语抽取方法 33 景。无监督算法可以再继续细分为多个子类,如基于统计特征的抽取算法、基于图网络的抽取算法等。基于统计特征的关键短语抽取算法代表是TF-IDF抽 取 法4、KPMiner算 法5、YAKE 算法6等。这类算法使用自然语言特征、文本位置信息等多种启发
16、式特征生成候选关键词并赋予不同的权重。TF-IDF抽取法4是最容易实现、最经常使用的短语特征,它要求关键短语在当前文本中有着较高的频率,但是在整个语料库中又不过于频繁出现。KPMiner算法5优化了TF-IDF抽取法的表达式,按比例增大了多单词候选短语的权重。YAKE算法6设计了 5 种特定的规则评分项来计算候选短语的权重,并使用Levenshtein距离来融合相似的候选短语。基于图网络的关键短语抽取算法的代表是TextRank7、SingleRank8、TopicRank9、Topical PageRank10、PositionRank11、MPRank12等。这类算法把整个文档集构建成一张
17、图网络,图的点是候选短语,图的边是候选短语之间的共现关系。候选短语的评分依照不同的图中心度衡量指标来实现,如TextRank7采用了原始的PageRank指标13。1.2 监督学习型关键短语抽取算法监督学习型关键短语抽取算法把关键短语抽取任务建模为二分类问题,即判断候选短语是否为真正的关键短语。比较具有代表性的算法有KEA14、GenEx15、CeKE16、KeyEx17等。其中,KEA14使用TF-IDF与朴素贝叶斯进行短语判别,GenEx15使用遗传算法进行短语判别。监督学习型算法适用于具有标注数据、通用词表的任务场景中,如新闻舆情、社交文本、电商评论等。这些任务中的标注规则简单,容易招募
18、足够数量的标注人员,积累适当规模的标注数据就能够支撑大量无标注数据的关键短语提取。1.3 深度学习型关键短语抽取算法随着神经网络结构的更新、深度学习软硬件生态的发展,许多深度学习方法被运用到关键短语抽取任务中,如循环神经网络被运用于推特关键短语抽取中18。随着预训练技术的发展,BERT19等大规模预训练模型在绝大多数自然语言处理任务中的表现都超过了朴素的循环神经网络,BERT也被应用到关键短语抽取任务之中20。2 抽取关键短语的主要方法为了提高科技文献情报领域,特别是通用标注数据少、专家咨询成本高的前沿细分领域的关键短语抽取能力,本文提出了词性自动机(Tagging Finite Automa
19、tion,TFA)模型。词性自动机借助状态转换图,配合少数初始定义和少数递归规则,高度抽象地定义关键短语的词性标签组合模式,简明地表示了大量关键短语词性组合模式。词性自动机能够在不依赖标注数据和高性能计算设备的条件下,完成前沿细分领域的关键短语抽取。2.1词性自动机2.1.1 词性标签匹配受限于稀缺的标注数据与高昂的人工成本,监督学习式(Supervised Learning)关键短语抽取算法在前沿科技文献情报挖掘等许多场景中难以开展应用。相比之下,无监督学习式(Unsupervised Learning)关键短语抽取算法仅需要少数启发式特征就足以运行,在缺乏标注数据的场景中往往具备较高的可行
20、性。词性标签(Part-of-Speech Tagging)3是无监督学习式算法经常使用的一种自然语言特征。词性分类、词性标注等研究工作在语言学、自然语言处理等领域中已经有了坚实的基础,能够较好地完成关键短语挖掘任务。下面介绍两种借助词性标签匹配实现关键短语挖掘的方法。一是无监督抽取算法使用常见词性标签的出现频次来挖掘关键短语。如连续出现形容词、动词、名词三者之一的达到n次的单词序列就可以被视为有效关键短语21。如单词序列“gaussian random variable”所对应的词性标签序列是“形容词 形容词 名词”,若设置关键短语的最小单词数为 2,则这个单词序列满足匹配规则,被识别为有效
21、关键短语。又如单词序列“则该单词序 中国科技资源导刊第55卷第5期2023年9月 34 new deep learning methods”对应的词性标注序列是“形容词(重复 4 次)名词”,也被识别为有效关键短语。二是无监督抽取算法采用词性标签组合模式作为抽取条件。如使用“形容词名词”词性组合抽取短语“deep learning”,使用“名词名词”词性组合抽取短语“regression coefficients”。这种方法要求关键短语的词性标签必须严格符合某种预先设定好的组合模式,以免过度识别一些无意义的单词序列。举例说明,如果预定义了“形容词形容词名词”词性模式,那么单词序列“那new d
22、eep learning methods”被识别的部分就仅为“deep learning methods”,而不是全部的 5 个单词。上述两个方法展示了使用词性标签匹配进行无监督关键短语挖掘的过程,但是它们还没有充分挖掘词性标签的潜力。其原因:一是有些算法仅仅简单地判断某些单词的词性是否在事先规定的词性标签集合中,忽略这些词性标签的前后顺序、重复次数等模式关系。二是有些算法只是手工枚举了一些词性标记组合,但这种方式往往缺乏扩展性和可维护性。表 1 展示了常见的英文关键短语词性组合模式21。这些手工枚举的组合模式存在很多的局限性。如重复名词 2 次和重复名词 3 次都是常见的词性组合模式,但是在
23、实际任务场景中还有可能出现重复名词 4 次的关键短语,如tissue image analysis technology等。再如形容词名词和重复形容词 2 次名词都是常见的模式,但是也可能出现重复形容词 3 次名词的关键短语,如high-level quantum mechanical energies等。本文提出的词性自动机模型,希望能在专家经验总结的词性组合模式的基础上,尽可能地提高词性组合模式的扩展性,以便更好地抽取新出现的低频学术关键短语。2.1.2 词性自动机的状态转移图引 入 有 限 状 态 自 动 机 理 论(Finite State Automation)能够很好地解决上述问题
24、。如图 1所示,前述问题中的关键名词“重复 1 次”“重复 2 次”甚至是“重复n次”都可以用自动机的状态转移图抽象表示,并且具备更好的扩展性。有限状态自动机是现代计算机科学的基石,并且在自然语言处理和情报分析中也有广泛的应用22。有限状态自动机维护着一张状态转移表,并根据从外部读取的符号序列不断更新内部状态,根据内部状态做出一系列决定,如接受符号组合、拒绝符号组合、继续读取符号等。有限状态自动机有 2 种具体的分类,即确定有限自动机(DFA)和不确定有限自动机(NFA)。DFA的优势是方便计算机进行模拟,其缺点是不容易设计表 1 常见的英文关键短语词性组成模式词性组合模式词性组合模式示例名词
25、名词regression coefficients名词名词名词class probability function形容词名词linear function形容词形容词名词gaussian random variable形容词名词名词rational drug design名词形容词名词mean squared error名词介词名词degrees of freedomNNNNNNNNNNNNNNNNNNNNNN?1,.,n?图 1 关键短语词性组合的抽象表示科技资源共享与管理王凌霄等:基于词性自动机的关键短语抽取方法 35 复杂的匹配模式。NFA的优势是容易设计匹配模式,其缺点是计算机模拟不够
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 词性 自动机 关键 短语 抽取 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。