关键词提取算法研究综述.pdf
《关键词提取算法研究综述.pdf》由会员分享,可在线阅读,更多相关《关键词提取算法研究综述.pdf(15页珍藏版)》请在咨信网上搜索。
1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 0 0 1-1 4关键词提取算法研究综述崔洪振,张龙豪,彭云峰,邬 雯(北京科技大学 计算机与通信工程学院,北京1 0 0 0 8 3)摘 要:关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自
2、然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、
3、领域知识及图谱构建中的研究方向和可能面临的挑战。关键词:关键词提取;特征;有监督提取方法中图分类号:T P 3 9 1 文献标识码:AAS u r v e yf o rK e y w o r dE x t r a c t i o nA l g o r i t h m sC U IH o n g z h e n,Z HAN GL o n g h a o,P E N GY u n f e n g,WU W e n(S c h o o l o fC o m p u t e r&C o mm u n i c a t i o nE n g i n e e r i n g,U n i v e r s i
4、t yo fS c i e n c ea n dT e c h n o l o g yo fB e i j i n g,B e i j i n g1 0 0 0 8 3,C h i n a)A b s t r a c t:K e y w o r de x t r a c t i o n i sak e yr e s e a r c h i s s u e i nn a t u r a l l a n g u a g ep r o c e s s i n g,k n o w l e d g eg r a p h,s y s t e md i a-l o g u e,e t c.I nt h i
5、sp a p e r,w ea n a l y z et h ek e y w o r de x t r a c t i o np r o c e s sf r o mt h ee x i s t i n gk e y w o r de x t r a c t i o na l g o-r i t h m s,a n ds o r to u t i nd e t a i l t h ec o m p u t a t i o n a l f e a t u r e sa n da p p l i c a t i o nc a s e so f e x i s t i n gk e y w o r
6、 de x t r a c t i o nm e t h-o d s.W ea n a l y z e t h e s u p e r v i s e de x t r a c t i o n,t h eu n s u p e r v i s e de x t r a c t i o n,a n d t h e s e m i-s u p e r v i s e de x t r a c t i o nm e t h o d si nt e r m so f f e a t u r e se x t r a c t i o n,r e p r e s e n t a t i v ep a p
7、e r s,m o d e l a l g o r i t h m s,a n dm e t h o dd e s c r i p t i o n s,s u mm a r z i n g t h er e s e a r c hp r o g r e s s,a l g o r i t h m m e c h a n i s m,a d v a n t a g e s,l i m i t a t i o n s,a n da p p l i c a t i o ns c e n a r i o sa sw e l l.T h ek e y w o r de x t r a c t i o n
8、e v a l u a t i o ns t r a t e g i e sa r eg i v e n,a n dt h ea p p l i c a t i o np r o s p e c t so f s e m i-s u p e r v i s e dm e t h o d so fk e y w o r de x-t r a c t i o na r ep r o s p e c t e d,a sw e l l a s t h er e s e a r c hd i r e c t i o n sa n dp o s s i b l ec h a l l e n g e s i
9、 nf e a t u r e f u s i o n,d o m a i nk n o w l-e d g e,a n dg r a p hc o n s t r u c t i o n.K e y w o r d s:k e y w o r de x t r a c t i o n;f e a t u r e s;s u p e r v i s e de x t r a c t i o nm e t h o d s收稿日期:2 0 2 3-0 7-0 4 定稿日期:2 0 2 3-0 9-1 8基金项目:国家自然科学基金(6 1 8 7 1 0 2 9)0 引言互联网信息传播应用普及且持续
10、深入发展,导致来自特定领域和复杂领域的数据信息越来越多,数据维度变异性增长,数据量爆炸式发展,致使当今社会对信息处理和文本计算需求亟待解决。近年来,科技前沿领域的学者和科研人员需要从海量资料中精准获取文献知识,提取关键信息,捕捉有效内容等,而关键词提取(K e y w o r d/K e y p h r a s eE x t r a c-t i o n)是该过程不可避免的重要环节和科研基础。关键词提取是自然语言处理(N a t u r eL a n g u a g eP r o c e s s i n g,N L P)、知识图谱(K n o w l e d g eG r a p h,K G)的
11、典型任务和重要处理环节。通过关键词提取中 文 信 息 学 报2 0 2 4年方法获取关键词之后,才能继续N L P和K G下游任务的处理,如人机对话、信息检索、文本概要生成、文本分类等。此外,关键词在生活场景中应用广泛,如手机购物时的商品检索、购物平台“客服机器人”自动问答;研究员或学生进行文献检索、浏览器信息查询等均涉及关键词提取。关键词是从完成文本信息采集到应用的元数据,是一个或多个能够描述文档主题信息的词语或词组1,是文本中较单个文字之后的最小单位,被称为文本关键标题或摘要核心。关键词获取离不开关键词提取技术。关键词提取技术是通过设置规则、文本特征、统计数学或神经网络模型,对特定领域文本
12、知识进行不断挖掘和精准处理,实现关键词提取的过程2。关键词提取技术包括:关键词抽取和关键词生成。关键词抽取是抽取存在于原有文本中,且能够表达原有文本主旨的词语或词组;关键词生成是从原有文本中或者从词表中选择与主旨相关的词语 作 为 关 键 词,与 该 词 在 文 本 中 是 否 出 现 过无关3。虽然关键词提取技术及算法得到了广大研究者的积极探索和应用研究,但仍未达到人们预期效果。文献4 针对关键词预测模型做了分类综述,文献5 围绕预训练语言模型描述关键词抽取,文献3则是基于关键词生成、关键词提取中的相关特征及评价方法进行分类综述,但对于关键词提取算法流程和提取计算方法描述相对不足。此外,关键
13、词提取技术在科研应用场景中存在巨大研究潜力,如文本处理中的文档检索、摘要生成、文本分类、因果事件推理、话题检测及问答系统,关键词提取还可以用于相关性计算、舆情跟踪、病历聚合、热点事件检测、智能音响、语音助手等。为了促进关键词提取技术的发展,促进多种提取特征及算法模型融合,更好地满足初学者理解其发展进程的需要,该文简述关键词提取方法;分类分析有监督、无监督和半监督提取方法及主要典型文献和模型案例;进行关键词提取特征描述、关键词得分解析及评价指标分析;总结关键词提取研究前景,并探讨下一步研究方向。1 关键词提取研究概述文档是关键词的载体,从文档中提取关键词是完成信息抽取等自然语言处理任务的基础。本
14、节简述从文档中提取关键词的研究过程,分析并给出提取关键词的核心流程,综合分析提取中的特征描述。1.1 关键词提取方法分类说明关键词提取在2 0世纪5 0代被提出,经历了一系列方法演变和特征提取。1 9 5 7年,L u h n等人6对关键词提取任务开展研究,创造性提出基于词频特征的关键词自动抽取方法。从此,关键词自动提取成为科研探索课题之一。2 0 0 7年,关键词提取实现自动标引研究7,在自动标引研究基础之上,赵京胜8完成自动关键词抽取在宏观提取方法上的梳理总结。自动标引和提取关键词离不开关键词的特征,针对关键词提取特征,文献9 梳理了特征驱动下的关键词提取算法。近年来,P a p a g
15、i a n n o p o u l o u1 0、胡少虎等人3对关键词提取从不同维度和特征做了梳理。关键词提取可以基于词频统计等常规特征实现,这类方法属于无监督提取方法。随着研究的深入,发现原文文本中不存在的关键词对文本内容研究也至关重要,依赖词频等常规特征提取关键词,并不能满足文本对真实信息反馈的关键 词 进 行 提 取 需 要1 1。F i g u e r o a等 人1 2提出:低频词、评分较低词等也可能是关键词,在短文本中会漏掉出现频率低的关键词。由此可知,基于深层次语义特征对关键词提取的后续科研工作非常重要。图1 端到端序列模型图神经网络的提出及深度神经网络(D e e pN e u
16、 r a lN e t w o r k,D NN)技术的发展,使得关键词提取方法取得较大进展,如将D NN应用于关键词生成领域1 3来解决传统关键词提取方法中存在的提取精度缺陷问题。基于D NN的方法主要采用S e q 2 S e q端到端序列模型,如图1所示。M e n g等人1 1首次提出C o p y R NN模型,利用复制机制实现关键词提取,优势在于生成原文中不存在的关键词或生成原文缺失的关键词,从而解决传统方法的缺陷和不足。2 0 1 7年,Z h a n g等人1 4在C o p y R NN的基础上进一步优化关键词生成效率,提出一种基于卷积神经网络的C o p y C NN模型,
17、丰富和提升关键词提取能力。22期崔洪振等:关键词提取算法研究综述神经网络的演化模型在关键词提取中也得到了发展。2 0 1 9年,C h a n等人1 5通过引入一个自适应奖励函数提出一种用于生成关键短语的强化学习方法,在具备自适应奖励的同时,鼓励模型生成足够准确的关键词。神经网络模型依赖语义等深层特征,属于有监督提取方法。基于统计分析形成的关键词提取方法属于无监督提取方法,以词频统计为例;基于语义特点构建提取方法属于有监督提取方法,以词嵌入为例。为提高关键词提取效果和速度,基于无监督和有监督提取方法,科研人员融合二者特点提出半监督提取方法。该文以关键词提取的无监督、有监督和半监督方法进行分类综
18、述分析,这些提取方法的关键流程如下文所述。1.2 关键词提取方法核心流程关键词提取是基于不同特征、不同算法实现提取的过程。图2是基于词向量和词统计总结的关键词提取方法的流程,同类提取流程研究在文献1 6-1 7中也有提及。该过程主要包括:分词、词性标注、筛选候选词、向量计算和T F-I D F权重计算等。以语料库为输入,虽然该过程依赖分词效果,但包含关键词提取核心步骤。图3是关键词自动化标注算法流程模式图,其中主要包括分类、预测,以及关键词候选、过滤、排序等。图2 基于词向量和词统计的关键词提取流程根据不同关键词提取算法,该文总结关键词提取方法核心步骤如图4所示。其中,词语过滤包括词性标注1
19、8,通常使用P O S标签标注;词性过滤,根据标注词性判断和筛选是否保留或过滤掉不满足条件的词。多元组生成涉及提取性能和规则,文献图3 关键词自动化标注算法流程模式图1 9 描述文档预处理对提取性能的影响;文献2 0按照规则筛选多元组,并选择内部紧密度作为筛选规则。由此可知,可以在多元组生成环节采用通配符匹配方式,用序列模式挖掘关键词2 1,规则的本质是利用约束条件来控制多元组生成。图4 关键词提取流程核心步骤1.3 关键词特征说明关键词特征在关键词提取中起着决定作用,随着有效特征加入会不断提升提取效果,下面梳理了常见特征及在关键词提取中的应用。词频特征 基于统计学提出的关键词提取特征之一,常
20、用词频统计作为提取特征。1 9 5 7年,L u h n直接使用词频统计作为关键词筛选特征6。随着研究深入,发现词频统计提取的关键词并不能完全表征文本内容,且存在其他局限和不足。为此,使用T F-I D F2 2来提高关键词提取效果。此外,基于T F-I D F科研人员给出众多改良优化后的T F-I D F提取算法,如基于对数2 3、布尔2 4、上下文2 5等方法。长度特征 表示候选词长度2 6。根据长度区分候选词,候选词越长包含的信息素可能越多,信息含量越丰富。A q u i n o等人2 7使用长度特征度量句子中包含语义信息的多少。位置特征 在半结构化格式文档中,如网页网3中 文 信 息
21、学 报2 0 2 4年站、门诊病历、学术论文等,根据分布特点,利用相对位置或间距来判断关键词。位置特征在半结构化格式的文档提取中非常有效。如将关键词首次出现位置作为特征2 6-2 8,将关键词最后出现位置作为筛选特征2 7,将标题是否包含关键词作为特征,加入算法模型中2 9;文献3 0 利用参考文献中标题包含的关键词作为特征,利用位置跨度作为特征3 1;文献3 2 利用关键词出现的段落数与文中最大词频出现段落数的比值作为特征。语言特征 利用候选关键词的属性作为其筛选特征之一。如文献3 3-3 4 利用词性序列作为构成候选 关 键 词 的 特 征;利 用 特 殊 专 用 名 词 作 为 特征2
22、8;文献3 3,3 5-3 6 利用字体大小写、粗体格式等作为特殊筛选特征;文献3 7-3 8 分别利用修辞手法和依存关系作为特征。外部知识库特征 该特征是对原始文档中数据缺乏的补充。如果原始文档信息不全,可通过增加外部资源进行数据补全,文献2 8,3 9 分别提出用是否为维基词条来判断某词是关键词的可能性或是否为维基百科关键词等。文献4 0 利用开源眼动追踪语料库中提取的注视持续时间作为外部特征增强微博中关键词的提取。词间关系特征 该特征是构成候选关键词词图的核心,通常用于计算词之间的关联程度,是增强词之间语义关系所在的主要特征。文献3 8 利用上下文关系、文献3 9-4 1 利用语义相似度
23、来表示多个关键词在语义表述上的关系,这些方法均体现出词间关系在提取中的作用。词嵌入特征 2 0 1 4年W a n g等人4 2在词嵌入研究中做出了突破,将词嵌入应用于增强候选关键词之间的语义关系。基于此,W a n g等人4 3利用词嵌入和深度信念网络(D e e pB e l i e fN e t w o r k,D B N)计算词间语义关系。类似地,词嵌入特征被用于相似度计算,P a p a g i a n n o p o u l o u4 4利用平均向量和每个词向量来计算相似度,通过相似度确定候选词的分值。由上可知,关键词提取的特征、流程及模型是影响提取性能的重要因素;特征组合使用、特
24、征与模型融合、提取流程的变化都会影响提取效果。针对上述特征、流程和模型,结合特征分类方法,该文对有无监督提取方法分类进行梳理总结,发现无监督提取方法聚焦统计和图结构算法,深度神经网络中词嵌入、词向量计算即多特征融合等在关键词提取方法中出现频次逐渐增多,成为研究热点之一。此外,基于主题特征和中心度量特征的提取方法也在逐渐增多。2 关键词提取研究本节按照有监督、无监督和半监督的关键词提取方法分类描述。关键词有监督提取算法需要大量标注数据,依赖时间和人力进行数据标注,该方法可扩展性有限;无监督提取算法则不依赖标注数据,但存在过拟合现象,效果受到数据集的影响。基于这两类方法,半监督提取方法中和了两种方
25、法的优缺点,采用部分标注数据进行训练,然后结合模型提取关键词。本节分析不同算法发展历程及现有最新提取算法的差异,来解释关键词提取过程及在领域应用中的效果。图5是关键词提取整体架构思路图,包括三条主线:有监督、无监督和半监督提取方法。图5 有监督、无监督和半监督方法在关键词提取整体架构思路图2.1 有监督提取方法关键词有监督提取方法通常具有较好提取效果。该过程可类比为二分类问题,分类类别为关键词和非关键词,表示为:正样本1,负样本0,分类标签Yi0,1。基于该特点,利用传统分类器和基于神经网络模型进行分类,提取关键词。该过程主要步骤包括:文本预处理、生成候选词、计算候选词特征、分类候选词、筛选关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关键词 提取 算法 研究 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。