学术论文学科领域层次标签分类方法.pdf
《学术论文学科领域层次标签分类方法.pdf》由会员分享,可在线阅读,更多相关《学术论文学科领域层次标签分类方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 卷第 期 年 月北京信息科技大学学报(自然科学版)()文 章 编 号:():学术论文学科领域层次标签分类方法贾启龙,张仰森,刘帅康,朱思文,高强(北京信息科技大学 智能信息处理实验室,北京 )摘要:针对学术论文在学科领域内进行层次标签分类问题,提出了一种基于知识增强的语义表示与图注意力网络的文本层次标签分类(,)模型。首先,通过层次标签抽取模块提取学科领域下层次标签的结构特征,并通过预训练模型对学术论文的摘要、标题和抽取后的层次标签结构特征进行嵌入;然后,在分类阶段基于层次标签的结构分层构造层次分类器,将学术论文逐层分类至最符合的类别中。在大规模中文科学文献数据集 上进行的实验结果表明,与
2、基准的 模型相比,模型的准确率、召回率和 值分别提升了 、和 百分点。关键词:层次标签;文本分类;图注意力机制;知识增强的语义表示;预训练中图分类号:文献标志码:,(,):,()(),:;();收稿日期:基金项目:国家自然科学基金项目()作者简介:第一作者:贾启龙,男,硕士研究生;通信作者:张仰森,男,博士,教授。引言随着人们对学科领域进行越来越精细的分类,当前细分学科领域的层次关系愈加庞大。如何将学术论文快速精准地分类至学科领域的层次标签体系中成为了一个亟待解决的问题 。学术论文的层次标签分类任务不同于普通的文本分类,学术论文的专业领域性更强,文本中存在更显著的所属学科领域的相关特征。传统的
3、文本分类方法在处理具有层次标签的学术论文时面临一些难以突破的瓶颈,它们通常忽略了层次标签的结构特征,导致模型分类效果不佳。因此,对学术论文进行层次标签分类不仅需要考虑层次标签结构对分类结果的影响,还需要提取出学术论文中的学术领域特征。第 期贾启龙等:学术论文学科领域层次标签分类方法近年来,文本分类技术的快速发展,为学术论文的层次标签分类任务提供了有力的支撑。随着深度学习的蓬勃发展,越来越多的研究者通过神经网络来构建 分 类 模 型。研 究 者 们 使 用 递 归 神 经 网 络(,)、基于卷积神经网络的 文 本 分 类(,)及其变种模型实现了自动提取文本语义的深层次特征,降低了成本,极大地提高
4、了层次标签分类领域的模型性能。文献 提出了一种能够针对树形结构的基于局部多层感知机的层次多标签分类(,)模型,该模型在每个层次上训练一个多层感知机,每个层次的输出为该层次的预测向量,进而使得整个网络结构均可利用上一层提供的信息,以保证预测结果的一致性。然而,依赖于层次结构设计的多层感知机模型会导致计算成本随着层次结构的加深和类别标签的增多而显著提高。此外,这种设计也容易导致过拟合,从而降低模型在新数据上的泛化性能。文献 提出改进熵计算的 方法,使用所有分类的信息量之和,生成一组较为简单的规则合集,自上而下划分簇状结构。这种方法采用基于决策树的机器学习技术,因此具有很好的可解释性。然而,当层次关
5、系设置不合理时,它可能会归纳出过于复杂的规则,从而导致最终分类结果过拟合。神经网络模型通常采用词袋模型对词向量进行语义表示,但这种方法很难捕捉到全局文本中的深层次语义特征关联。此外,这类模型忽略了层次标签之间的结构特征关联,使得模型在捕捉语义信息方面面临困难。随后,预训练模型的出现使得许多文本分类任务效果大幅改善。研究者们使用基于 的双向编码器表示(,)、生 成 式 预 训 练 (,)、知识增强的 语 义 表 示(,)等预训练模型在大规模无标注的语料文本上进一步学习词向量,以更精准地表达语义特征。通过对不同任务进行下游微调,预训练模型极大地提升了文本分类领域的全部任务性能。在层次标签分类任务上
6、,文献 提出将文本建模为图结构,使用随机游走生成标签序列训练得到标签的嵌入表示。该方法通过标签相似度的权重损失函数可以较好地捕捉标签之间的依赖关系。文献 则对文本和标签进行图表示后,通过 和双向门控循环单元(,)提取文本的上下文语义信息,并通过多头注意力机制将标签的层次信息融合到文本表示中,进而抽取文本中不同部分和标签层次之间的关系。上述方法通过训练一个整体分类器进行层次分类,虽然降低了计算成本,但是在层次标签分类上容易导致欠拟合问题。为了有效利用层次标签的结构特征,文 献 提 出 的 层 次 多 标 签 分 类 网 络(,)模型,从 种角度提取层次特征,在相邻的节点间提取局部特征,在所有节点
7、间提取全局特征。将局部特征与全局特征融合,并通过长短期记忆(,)递归神经网络结构对层次信息进行编码,在每一层标签中都输出局部预测和全局预测,最后将各个局部预测进行连接,与全局预测进行加权组合得到最后的预测结果。这种融合了局部和全局特征的分类器,能够有效地提高分类效果。但是,模型并没有对文本进行有效的词嵌入,也没有考虑到文本与层次标签之间的关系。文献 进一步提出了基于注意力机制的 ()模型,从各层标签出发建模与文本之间的关联,文本与标签的依赖在层次之间共享,且对不同的层次基于文本生成不同的嵌入表示,从而较好地抽取了文本的层次特征。目前的研究主要关注如何利用层次标签信息,对提取文本与层次标签之间关
8、系的研究较少。对于学术论文这种领域性较强的文本,其包含着很强的所属层次标签语义关系。因此,本文针对学术论文的层次标签文本分类问题进行深入研究,提出了一种基于 预训练模型与融合图注意力网络(,)的学术论文学科领域层次标签文本分类方法(,)。通过 预训练模型获得学术论文标题和摘要的嵌入向量,并通过 模块学习层次标签的结构关系,最终将融合后的向量输入到层次标签分类器中,实现对学术论文所属层次领域标签的准确预测。模型本文构建的 模型架构如图 所示。它主要包含 个模块:)层次标签抽取模块。该模块对学术论文的层次标签特征进行抽取,得到每个学术论文样本的层次标签结构特征,并融入学术论文的表示北京信息科技大学
9、学报(自然科学版)第 卷向量中,作为通用编码模块的输入。)通用编码模块。该模块对学术论文表示向量及其层次标签结构特征向量统一编码,以获得学术论文的文本表示和层次标签表示。)语义增强模块。该模块提取文本上下文时序信息,增强文本的语义特征表示,以进一步提取二者之间的深层次关联关系。)层次标签分类(,)模块。该模块以语义增强模块输出的特征向量与原始文本表示向量和层次标签特征向量作为输入。在遵循层次结构自上而下的依赖原则下,构建了一个具有依赖关系的层次标签分类模型,最终实现了对学术论文层次标签的分类,得到学术论文的层次标签分类结果。图 模型框架 层次标签抽取模块层次标签中通常蕴含着拓扑结构信息。为了获
10、取层次标签之间的关系,采用图模型来表示层次标签结构。为了能够充分利用标签的层次结构,模型使用 来捕获标签之间的层次结构特征关系。同时,为了加深对层次标签结构的特征提取,采用具有层堆叠的图注意力神经网络对学科领域层次标签结构进行建模。层次标签抽取模块如图 所示。图 模块 为了能够充分捕获层次标签的结构特征,层次标签抽取模块将从全局和局部 个方面计算节点特征。为了能够获得层次标签的全部结构信息,在全局角度下计算节点之间的注意力互相关系数。对于节点集中任意的 个节点 和,其注意力互相关系数为 (,)()式中:、为节点序号;、为和节点中可学习的参数矩阵;为线性变换层,目的是将矩阵结果转换到实数域上。由
11、此,得到所有节点之间的影响关系。此外,为了使模型能够捕捉到层次标签结构中相邻标签间的不同,模型还需从局部角度提取特征。本 文 通 过 掩 盖 图 注 意 力 机 制()将局部注意力机制引入图结构。对于相邻的 个节点 和,其注意力互相关系数为 ()()()式中:()为按式()计算节点 与节点 之间的注意力互相关系数,为节点 的相邻节点序号集合。由此,得到所有节点的邻居节点权重。此外,为了提取层次标签结构更多的关联信息,进行 次堆叠操作,则节点 堆叠后的节点特征 为 ()()式中:为层次标签结构中的层次数;为节点 在堆叠中可学习的参数矩阵;为节点 的子节点序号集合;为当前堆叠 层下节点与的注意力互
12、相关系数;为激活函数。为了更好地获得每层节点的特征关系,本文为 层标签体系分别创建虚拟节点、,并将与层次标签第 层的所有标签节点连接起来,如图 所示,通过虚拟节点来连接聚合同一层次的信息。对于第 层上的虚拟节点 为 ()()式中:、分别为第 层的节点编号上下界。由此,得到层次标签结构每个节点的特征与每层节点的全局特征,为后续模块提供层次标签结构的特征信息。通用编码模块为了对输入文本进行语义表征,本文采用基于 的 预训练模型 作为通用编码模块。对输入文本进行编码通常使用 模型,以获第 期贾启龙等:学术论文学科领域层次标签分类方法得文本的语义表征,但其仅对字进行遮掩,导致难以捕捉到文本中所包含的学
13、科领域知识的语义表达。模型与 模型的对比如图 所示。与 模型不同,为了更好地表达文本蕴含的知识,模型在 模型的基础上引入了知识图谱对句子中的实体进行遮掩,从而生成更为精准的上下文特征表达,进而提供输入文本中对学科领域知识的语义表达。图 模型与 模型对比 模型的训练方法与 模型类似,通过遮掩句子中的部分字,让编码器根据句子的上下文预测被遮掩的字。此外,将 个句子进行拼接,让编码器再去判断 个句子是否为原文中相邻的句子,以此来学习句子中的上下文信息。在遮掩策略上,模型采用实体为单位进行遮掩,并借助知识图谱来辅助选取实体。如此一来,模型就不仅能够学到字级别的上下文信息,同时可以通过前后文来获取到知识
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学术论文 学科 领域 层次 标签 分类 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。