基于ERNIE+DPCNN...iGRU的农业新闻文本分类_杨森淇.pdf
《基于ERNIE+DPCNN...iGRU的农业新闻文本分类_杨森淇.pdf》由会员分享,可在线阅读,更多相关《基于ERNIE+DPCNN...iGRU的农业新闻文本分类_杨森淇.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1461-1466ISSN 1001-9081CODEN JYIIDUhttp:/基于ERNIE+DPCNN+BiGRU的农业新闻文本分类杨森淇1,2,段旭良1,2*,肖展1,2,郎松松1,2,李志勇1,2(1.四川农业大学 信息工程学院,四川 雅安 625014;2.四川农业大学 农业信息工程实验室,四川 雅安 625014)(通信作者电子邮箱)摘要:针对农业新闻目前面临的针对性差、分类不清和数据集缺乏等问题,提出一种基于 ERNIE(Enhanced Representat
2、ion through kNowledge IntEgration)、深度金字塔卷积神经网络(DPCNN)和双向门控循环单元(BiGRU)的农业新闻分类模型EGC。首先利用ERNIE对数据集进行编码,然后利用改进后的DPCNN和BiGRU同时提取新闻文本的特征,再将两者提取的特征进行拼合并经过Softmax得到最终结果。为了使EGC模型适用于农业新闻分类领域,对DPCNN进行改进,减少它的卷积层以保留更多特征。实验结果表明,与ERNIE相比,EGC模型的精确率、召回率和F1分数别提升了1.47、1.29和1.42个百分点,优于传统分类模型。关键词:新闻文本分类;农业工程;ERNIE;深度金字塔
3、卷积神经网络;双向门控循环单元中图分类号:TP183 文献标志码:AText classification of agricultural news based on ERNIE+DPCNN+BiGRUYANG Senqi1,2,DUAN Xuliang1,2*,XIAO Zhan1,2,LANG Songsong1,2,LI Zhiyong1,2(1.College of Information Engineering,Sichuan Agricultural University,Yaan Sichuan 625014,China;2.Agricultural Information En
4、gineering Laboratory,Sichuan Agricultural University,Yaan Sichuan 625014,China)Abstract:To address the problems of poor targeted performance,unclear classification and lack of datasets faced by agricultural news,an agricultural news classification model based on Enhanced Representation through kNowl
5、edge IntEgration(ERNIE),Deep Pyramidal Convolutional Neural Network(DPCNN)and Bidirectional Gated Recurrent Unit(BiGRU),called EGC,was proposed.The dataset was first encoded by using ERNIE,then the features of the news text were extracted simultaneously by using the improved DPCNN and BiGRU,and the
6、features extracted were combined and the final results were obtained by Softmax.To make EGC model more suitable for applications in the field of agricultural news classification,the DPCNN was improved by reducing its convolution layers to preserve more features.Experimental results show that compare
7、d with ERNIE,the precision,recall and F1 score of the proposed EGC model are improved by 1.47,1.29 and 1.42 percentage points,respectively,verifying that EGC is better than traditional classification models.Key Words:text classification of news;agricultural engineering;Enhanced Representation throug
8、h kNowledge IntEgration(ERNIE);Deep Pyramid Convolutional Neural Network(DPCNN);Bidirectional Gated Recurrent Unit(BiGRU)0 引言 随着我国农业的快速发展,人们对农业新闻的质量提出了更高的要求,但因农业领域因涵盖面广、涉及产业众多,农业信息的获取仍存在针对性较差、分类不清等问题,人们需要花费大量时间甄别出所需的农业新闻,极大地阻碍了农业新闻的传播。目前中文新闻分类最著名的数据集是THUCNews(THU Chinese Text Classification)1,它包含74万
9、篇新闻文档,涉及体育、财经、房产、教育和科技等14类新闻,但唯独没有农业新闻。农业新闻的分类在中文新闻分类领域目前仍处于起步阶段,如何精准、高效地实现农业新闻文本分类,为用户提供精准的农业新闻,提高农业新闻传播的效率,扩大农业新闻的传播范围,成了目前亟待解决的问题。1 文本与新闻分类模型 1.1针对不同领域新闻的分类模型文本分类模型的更新进展较快,如 Wang 等2提出了一种 用 于 文 本 分 类 的 归 纳 图 卷 积 网 络(Inductive Graph Convolutional Network for Text classification,InducT-GCN),该网络仅基于训练
10、文档的统计数据构建图,并用词向量的加权和来表示文档向量。InducT-GCN在测试期间进行单向图卷积网络(Graph Convolutional Network,GCN)的传播,能降低时间和空间复杂度,InducT-GCN在5个文本分类基准中取得了最好的效果。Wang 等3将多维边缘嵌入图卷积网络(Multi-dimensional Edge-enhanced Graph Convolutional Network,ME-GCN)用于半监督文本分类,通过构建文本图描述文本之间的多维关系,并将生成的图送入 ME-GCN 训文章编号:1001-9081(2023)05-1461-06DOI:10.
11、11772/j.issn.1001-9081.2022040641收稿日期:2022-05-07;修回日期:2022-07-15;录用日期:2022-07-22。基金项目:四川省自然科学基金资助项目(2022NSFSC0172)。作者简介:杨森淇(1997),男,河北廊坊人,硕士研究生,主要研究方向:自然语言处理;段旭良(1982),男,河北唐山人,副教授,硕士,主要研究方向:智慧农业、数据挖掘、数据清洗;肖展(2000),男,四川巴中人,硕士研究生,主要研究方向:自然语言处理;郎松松(1997),男,四川达州人,硕士研究生,主要研究方向:计算机视觉、目标检测;李志勇(1985),男,四川眉山
12、人,副教授,博士,主要研究方向:农业信息处理、智能决策。第 43 卷计算机应用练,它可以整合整个文本语料库的丰富图边信息源。实验结果表明,ME-GCN在8个基准数据集中显著优于最先进的方法。Yang等4提出了混合经典量子模型,由一种新颖的随机量子时间卷积(Quantum Temporal Convolution,QTC)学习框架 组 成,该 框 架 取 代 了 基 于 BERT(Bidirectional Encoder Representation from Transformers)的解码器中的一些层。实验结果表明,BERT-QTC 模型在 Snips 和 ATIS 口语数据集中获得了较好
13、的结果。新闻分类是文本分类的一个分支,文本分类技术自然也被应用到新闻领域5,针对新闻分类的研究日益增多,很多学者都提出了针对新闻分类的模型。谢志峰等6针对财经新闻提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)的中文财经新闻分类方法,通过CNN对中文财经新闻进行分类,在大、小规模的财经语料上都表现优异。许英姿等7针对物流新闻分类提出了一种基于改进的加权补集朴素贝叶斯物流新闻分类的方法,针对文本不均衡的情况,加权补集朴素贝叶斯模型在进行新闻分类时更加快速和准确。朱芳鹏等8针对船舶工业领域新闻构建了一个船舶工业新闻语料库,并提出了基于文档频率、卡方统计
14、量及潜在语义分析(Latent Semantic Analysis,LSA)进行特征选择和特征降维,将文档-词矩阵映射成文档-主题矩阵后,最终对处理后的特征采用支持向量机(Support Vector Machine,SVM)进行文本分类的方法。实验结果表明,该方法能够有效解决文本向量的高维度、高稀疏性问题,在小样本集和类别有限的前提下获得了比传统方法更好的分类效果。李超凡等9为了解决中文电子病历文本分类的高维稀疏性、算法模型收敛较慢、分类效果不佳等问题,提出了一种基于注意力机制(Attention mechanism)结合CNN和双向循环神经网络的模型。该病历文本分类模型对比实验的结果表明,
15、该模型的 F1 值达到了 97.85%,有效地提升了病历文本分类的效果。目前国内农业新闻分类的模型还较少,其中霍婷婷10提出了一种基于FastText对“重要词进行加权筛选”和“融合新闻标题”的模型CFT-FastText(Content Feature and Title Fast Text)应用于农业新闻文本分类,通过对特征增强的序列进行加权筛选,再融合提出的 CFT-FastText 算法,可以获得更好的农业新闻分类效果。农业文本与其他类别文本相比,具有长度较短、文本间较为类似、特征不突出,并且维度较高、稀疏性较强等特点,容易区分不开。例如“在山区如何养野鸡”和“在山区如何捉野鸡”这两个
16、只有一字之差的农业新闻标题,前者属于畜牧业,而后者属于副业。针对农业文本的特点,不同作者提出了不同的解决办法。如金宁等11运用词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法对农业文本的特征进行扩展,并采用 Word2Vec(Word to Vector)模型训练分词结果,将农业文本转为低维、连续的词向量,实现了农业问答社区中农业问句的精确快速分类;王郝日钦等12提出了一种基于CNN和注意力机制的水稻文本分类方法,根据水稻文本具备的特征,采用Word2Vec方法对文本数据进行处理与分析,并结合农业分词词典对文本数据进行向量
17、化处理,有效地解决了文本的高维性和稀疏性问题。1.2基于BERT的新闻分类目前,融合BERT模型的新闻分类方法取得了较好的效果。BERT 模型是一种基于大量语料库训练完成的语言模型,生成的词向量拥有较多的先验信息、并且充分结合上下文语义等优点,因此被广泛应用于新闻分类领域。随后产生了一批基于 BERT 进行改进的加强版模型,例如 Liu等13提出的 RoBERTa(Robustly optimized BERT)模型是 BERT 的改进版,具有训练时间更长、批量数据更大、训练序列更长等特点,并 且 加 入 了 动 态 调 整 掩 码 机 制,在 GLUE(General Language Un
18、derstanding Evaluation)、RACE(Large-scale ReAding Comprehension dataset from Examination)和 SQuAD(Stanford Question Answering Dataset)上取得了当时最先进的成绩。哈工大讯飞联合实验室(HFL)的 Cui 等14提出的MacBERT(MLM as correction BERT)模 型 在 多 个 方 面 对RoBERTa进行了改进,利用相似的单词掩码减小了预训练和微调阶段两者之间的差距,并在多个数据集上取得了较好的效果。杨先凤等15针对传统文本特征无法充分解决一词多义
19、的 问 题,利 用 BERT 字 注 释 和 双 向 门 控 循 环 单 元(Bidirectional Gated Recurrent Unit,BiGRU)结合注意力机制提取特征。实验结果表明,在公开数据集 THUCNews上,该模型比未引入字注释的文本分类模型有明显提高。彭玉芳等16融合了中国图书馆分类法的族性检索和分面分类法的特性检索,构建了南海文献分类法,应用 BERT 预训练模型实现细粒度的多标签南海证据性数据的自动分类,从更细粒度的视角实现数据分类,从而更有利于展开数据挖掘,找到数据间潜在的关联关系。张海丰等17提出了一种结合BERT和特征投影网络的新闻主题文本分类方法,该方法将
20、新闻类文本输入BERT模型后,输出的特征再次进行多层全连接层的特征提取,并将最终提取到的文本特征结合特征投影方法进行提纯,从而强化分类效果。但是BERT模型针对中文领域和其预训练模块仍有较多不足,在 BERT 模型中,对文本的预处理都按照最小单位进行切分,在英文文本中掩码的对象多数情况下为词根,而非完整的词,对于中文则是按字切分,直接对单个的字进行掩码,这种方式限制了模型对于词语信息的学习。1.3基于ERNIE的新闻分类BERT-Chinese-WWM(Whole Word Masking)模型18改进了中文处理的过程:首先对中文进行分词,在掩盖时将完整词语的所有字一并掩盖,便于模型对语义信息
21、的学习。百 度 发 布 的 ERNIE(Enhanced Representation through kNowledge IntEgration)模型19则进一步扩展了中文全词掩盖策略,不仅包含了中文分词,还包括短语及命名实体的全词掩盖。国内也有学者利用 ERNIE 进行新闻分类,如陈杰等20利用 ERNIE 结合文本卷积神经网络(Text Convolutional Neural Network,TextCNN),通过领域预训练生成高阶文本特征向量并进行特征融合,实现语义增强,进而提升短文本分类效果。黄山成等21提出一种基于ERNIE2.0、双向长短时记忆(Bi-directional L
22、ong Short-Term Memory,BiLSTM)网络和Attention 的隐式情感分析方法 EBA(ERNIE2.0,BiLSTM and Attention),能够较好捕捉隐式情感句的语义及上下文信息,有效提升隐式情感的识别能力,并在SMP2019公开数据集上取得了较好的分类效果。喻航等22利用ERNIE结合TF-IDF针对区级人大报告特定的几方面内容进行文本分类,利用ERNIE直接对语义知识单元进行建模,并且在此基础上加入TF-IDF 提升模型性能。实验结果表明,该方法在分类的准确率和召回率上表现不错,ERNIE模型收敛速度得到了明显提升。综上所述,为了避免 BERT 在中文特
23、征提取上的不足,1462第 5 期杨森淇等:基于ERNIE+DPCNN+BiGRU的农业新闻文本分类以及目前国内在农业新闻分类领域的欠缺,采用 ERNIR 结合深度金字塔卷积神经网络(Deep Pyramidal Convolutional Neural Network,DPCNN)和双向门控循环单元(BiGRU),提出 EGC 模型。本文的主要工作包括:1)自建农业新闻数据集,对网络上真实存在的农业类新闻进行收集并清洗;2)在数据集上对比几组最经典的模型,并尝试了几种不同的激活函数,最终基于ERNIE、DPCNN和BiGRU提出EGC模型。2 EGC模型 为了提取更完整的特征,本文EGC模型
24、由3个模型融合构成,包括ENIRE、BiGRU和改进DPCNN。2.1ERNIEERNIE 是基于谷歌公司研发的 BERT 模型,原生的BERT用在中文上时是基于单个字的,忽略了文字的联系,而ERNIE可以很好地捕捉文字之间的关系。以“越南巴沙鱼出口仍未走出困境”为例,BERT 和 ERNIE 的掩码策略对比如图 1所示,ERNIE 加入了前后文本的联系,更容易推理出被掩盖掉的文字。当使用原生 BERT,会随机掩码 15%的文字,BERT不会考虑上下文的联系,导致一个词被分开,不易推理出被掩盖掉的文字;而 ERNIE 的掩码策略会考虑文字之间的关系,会以词来进行掩码,能够更容易推理出被掩盖的文
25、字。ERNIE 的核心部分是 Transformer-encode23,如图 2 所示。数据输入后,经过编码和添加位置信息,利用多头注意力机制进行计算,通过归一化以及前向传播和再次归一化,从多头注意力机制到再次归一化构成一个层,经过N个这样的层,输出编码。2.2BiGRU循环神经网络(Recurrent Neural Network,RNN)是自然语言处理任务中的一个重要方法,与CNN相比,它的最大优势是能够提取到上下文的文本特征,在处理序列问题时优势明显。Hochreiter 等24提出了长短时记忆(Long Short-Term Memory,LSTM)网络,LSTM在记忆上下文重要信息的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 ERNIE DPCNN iGRU 农业 新闻 文本 分类 杨森淇
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。