一种基于内容和ERNIE3.0-CapsNet的中文垃圾邮件识别方法.pdf
《一种基于内容和ERNIE3.0-CapsNet的中文垃圾邮件识别方法.pdf》由会员分享,可在线阅读,更多相关《一种基于内容和ERNIE3.0-CapsNet的中文垃圾邮件识别方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、学术论文DOl:10.12379/j.issn.2096-1057.2024.03.06ResearchPapers一种基于内容和ERNIE3.0-CapsNet 的中文垃圾邮件识别方法单晨棱张新有2 开邢焕来2冯力1(西南交通大学唐山研究院河北唐山063000)(西南交通大学计算机与人工智能学院成都611756)()A Chinese Spam Detection Method Based on Content and ERNIE3.0-CapsNetShan Chenling,Zhang Xinyoul:2,Xing Huanlail.?,and Feng Li?1(Tangshan Gr
2、aduate School,Southwest Jiaotong University,Tangshan,Hebei 063000)2(School of Com puting and Artificial Intelligence,Southwest Jiaotong University,Chengdu 611756)Abstract In order to solve the problems of inadequate word vector representation and limitedfeature extraction richness in the current Chi
3、nese spam recognition methods based on deep learning,thispaper proposes an improved recognition model by integrating the ERNIE3.0 pre-training modelwith the capsule neural network,referred to as ERNIE3.0-CapsNet.For the Chinese spam contenttext,we leverage ERNIE3.0 to generate a word vector matrix w
4、ith outstanding memory andreasoning capabilities,along with rich semantics.Subsequently,we employ the capsule neuralnetwork for feature extraction and classification.For the capsule neural network,we enhance itsstructure,adopting GELU as the activation function of its dynamic routing,and conduct aco
5、mparative experiment between five groups of similar models and four groups of activationfunctions.On the open source TRECo6C Chinese email dataset,the proposed ERNIE3.0-CapsNetmodel exhibits remarkable overall performance,achieving an accuracy rate of 99.45%.Theexperimental results demonstrate the s
6、uperiority of ERNIE3.0-CapsNet over methods such asERNIE3.0-TextCNN,ERNIE3.0-RNN confirming the models effectiveness and superiority inChinese spam recognition.Key words Chinese spam;ERNIE3.O;capsule neural network;activation function;text classification摘要针对目前中文垃圾邮件识别方法中的深度学习检测方法词向量表示不足和特征提取丰富度欠缺的问题
7、,提出融合ERNIE3.0预训练模型的胶囊神经网络改进识别模型一CapsNet.对于中文垃圾邮件内容文本,利用ERNIE3.0生成对于知识具备优异记忆和推理能力且语义丰富的词向量矩阵,再使用胶囊神经网络进行特征提取及分类,对于胶囊神经网络,改进了结构并收稿日期:2 0 2 3-0 7-0 3基金项目:国家自然科学基金项目(6 2 17 2 342)通信作者:张新有()引用格式:单晨棱,张新有,邢焕来,等。一种基于内容和ERNIE3.0-CapsNet的中文垃圾邮件识别方法JI.信息安全研究,2 0 2 4,10(3):233-240网址http:/ 1 233ERNIE3.0-信息安全研究第1
8、0 卷第3期2 0 2 4年3月Journalot Informatien Security ResearchVol.10No.3Mar.2024使用GELU作为其动态路由的激活函数,设计了5组同类模型和4组激活函数的对比实验.在开源的TRECO6C中文邮件数据集上,提出的ERNIE3.0-CapsNet模型效果在总体上表现突出,其准确率达到99.45%.实验结果表明,ERNIE3.0-CapsNet优于ERNIE3.0-TextCNN,ERNIE3.0-RNN等方法,证明了该模型在中文垃圾邮件识别效果的有效性和优异性。关键词中文垃圾邮件;ERNIE3.0;胶囊神经网络;激活函数;文本分类中图
9、法分类号T309随着互联网的高速发展,人们的通信越来越方便,特别是手机短信、微信、电子邮件等得到广泛普及.其中,电子邮件因其可以在云端服务器持久性存储的特性,人们更愿意通过电子邮件来传递重要文件或重要信息.但随之而来的就是邮件中混杂的垃圾电子邮件带来的网络安全问题及其造成的经济损失问题.2 0 16 年6 月至2 0 2 1年12 月期间美国联邦调查局IC3向金融机构提交的文件统计数据显示,因BEC/EAC(商业电子邮件泄露/电子邮件账户泄露骗局而在全球所产生的个人和企业损失高达433亿美元11.此前,信息安全厂商卡巴斯基实验室发布的一份统计报告也提到,2 0 2 1年源于中国的垃圾邮件在全球
10、占比达到8.7 3%,比2 0 2 0 年提升2.52 个百分点,居全球第四2 1.因此,如何更准确检测中文垃圾邮件对当前维护网络安全和避免相关经济损失具有重要意义.目前,对垃圾邮件进行检测的主要方式之一就是基于内容识别.基于内容的垃圾邮件识别方式实质也是对邮件内容文本进行二分类的研究问题.但目前文本分类的优异算法模型正快速迭代,而针对垃圾邮件识别应用领域的优异文本分类的算法应用研究相对欠缺.本文提出了将ERNIE3.0与改进CapsNet相结合的ERNIE3.0-CapsNet文本分类模型,对现有垃圾邮件识别算法词向量表示不足和特征提取丰富度不够有所弥补.ERNIE3.0相对其他主流预训练模
11、型有增强文本信息的知识记忆和推理能力的优势,其最大化丰富了文本表示特征,而CapsNet对保留信息的混合特征和形变特征更有优势31.最后通过对比实验证实本文方法在垃圾邮件识别中具有更加显著的效果。1相关研究垃圾邮件一直是全球性的网络安全痛点,国2341内外对此都非常关注,对垃圾邮件的识别方法也在不断更新与改进.早期,传统机器学习算法常被青用于垃圾邮件检测.但深度学习因其可以避免繁杂的人工特征工程和可以从文本中学习到更好的语义特征等显著优点,渐渐有取代传统机器学习算法在垃圾邮件识别地位的趋势.Sheneamer41比较了深度学习模型和传统机器模型在垃圾邮件中的检测性能,在与5种机器学习方法进行对
12、比实验后得出,LSTM,GloVe-CNN等深度学习模型性能表现更佳.Siddique等人5利用朴素贝叶斯、CNN、SV M和LSTM来检测和分类乌尔都语电子邮件内容,研究结果表明LSTM更优于其他模型,在文本分类的任务研究中6-8,使用神经网络进行分类任务之前,常会借助文本表示模型将文本转换为语义词向量,以消除人工特征工程的复杂性,达到直接对原始文本数据进行端到端分析的目的.于是,Word2Vec-LSTM9,ALBERT-RNN10等词向量表示模型结合神经网络分类模型的方式也相继被提出,并在垃圾邮件识别领域的效果表现出优于传统机器学习甚至一些神经网络模型的检测方法.上述很多研究是针对英文等
13、语言的垃圾邮件检测的探索,在中文垃圾邮件检测领域,目前研究还相对较少,其中文献10 是针对中文垃圾邮件的研究,提出融合ALBERT动态词向量的RNN网络模型,提升了文本表示中对词语多义理解的程度,在TREC06C中文垃圾邮件数据集子集的准确率达到99.13%.Tong等人11提出多通道结合长短注意力机制的胶囊网络模型,提取更多复杂特征,增强关键特征的影响力,表现出优于TextCNN,LSTM及BERT方法的效果,且进一步提升了在TREC06C平衡子集的准确率(99.30%).但这些方法对于文本表示的丰富度和特征提取的力度还有学术论文.ResearchPapers进一步提升的空间.针对上述问题,
14、本文提出了ERNIE3.0-CapsNet文本分类模型.主要贡献点如下:1)预训练语言模型ERNIE3.0将自回归网络和自动编码网络进行结合,并预先训练了具有百亿参数的大规模知识增强模型12.本文利用其对邮件进行文本表示,使邮件文本与世界知识关联,能达到更优异的底层语义语法表示的效果。2)本文对胶囊网络的结构作了优化,增强了底层特征提取,同时对胶囊网络动态路由算法中的激活函数进行了研究,发现一种更适合垃圾邮件识别的激活函数,提升了模型的整体性能.3)本文提出的ERNIE3.0-CapsNet文本分类模型在TREC06C中文邮件数据集表现出色,其表现效果总体优于ERNIE3.0-TextCNN,
15、ERN-IE3.0-RNN等模型.2ERNIE3.0-CapsNet模型2.1文本表示:ERNIE3.0近年来,大规模的预训练语言模型研究成为趋势,其中 ERNIE(enhanced representation throughknowledge integration)系列的预训练模型表现尤为突出.2 0 19年,ERNIE1.0改进于BERT131,其直接对先验语义知识单元进行建模,使模型语义表示能力进一步提升,其在中文任务上全面超过了BERT中文模型.同年,基于持续学习的语义理解预训练框架ERNIE2.0很快被提出,它使用多任务学习增量式构建预训练任务,在中英文任务上都超越了BERT.到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 内容 ERNIE3 CapsNet 中文 垃圾邮件 识别 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。