基于Bert模型的垃圾短信识别研究_王靖轩.pdf

上传人：自信****多点

文档编号：237102

上传时间：2023-04-06

格式：PDF

页数：4

大小：1.52MB

《基于Bert模型的垃圾短信识别研究_王靖轩.pdf》由会员分享，可在线阅读，更多相关《基于Bert模型的垃圾短信识别研究_王靖轩.pdf（4页珍藏版）》请在咨信网上搜索。

1、SOFTWARE软件2023第 44 卷第 1 期2023 年Vol.44,No.1基金项目：嘉兴南湖学院大学生科研训练计划(SRT)项目“基于 Bert 模型的垃圾短信识别方法研究”（218517249）作者简介：王靖轩（2002）,男,新疆伊宁人,本科,研究方向：自然语言处理。通讯作者：陆贝妮（1993）,女,浙江嘉兴人,硕士研究生,助教,研究方向：自然语言处理、服务计算。基于 Bert 模型的垃圾短信识别研究王靖轩陆贝妮杨杰吴思楠（嘉兴南湖学院信息工程学院，浙江嘉兴 312000）摘要：针对现有垃圾短信识别方法,在复杂场景中特征表示效率低的问题,提出文本预处理结合 Bert 模

2、型的垃圾短信识别方法。首先对数据集进行预处理,消除冗余信息对分类器的影响,然后将预处理后的数据按 8：1：1 比例划为训练集,交叉验证集和测试集三类。将 Bert 模型引入垃圾短信识别分类场景,利用动态掩码提高了文本特征表征能力。实验结果表明,本文提出的垃圾短信识别方法具有较好的识别效果。关键词：垃圾短信；文本分类；Bert 模型中图分类号：TP391.1 文献标识码：A DOI：10.3969/j.issn.1003-6970.2023.01.004本文著录格式：王靖轩,陆贝妮,杨杰,等.基于Bert模型的垃圾短信识别研究J.软件,2023,44(01):016-019Research on

3、 Spam Message Recognition Based on Bert ModelWANG Jingxuan,LU Beini,YANG Jie,WU Sinan(Jiaxing Nanhu University School of Information Engineering,Jiaxing Zhejiang 312000)【Abstract】：Aiming at the problem of low efficiency in feature representation of existing spam message recognition methods in comple

4、x scenes,a spam message recognition method combining text preprocessing and Bert model is proposed.Firstly,the data set is preprocessed to eliminate the influence of redundant information on the classifier,then the preprocessed data were divided into training set,cross validation set and test set in

5、 a ratio of 8:1:1.The Bert model is introduced into spam message recognition scenarios,and the dynamic mask is used to improve the ability of text feature representation.Experimental results show that the proposed method in this paper has a good recognition effect.【Key words】：spam message;text class

6、ification;Bert model基金项目论文0 引言随着万物互联时代的到来,智能手机已经成为用户日常通讯的重要工具之一。其中,手机短信凭借其运作简易、舒适便捷等诸多优点,已成为用户之间沟通的重要媒介。然而在短信业务迅速发展的同时也带来了一些信息安全方面的问题。不法分子利用短信大量发送广告、虚假信息、散布谣言、传播不良、色情信息等垃圾短信。垃圾短信不仅污染了网络环境,占用了有限的网络资源,造成网络拥塞,使运营商耗费更多的资源对其进行处理,手机用户也要耗费大量的时间来删除垃圾短信,垃圾短信已成为一种社会公害。如何对海量的垃圾短信准确识别分类和有效处理仍是当前亟待解决的重要课题。目前常用的中

7、文垃圾短信识别方法有基于规则的方法、基于黑白名单的方法、基于内容的方法1。规则法要求人为提前进行规则制定,遇到新型垃圾短信需新增规则才能识别,这种垃圾短信识别方法过于繁琐。黑白名单法只能识别已经在名单中的号码,过于单一,无法对陌生号码的信息进行识别,大多时间需人工干预。基于内容的短信识别是将文本分类技术引入垃圾短信识别,是目前国内外主流的垃圾短信识别方法。该方法主要通过机器学习分类模型对垃圾文本进行分类,如：TextCNN2、贝叶斯网络、支持向量机利用机器学习算法提升了垃圾短信识别效率。然而,在一些一词多义等复杂场景中,现有模型不能很好的表征文本特征。前述针对垃圾短信文本的特征表示算法均是将其

8、进行分词或17王靖轩陆贝妮杨杰等：基于 Bert 模型的垃圾短信识别研究者分字,处理对象为字符或者词语层面的特征,而由于垃圾短信具有特征稀疏的特性,字符或者词语不能表示短信的完整语义,因此导致短信的特征表示向量不能较好地代表短信语义。因此,短信的特征表示是提高垃圾短信识别性能的关键步骤。例如：“我喜欢小米”,这里的小米可能是指小米手机,也可能是吃的小米。Bert 模型通过对未标注的文本信息进行深层双向表示获得上下文语义信息,一词多意问题在 Bert 模型中得到了解决。本文将 Bert 模型引入垃圾短信识别,提出本文数据预处理结合 DMBert 模型的垃圾短信识别方法,论文主要贡献如下：（1）将

9、 Bert 技术引入到垃圾短信处理场景,解决了以往垃圾短信处理中的特征表示存在歧义性、分类精度低的问题；（2）提出动态 MASK 方法(简称 DMBert),提升了文本特性的表征能力；（3）与现有方法的实验对比表明,DMBert 在垃圾短信识别中有一定的优势。本文基于 Bert 的垃圾短信识别算法主要由短信数据预处理、短信数据向量化以及短信识别三部分构成,短信数据预处理的目的是将输入的短信数据整理成识别所需的文本,降低其他符号对识别效果的影响,然后对预处理后的短信数据进行向量化表示并形成特征向量,最终将特征向量输入搭建好的识别器以实现垃圾短信识别。1 数据预处理数据预处理是垃圾短信识别的关键步

10、骤,预处理质量的高低直接影响识别效率。数据预处理过程主要包括删除重复语句、分词、删除无用词等。中文句子词语之间没有显著的分隔符标识,相对英文句子,结构比较复杂。理解中文句子,首先要理解中文词语,要对句子中的词进行分割。分词质量直接影响文本分类效果。目前主流的分词工具有、JIEBA、NLPIR、THULAC 和 SNOW NLP 分词器3。其中,JIEBA 分词器根据文本内容自定义和修改词典,在中文分词中被广泛应用。本文采用 JIEBA 分词器对短信文本进行分词,降低无用词对分类器的干扰。在原始数据集中包含许多重复语句和无用信息,如特殊符号、标点符号、数字、表情、乱码等冗余信息,这些冗余信息对分

11、类模型产生不必要的噪音,影响垃圾短信识别效果。本文的数据预处理包括两个部分,首先删除数据集中重复语句,然后,去除“、%、&.”“你”“地”“她”“和”等标点符号、特殊符号、人称代词、副词、连接词。垃圾短信（文本信息）属于非结构化的字符串数据,如何将汉字字符串信息编码成计算机能识别的二进制数据是文本分类中的关键。传统的中文文本编码方式有：One-hot、词袋模型、TF-IDF、共生矩阵(Co_ocurrence matrix)等4,目前主流的文本编码方式,即文本向量化（词嵌入）方法有两种,静态预训练模型 Word2Vec、GloVe 和动态预训练模型XLNet、Bert。Bert 解决了一词多义

12、问题,在复杂场景中具有较好的识别效果,本文采用 Bert 模型作为词向量表征方法。2 Bert 和 DMBert 模型Bert（Bidirectional Encoder Representation from Transformers）模型于 2018 年由 Google AI 研究院提出5,可为文本信息生成高质量的特征表征。Bert是一个预训练自然语言处理模型,它通过对未标注的文本进行深层双向表示获得上下文语义信息,在训练过程中学习到文本的更多维、更深层次的内容。训练得到的模型可用于文本分类等多个领域,相比于传统自然语言处理（Natural Language Processing,NLP）

13、方法更加方便、高效。Bert 模型的核心为 Transformer 框架,输入向量 X 由 Token Embedding、Segment Embedding、Position Embedding 3 个向量构成。其中Token Embedding包含字符的语义信息,Seg-ment Embedding包含上下文信息,Position Embedding 包含位置信息。Transformer 由一堆编码器（Encoder）编码组件和相同数量（与编码器对应）的解码器（Decoder）组成。其中,单个编码器由注意力机制、前馈神经网络组成,解码器由注意力机制、编码-解码注意力层、前馈神经网络组成。D

14、MBert（Dynamic Masking Bert）：在 Bert 开始训练数据时,训练集中的每一个样本只进行一次随机MASK,这样该样本在所有的 Epoch 中重复,在每一个训练步中都是用相同的 MASK,这就是 Bert 的静态MASK。在我们的 DMBert 中,训练集中的每一个样本在每一个训练步都进行一次动态随机 MASK,这样每个Epoch 的样本 MASK 是变化的,这就有效避免了训练集数据的重复,动态 MASK 的操作,近似于对数据增广操作。预测效果在 Bert 基础上有了进一步地提升。2.1 Bert 预训练预训练模型的目的是利用庞大的语料库训练出一个尽量能够应对各种下游任务

15、的模型,即通过预训练让模型对每一个词,在各种可能的上下文环境中的语义和用法留下记忆。Bert 通过两项任务对模型进行预训练,分别为遮蔽语言模型（Masked Language Model,MLM）和邻句预测（Next Sentence Prediction,NSP）。Bert 用 MLM（Masked Language Model,掩码语言模型）方法训练词的语义理解能力,MLM 是借鉴18软件第 44 卷第 1 期SOFTWARE完形填空任务和 Word2Vec 中 CBOW 算法思想定义的一种模型预训练任务。具体实现过程为：随机抽取部分词进行掩码操作,用 Mask 掩码字符来替换被抽取到

16、的单词,训练 Bert 模型来正确预测这些被掩码词。遮蔽语言模型的训练集与测试集数据之间存在不可避免的系统性数据分布差异,这会产生训练与预测数据偏差导致的性能损失,为改善这一弊端,Bert 在样本中随机抽取 15%的掩码词后,对抽取的掩码 80%的样本用掩码标记 Mask 替换掩码词,对另外 10%的样本不做任何替换,对最后 10%的样本从模型词表中随机抽取单词来替换掩码词。Bert 用 NSP（Next Sentence Prediction,下句预测）方法训练句子之间的理解能力,使模型能学会捕捉句子间的语义联系。具体实现过程为：模型的输入语句由两个句子组成,其中有 50%的概率将语义连贯的

17、两个连续句子作为训练样本（连续句对应取自篇章级别的语料,以确保前后语句的语义强相关）,另有 50%的概率将完全随机抽取的两个句子作为训练样本,模型要根据输入的两个句子,判断它们是否属于真实的连续句对。2.2 Bert 微调微调阶段增强了 Bert 模型的鲁棒性和对上下文信息的提取能力。预训练阶段 MLM 和 NSP 这两项任务同时进行。使用训练好的 Bert 模型,同时加入一个全连接网络进行微调,可以较为全面的提取输入文本序列中包含的语言特征信息,便可以完成诸多 NLP 任务并取得较好的结果。Bert 模型使用 Transformer Encoder 结构作为特征提取器,而不拼接使用两个方向的

18、 Transformer Decoder 结构作为特征提取,它可以提取字与字、词与词、句子之间的特征关系,有较强的泛化能力。为了将 Bert 模型应用于垃圾短信识别任务,本文在输出层后增加一个全链接层即分类层,分类层的输出结构经过 Sigmoid 函数获得各 Token 类别标签的概率分布。微调的过程在数据集上进行有监督训练,以此改变预训练模型的权重矩阵。3 短信数据表示本文使用 Bert 模型进行短信的向量表示,而在传统方法中一般的短信表示流程如图 1 所示。Bert 模型的输出有两种形式：一种是字符级别的向量,即输入短信的每个字符对应的向量表示；另一种是句子级别的向量,即 Bert 模型输

19、出最左边 CLS 特殊符号的向量,Bert 模型认为该向量可以代表整个句子的语义,如图 2 所示。在图 2 中,底端的 CLS 和 SEP 是 Bert 模型自动添加的句子开头和结尾的表示符号,可以看出输入字符串中每个字符经过 Bert 模型处理后都有相应的向量表示。当需要得到一个短信的向量表示时,Bert 模型输出最左边 CLS 特殊符号的向量,由于本文使用 Bert 模型的输出,因此相比一般短信表示流程,无需进行特征提取、特征向量表示及特征向量拼接,具体流程如图 3 所示。在本文中得到短信数据的向量表示后,可以根据需要选取 Bert 输出最左边 CLS 特殊符号的向量或整个短信字符串的向量

20、输出来添加不同的分类器,对垃圾短信数据进行分类。短信数据短信数据预处理短信数据特征提取短信数据特征向量表示短信数据特征向量拼接短信数据向量表示图 1 传统方法短信数据表示流程Fig.1 Traditional method SMS data representation processVectorClass LabelBertCLS 保健品多买多 MASK 惠 SEP 王先生 MASK 系电话 X X图 2 Bert 模型输出Fig.2 Bert model output19王靖轩陆贝妮杨杰等：基于 Bert 模型的垃圾短信识别研究4 实验介绍4.1 实验数据及评价指标实验数

21、据集源于网络公开数据集message80W1,共有80万条。实验将数据按比例分为训练集、交叉验证集和测试集3类,分割比例为8:1:1。用训练集训练好Bert模型后,即可用交叉验证集测试,根据输出结果改进模型。样本根据其真实类别与学习器预测类别的组合划分为真正样本(True Positive),真反样本(True Positive),假假正样本(False Negative),假反样本(False Negative)4 种情形,令 TP、TP、TN、FN 分别表示其对应的样本数,则显然有 TP+FP+TN+FN=样本总数。本文以查准率、查全率和 F1-Score 作为算法对比的评价指标。查准率(

22、Precision)：查准率表示真正样本在预测为正样本中的比率,如式（1）所示：TPprecisionTPFP=+（1）查全率(Recall)：查全率又称召回率,它表示真正样本数在预测为真正样本数中占的比率,如式（2）所示：TPrecallTPFN=+（2）F1-Score：查准率与查全率的调和平均值,它的值更接近于Precision与Recall中较小的值,如式（3）所示：21-precision recallFScoreprecisionrecall=+（3）4.2 实验结果及分析实验运行环境为：CPU 为 i7-6800k,内存为 16G,GPU 为 GTX2070,显存为 8G,操作系

23、统为 64 位系统Unbutu20.04,编程环境为 Python3.8,深度学习框架为 Pytorch1.11.0.80W 个训练样本经过 8:1:1 比例分割后,60W 个样本作为训练集,交叉验证集和测试集分别为 10W 个样本。我们对本文提出的方法与经典的文本分类方法 TextCNN 在查准率、查全率、F1-Score 3 个指标上进行实验对比。如表 1 所示展示了在 3 个评价指标上的实验对比结果,结果表明 DMBert 模型相对 TextCNN 方法有一定优势,DMBert 模型在每个训练步（Epoch）动态生成词遮罩,使得训练模型具有更好的文本特征表征能力。如图 4 所示展示了模型

24、随着训练样本数增加查准率的变化情况,从图 4 中可以看出,随着训练样本数的增加,模型的查准率有所提升。训练时间上 DMBert 模型在 60W 样本上花费 8h,而 TextCNN 模型花费 50min,说明 TextCNN 模型在训练时间上优于 DMBert。表 1 准确率对比实验结果Tab.1 Accuracy comparison experimental results模型PrecisionRecallF1-ScoreTextCNN0.97830.94390.9444DMBert0.99330.96500.96341.000.98查准率0.960.94textCNNDMBert样本个数

25、（105）0.920.900.880.862.002.503.003.504.004.505.005.506.00图 4 训练集大小与查准率对比Fig.4 Comparison of training set size and precision5 结语针对现有垃圾短信识别方法在一词多义等复杂场景中不能很好的表征词向量问题,提出了文本预处理结合Bert 动态掩码的垃圾短信识别方法。在 message80W1数据集上的实验结果表明,Bert 在训练时间上不占优势,但结合预训练模型和动态掩码,得到更加符合短信文本语义动态词向量,可以提升模型的学习能力,在特征稀疏、复杂环境中有更多的优势。参考文献1

26、吴思慧,陈世平.结合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信识别J.计算机系统应用,2020,29(9):171-177.2 QIN X F,PENG S L,YANG X,et al.Deep Learning Based Channel Code Recognition Using TextCNNC/2019 IEEE International Symposium on Dynamic Spectrum Access Networks(DySPAN).IEEE,2019:1-5.3 赖文辉,乔宇鹏.基于词向量和卷积神经网络的垃圾短信识别方法J.计算

27、机应用,2018,38(9):2469-2476.4 江伟.基于深度学习的文本分类D.南京:南京理工大学,2018.5 DENLIN J,CHANG M W,LEE K,et al.Bert:Pre-training of Deep Bidirectional Transformers for Language UnderstandingC/Conference on the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2019:4171-4186.图 3 本文 Bert 方法中的短信数据表示流程Fig.3 SMS data representation process in Bert method in this paper短信数据短信数据预处理短信数据向量表示

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 Bert 模型垃圾短信识别研究王靖轩

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。