基于Bert模型的垃圾短信识别研究_王靖轩.pdf
《基于Bert模型的垃圾短信识别研究_王靖轩.pdf》由会员分享,可在线阅读,更多相关《基于Bert模型的垃圾短信识别研究_王靖轩.pdf(4页珍藏版)》请在咨信网上搜索。
1、SOFTWARE软 件2023第 44 卷 第 1 期2023 年Vol.44,No.1基金项目:嘉兴南湖学院大学生科研训练计划(SRT)项目“基于 Bert 模型的垃圾短信识别方法研究”(218517249)作者简介:王靖轩(2002),男,新疆伊宁人,本科,研究方向:自然语言处理。通讯作者:陆贝妮(1993),女,浙江嘉兴人,硕士研究生,助教,研究方向:自然语言处理、服务计算。基于 Bert 模型的垃圾短信识别研究王靖轩 陆贝妮 杨杰 吴思楠(嘉兴南湖学院信息工程学院,浙江嘉兴 312000)摘要:针对现有垃圾短信识别方法,在复杂场景中特征表示效率低的问题,提出文本预处理结合 Bert 模
2、型的垃圾短信识别方法。首先对数据集进行预处理,消除冗余信息对分类器的影响,然后将预处理后的数据按 8:1:1 比例划为训练集,交叉验证集和测试集三类。将 Bert 模型引入垃圾短信识别分类场景,利用动态掩码提高了文本特征表征能力。实验结果表明,本文提出的垃圾短信识别方法具有较好的识别效果。关键词:垃圾短信;文本分类;Bert 模型中图分类号:TP391.1 文献标识码:A DOI:10.3969/j.issn.1003-6970.2023.01.004本文著录格式:王靖轩,陆贝妮,杨杰,等.基于Bert模型的垃圾短信识别研究J.软件,2023,44(01):016-019Research on
3、 Spam Message Recognition Based on Bert ModelWANG Jingxuan,LU Beini,YANG Jie,WU Sinan(Jiaxing Nanhu University School of Information Engineering,Jiaxing Zhejiang 312000)【Abstract】:Aiming at the problem of low efficiency in feature representation of existing spam message recognition methods in comple
4、x scenes,a spam message recognition method combining text preprocessing and Bert model is proposed.Firstly,the data set is preprocessed to eliminate the influence of redundant information on the classifier,then the preprocessed data were divided into training set,cross validation set and test set in
5、 a ratio of 8:1:1.The Bert model is introduced into spam message recognition scenarios,and the dynamic mask is used to improve the ability of text feature representation.Experimental results show that the proposed method in this paper has a good recognition effect.【Key words】:spam message;text class
6、ification;Bert model基金项目论文0 引言随着万物互联时代的到来,智能手机已经成为用户日常通讯的重要工具之一。其中,手机短信凭借其运作简易、舒适便捷等诸多优点,已成为用户之间沟通的重要媒介。然而在短信业务迅速发展的同时也带来了一些信息安全方面的问题。不法分子利用短信大量发送广告、虚假信息、散布谣言、传播不良、色情信息等垃圾短信。垃圾短信不仅污染了网络环境,占用了有限的网络资源,造成网络拥塞,使运营商耗费更多的资源对其进行处理,手机用户也要耗费大量的时间来删除垃圾短信,垃圾短信已成为一种社会公害。如何对海量的垃圾短信准确识别分类和有效处理仍是当前亟待解决的重要课题。目前常用的中
7、文垃圾短信识别方法有基于规则的方法、基于黑白名单的方法、基于内容的方法1。规则法要求人为提前进行规则制定,遇到新型垃圾短信需新增规则才能识别,这种垃圾短信识别方法过于繁琐。黑白名单法只能识别已经在名单中的号码,过于单一,无法对陌生号码的信息进行识别,大多时间需人工干预。基于内容的短信识别是将文本分类技术引入垃圾短信识别,是目前国内外主流的垃圾短信识别方法。该方法主要通过机器学习分类模型对垃圾文本进行分类,如:TextCNN2、贝叶斯网络、支持向量机利用机器学习算法提升了垃圾短信识别效率。然而,在一些一词多义等复杂场景中,现有模型不能很好的表征文本特征。前述针对垃圾短信文本的特征表示算法均是将其
8、进行分词或17王靖轩陆贝妮杨杰等:基于 Bert 模型的垃圾短信识别研究者分字,处理对象为字符或者词语层面的特征,而由于垃圾短信具有特征稀疏的特性,字符或者词语不能表示短信的完整语义,因此导致短信的特征表示向量不能较好地代表短信语义。因此,短信的特征表示是提高垃圾短信识别性能的关键步骤。例如:“我喜欢小米”,这里的小米可能是指小米手机,也可能是吃的小米。Bert 模型通过对未标注的文本信息进行深层双向表示获得上下文语义信息,一词多意问题在 Bert 模型中得到了解决。本文将 Bert 模型引入垃圾短信识别,提出本文数据预处理结合 DMBert 模型的垃圾短信识别方法,论文主要贡献如下:(1)将
9、 Bert 技术引入到垃圾短信处理场景,解决了以往垃圾短信处理中的特征表示存在歧义性、分类精度低的问题;(2)提出动态 MASK 方法(简称 DMBert),提升了文本特性的表征能力;(3)与现有方法的实验对比表明,DMBert 在垃圾短信识别中有一定的优势。本文基于 Bert 的垃圾短信识别算法主要由短信数据预处理、短信数据向量化以及短信识别三部分构成,短信数据预处理的目的是将输入的短信数据整理成识别所需的文本,降低其他符号对识别效果的影响,然后对预处理后的短信数据进行向量化表示并形成特征向量,最终将特征向量输入搭建好的识别器以实现垃圾短信识别。1 数据预处理数据预处理是垃圾短信识别的关键步
10、骤,预处理质量的高低直接影响识别效率。数据预处理过程主要包括删除重复语句、分词、删除无用词等。中文句子词语之间没有显著的分隔符标识,相对英文句子,结构比较复杂。理解中文句子,首先要理解中文词语,要对句子中的词进行分割。分词质量直接影响文本分类效果。目前主流的分词工具有、JIEBA、NLPIR、THULAC 和 SNOW NLP 分词器3。其中,JIEBA 分词器根据文本内容自定义和修改词典,在中文分词中被广泛应用。本文采用 JIEBA 分词器对短信文本进行分词,降低无用词对分类器的干扰。在原始数据集中包含许多重复语句和无用信息,如特殊符号、标点符号、数字、表情、乱码等冗余信息,这些冗余信息对分
11、类模型产生不必要的噪音,影响垃圾短信识别效果。本文的数据预处理包括两个部分,首先删除数据集中重复语句,然后,去除“、%、&.”“你”“地”“她”“和”等标点符号、特殊符号、人称代词、副词、连接词。垃圾短信(文本信息)属于非结构化的字符串数据,如何将汉字字符串信息编码成计算机能识别的二进制数据是文本分类中的关键。传统的中文文本编码方式有:One-hot、词袋模型、TF-IDF、共生矩阵(Co_ocurrence matrix)等4,目前主流的文本编码方式,即文本向量化(词嵌入)方法有两种,静态预训练模型 Word2Vec、GloVe 和动态预训练模型XLNet、Bert。Bert 解决了一词多义
12、问题,在复杂场景中具有较好的识别效果,本文采用 Bert 模型作为词向量表征方法。2 Bert 和 DMBert 模型Bert(Bidirectional Encoder Representation from Transformers)模型于 2018 年由 Google AI 研究院提出5,可为文本信息生成高质量的特征表征。Bert是一个预训练自然语言处理模型,它通过对未标注的文本进行深层双向表示获得上下文语义信息,在训练过程中学习到文本的更多维、更深层次的内容。训练得到的模型可用于文本分类等多个领域,相比于传统自然语言处理(Natural Language Processing,NLP)
13、方法更加方便、高效。Bert 模型的核心为 Transformer 框架,输入向量 X 由 Token Embedding、Segment Embedding、Position Embedding 3 个向量构成。其中Token Embedding包含字符的语义信息,Seg-ment Embedding包含上下文信息,Position Embedding 包含位置信息。Transformer 由一堆编码器(Encoder)编码组件和相同数量(与编码器对应)的解码器(Decoder)组成。其中,单个编码器由注意力机制、前馈神经网络组成,解码器由注意力机制、编码-解码注意力层、前馈神经网络组成。D
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Bert 模型 垃圾 短信 识别 研究 王靖轩
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。