基于局部敏感哈希的K邻近算法识别垃圾短信.pdf
《基于局部敏感哈希的K邻近算法识别垃圾短信.pdf》由会员分享,可在线阅读,更多相关《基于局部敏感哈希的K邻近算法识别垃圾短信.pdf(6页珍藏版)》请在咨信网上搜索。
1、第37 卷第6 期2023年11月文章编号:16 7 1-3559(2 0 2 3)0 6-0 7 46-0 6济南大学学报(自然科学版)Journal of University of Jinan(Science and Technology)Vol.37 No.6Nov.2023D0I:10.13349/ki.jdxbn.20230816.002基于局部敏感哈希的K邻近算法识别垃圾短信樊继慧1.2,滕少华3(1菲律宾圣保罗大学研究生院,土格加劳350 0,菲律宾;2.广州理工学院计算机科学与工程学院,广东广州510 540,中国;3.广东工业大学计算机学院,广东广州510 0 0 6,中国
2、)摘要:针对目前垃圾短信的识别算法存在的关键字及频次的规则死板,易于被不法分子探测和规避等问题,提出将局部敏感哈希的K邻近算法应用于垃圾短信分类识别;首先定义特征,然后采用局部敏感哈希算法计算向量距离,通过得到的距离衡量矩阵的相似性,量化矩阵相似程度,对本文中提出的优化模型进行实现和训练;基于短信文本内容,运用词频-逆向文本频率算法生成矩阵,利用局部敏感哈希算法求解最相似样本,记录样本类别,将训练结果导入K邻近算法分类器得到最优近邻,在测试集或验证集上对优化模型垃圾短信分类识别准确率进行评测。结果表明,经过K邻近算法分类器后,优化模型垃圾短信分类识别准确率达到9 8.7%。关键词:垃圾短信识别
3、;K邻近算法;局部敏感哈希;矩阵相似性中图分类号:TP391文献标志码:A开放科学识别码(OSID码):台Recognition of Spam Text Messages Based onLocal Sensitive Hash K Nearest Neighbor AlgorithmFAN Jihuil2,TENG Shaohua(1.Department of Graduate School,Saint Paul University,Tuguegarao 3500,Philippines;2.School of Computer Science and Engineering,Guan
4、gzhou Institute of Science and Technology,Guangzhou 510540,Guangdong,China;3.School of Computer Science and Technology,Guangdong University of Technology,Guangzhou 510006,Guangdong,China)Abstract:Aiming at the problems of the curent junk message recognition algorithm,such as the inflexible rules ofk
5、eywords and frequency,and easy to be detected and evaded by criminals,a K nearest neighbor algorithm based on localsensitive hash was proposed for the classification and recognition of spam text messages.First,the feature was defined,and then the local sensitive hash algorithm was used to calculate
6、the vector distance.The distance obtained measured thesimilarity of the matrix,quantizes the similarity of the matrix,and implemented and trained the optimization modelproposed in this paper.Based on the text content of short messages,the word frequency reverse text frequency algorithmwas used to ge
7、nerate the matrix,the local sensitive hash algorithm was used to solve the most similar samples,record thesample categories,and import the training results into the K nearest neighbor algorithm classifier to obtain the best nearestneighbor,and the classification and recognition accuracy of spam shor
8、t messages was eveluated in the test set or verifi-cation set.The results show that after K nearest neighbor classifier,the improved model achieves 98.7%accuracy ofspam short message classification.Keywords:recognition of spam text message;K nearest neighbor algorithm;local sensitive hash;matrix sim
9、ilarity收稿日期:2 0 2 2-10-0 9基金项目:国家自然科学基金项目(6 19 7 2 10 2);广东省教育厅重大专项(粤教2 0 2 1ZDZX1070);教育部协同育人项目(GZLGHT2021324);广东省高等教育协会研究项目(2 2 GQN37);广州理工学院校本研究项目(2 0 2 1XBZ03)第一作者简介:樊继慧(19 9 0 一),女,山东兰陵人。讲师,博士研究生,研究方向为大数据分析、人工智能。E-mail:2 519 6 39 9 8 9 q q.c o m。网络首发地址:https:/ 0 2 3-0 8-17 T09:14:28第6 期随着信息时代通信
10、服务业的迅速发展,垃圾短信日益成为困扰运营商、用户的难题,严重影响人们的正常生活,侵害运营商的社会形象,对社会稳定造成危害。由于人们每天浪费大量的时间阅读、处理垃圾短信,因此用户信息很容易被大数据监控,隐私泄露问题频发,各种推销、促销短信爆发式推送,人们的日常生活受到干扰。目前垃圾短信的识别过滤主要采取黑白名单识别技术、发送频率限制识别技术、关键词匹配识别技术以及基于机器学习识别垃圾短信技术等。这些常用的垃圾短信识别技术都有一定的局限性,例如,黑白名单技术仅对已知的号码有效,发送频率限制识别技术的发送频率规则易被相对应的方法所规避,基于机器学习识别垃圾短信技术相对较复杂,识别成本较高,识别效率
11、不高。由于短信息具有方便、成本低等特点,因此垃圾短信已经形成了黑色利益链,严重危害社会公众安全。目前,垃圾短信的形式、内容千变万化,投放方式不断改变,导致对其识别与处理越发困难。由于垃圾短信通过变更内容欺骗过滤系统,导致系统识别准确率降低,因此学者们提出很多不同的算法进行识别。李根等1首先以最小编辑距离的方式构建垃圾短信关系链,使用MeanShift算法进行聚类,实现自分簇功能,取得了较好的效果。吴思慧等2 1提出一种结合词频-逆向文本频率(TF-IDF)算法的基于自注意力的双向长短期记忆网络(SA-Bi-LSTM)的神经网络模型,与传统分类模型相比,短信文本识别准确率提高了2.1%4.6%。
12、李琼阳等3利用主成分分析对数据进行处理,从而达到降维和属性独立的双重目的。熊健等4首先采取TF-IDF算法进行特征提取,把文本数据转化成向量的形式,然后应用欠采样技术获得若干个类别平衡的训练样本,分别采取朴素贝叶斯、决策树和支持向量机等分类模型对每个样本进行训练,也取得了较好效果。赖文辉等5提出一种基于词向量和卷积神经网络(CNN)的垃圾短信识别方法,识别准确率比传统的机器学习模型提高了 2.4%5.1%。在垃圾短信识别过程中,如何利用有限的样本采取合适的算法实现较高的准确率,同时训练时间进一步减少是本领域的研究方向。有学者研究大幅度分类用于对抗垃圾邮件过滤器的伪装攻击。Guol7等提出了一种
13、改进的基于KNN 的异构无线网络垂直切换决策算法。杨彬8 等提出一种基于樊继慧,等:基于局部敏感哈希的K邻近算法识别垃圾短信1研究方法1.1数据分析本文中基于短信文本内容,建立垃圾短信识别模型,解决垃圾短信过滤效率不高的问题。GitHub是一个面向开源及私有软件项目的代码托管平台,本文中所用的数据集从GitHub平台下载获得,共计8 0 万条中文短信息,内容涉及广告、推销、生活等,从其中抽取2 万条文本进行处理。垃圾短信是指未经用户同意向用户发送的用户不愿意收到的短信息,或用户不能根据自己的意愿拒绝接收的短信息,主要包含以下特点:1)未经用户同意向用户发送的商业类、广告类等短信息;2)其他违反
14、行业自律性规范的短信息。根据上述特点将所有短信息进行分类,非垃圾短信用0 表示,垃圾短信用1表示。通过对数据进行处理,包括数据抽取、数据清洗、分词获得前期的训练集数据样本,然后对数据进行训练和建模,具体流程如图1所示。数据抽取数据清洗分词建模数据准备训练与建模图1数据分析流程对原始数据进行数据探索,发现数据中并不存在空值,进一步查看垃圾短信和非垃圾短信的分布情况。随机抽取上述2 万条文本处理后的数据的80%作为测试样本,其余作为测试集样本,对数据集进行训练。1.2数据预处理1.2.1数据清洗数据清洗(data cleaning)1l 的主要任务是将数747改进的TF-IDF权重的短文本分类算法
15、,通过同义词对分类器的关键词库进行扩展和基于特征长度对短文本权值进行加权,使得文本集的权值方差增大。KNN分类算法在脉冲信号甄别仿真领取也有很好的适用性,在非侵人式负荷识别方法研究中,根据样本数量和对应算法K值计算得到表决权重,增加少数类的分类准确性10 本文中基于短信文本内容,运用TF-IDF算法生成矩阵,利用局部敏感哈希函数((LSH)算法求解最相似样本,记录样本所属类别,将训练结果导人K邻近算法(KNN)分类器,通过不断实验得出最优近邻。LSH算法的实质是把哈希函数(Hash)之上的数据再一次降维,实现再降维与局部寻找匹配对,,在测试集或验证集上对垃圾短信分类识别准确率进行测评,经过KN
16、N分类器后,实现对分类准确率的提高。748据中的非法数据、不在给定的范围内或对于实际业务毫无意义、或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑的这一类数据进行处理,把数据检测出来并进行修正,提高数据质量,减小数据质量问题给数据应用带来的影响。数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息,纠正存在的错误,并提供数据一致性。直接删除有缺失值的行记录或列字段,以减少趋势数据记录对整体数据的影响,从而提高数据的准确性。将数据缺失作为数据分布规律的一部分,将变量的实际值和缺失作为输入维度参与后续数据处理和模型计算。1.2.2分词自然语言处理(NLP)概率图12 利用
17、隐马尔可夫模型(HMM),针对中文分词应用Viterbi算法寻找一条概率最大路径。Python结巴分词(Jieba)支持3种分词模式:1)精确模式。试图将句子最精确地切开,适用于文本分析。2)全模式。把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义问题。3)搜索引擎模式。在精确模式的基础上,对长词进行再次切分,提高召回率,适用于搜索引擎分词。1.2.3添词典去停用词中文表达中最常用的功能性词语是限定词,如“的”“一个”“这”“那”等。使用这些词语的主要目的仅仅是协助文本的名词描述和概念表达,并没有太多的实际含义,但是停用词通常都是非自动生产、人工筛选录入的,原因是人们需要根
18、据不同的研究主题判断和选择合适的停用词语。停用词主要包括英文字符、数字、数学字符、标点符号及使用频率非常高的单汉字等。常见的停用词包括语气助词、副词、介词、连接词等,这类词通常没有明确的意义,只有将其放人一个完整的句子中才有一定作用,如常见的“的”“在”之类。中文分词是指以词作为基本单元,使用计算机对中文文本自动进行词语的切分。有学者将加权朴素贝叶斯算法用于复合语言文本分类,采用量子遗传算法对权重参数进行优化,取得了较好的效果13。施寒瑜等14基于组合深度模型进行现代汉语数词、量词、名词(数量名)短语识别,并采用深度学习算法解决现代汉语数量名短语边界识别问题。1.2.4 绘制词云图词云图是文本
19、结果展示的有利工具,通过词云济南大学学报(自然科学版)图可以对短信文本数据分词后的高频词给予强调、突出的视觉效果,使阅读者看一眼就可获取主旨信息。词云就是通过形成关键词“云层”或关键词染,对网络文本中出现频率较高的关键词进行视觉上的突出。词云图可以过滤掉大量的文本信息,使浏览网页者一眼扫过就可以领略文本的主旨。本文中通过对已获取的垃圾短信数据进行预处理、文本分词、词频统计、词云展示。1.3文本的向量表示文字是人类认知过程中产生的高层认知抽象实体,本文中将文字转换为数字向量或矩阵作为机器学习算法模型以及神经网络模型的标准输人、输出。信息检索领域常用的文档表示方法是词袋(Bag-of-words)
20、模型。在分析文本特征时,把一个文档看成若干个词汇的集合,忽略单词顺序和语法、句法等要素,文档中出现的每个单词都是独立的,任意位置出现的任何单词都不受该文档语意影响。目前主流的算法包括 TF-IDF、一点有效(One-hot)编码15。本文中采用TF-IDF算法进行分析。TF-IDF是一种用于信息检索与文本挖掘的常用加权算法,用来评估某个字词对于一个文件集或一个语料库中其中一份文件的重要程度。如果某个单词或短语在一篇文档中出现的频率高,并且在其他文章中很少出现,则认为此词或短语适合用来分类,且具备很好的分辨能力。分词技术的发展使得分类的准确率不断提高16。Liu等17 基于挖掘社交网络的垃圾邮件
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 局部 敏感 邻近 算法 识别 垃圾 短信
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。