基于Stacking融合模型的Web攻击检测方法.pdf
《基于Stacking融合模型的Web攻击检测方法.pdf》由会员分享,可在线阅读,更多相关《基于Stacking融合模型的Web攻击检测方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、第 9 卷 第 1 期 信 息 安 全 学 报 Vol.9 No.1 2024 年 1 月 Journal of Cyber Security January 2024 通讯作者:龙春,博士,正高级工程师,Email:。本课题得到中国科学院战略性先导科技专项(C 类)项目(No.XDC02030600),中国科学院青年创新促进会(No.2022170)资助。收稿日期:2022-04-29;修改日期:2022-06-28;定稿日期:2023-10-31 基于 Stacking 融合模型的 Web 攻击检测方法 万 巍1,2,石 鑫1,2,魏金侠1,2,李 畅3,龙 春1,2 1中国科学院计算机网
2、络信息中心 北京 中国 100190 2中国科学院大学 北京 中国 101408 3中国信息通信研究院 北京 中国 100191 摘要 随着计算机技术与互联网技术的飞速发展,Web 应用在人们的生产与生活中扮演着越来越重要的角色。但是在人们的日常生活与工作中带来了更多便捷的同时,却也带来了严重的安全隐患。在开发 Web 应用的过程中,大量不规范的新技术应用引入了很多的网站漏洞。攻击者可以利用 Web 应用开发过程中的漏洞发起攻击,当 Web 应用受到攻击时会造成严重的数据泄露和财产损失等安全问题,因此 Web 安全问题一直受到学术界和工业界的关注。超文本传输协议(HTTP)是一种在 Web 应
3、用中广泛使用的应用层协议。随着 HTTP协议的大量使用,在HTTP请求数据中包含了大量的实际入侵,针对HTTP请求数据进行Web攻击检测的研究也开始逐渐被研究人员所重视。本文提出了一种基于 Stacking 融合模型的 Web 攻击检测方法,针对每一条文本格式的 HTTP 请求数据,首先进行格式化处理得到既定的格式,结合使用 Word2Vec 方法和 TextCNN 模型将其转换成向量化表示形式;然后利用 Stacking 模型融合方法,将不同的子模型(使用配置不同尺寸过滤器的 Text-CNN 模型搭配不同的检测算法)进行融合搭建出 Web 攻击检测模型,与融合之前单独的子模型相比在准确率、
4、召回率、F1 值上都有所提升。本文所提出的 Web攻击检测模型在公开数据集和真实环境数据上都取得了更加稳定的检测性能。关键词 入侵检测;stacking;融合模型;web 攻击 中图法分类号 TP39 DOI 号 10.19363/J10-1380/tn.2024.01.06 Web Attack Detection Method Based on Stacking Fusion Model WAN Wei1,2,SHI Xin1,2,WEI Jinxia1,2,LI Chang3,LONG Chun1,2 1 Computer Network Information Center,Chine
5、se Academy of Sciences,Beijing 100190,China 2 University of Chinese Academy of Sciences,Beijing 101408,China 3 China Academy of Information and Communications Technology,Beijing 100191,China Abstract With the rapid development of computer technology and Internet technology,Web applications play an i
6、n-creasingly important role in peoples production and life.However,while it has brought more convenience to peoples daily life and work,it has also brought serious safety risks.In the process of developing Web applications,a large number of irregular new technology applications have introduced many
7、vulnerabilities.Attackers can exploit the vulnerabilities in the development of Web applications to launch Web attacks.When a Web application is attacked,it will cause serious se-curity problems,such as data leakage and property damage.Therefore,Web security issues have always attracted the at-tenti
8、on of academia and industry.Hypertext Transfer Protocol(HTTP)is an application-layer protocol that is widely used in Web applications.With the extensive use of the HTTP protocol,a large number of actual intrusions are included in the HTTP request data,and the research on Web attack detection based o
9、n the HTTP request data has also begun to be paid more and more attention by researchers.In this paper,we propose a Web attack detection method based on the Stacking fusion model.For each HTTP request data in text format,it is firstly formatted to obtain a predetermined format,and then the Word2Vec
10、method and the TextCNN model are combined to convert it into a vectorized representation;we use the Stacking-based model fusion method to fuse different sub-models(using TextCNN models with filters of different sizes and different detection algorithms)to build a Web attack detection model.Compared w
11、ith the individual sub-models be-fore fusion,the precision,recall,and F1-score are improved.The proposed web attack detection model achieves more sta-ble detection performance on both public dataset and real-world data.Key words intrusion detection;stacking;fusion model;web attack 万巍 等:基于 Stacking 融
12、合模型的 Web 攻击检测方法 85 1 引言 现如今,互联网技术与计算机技术在人们的工作与生活中扮演着越来越重要的角色,无论是居家上网还是公司办公,都越来越离不开 Web 应用。Web应用具有操作简便、无需下载、随时可用以及无需主动升级的优点,这些优点使得 Web 应用的用户量迅速上升,出现了越来越多的 Web 应用,随之而来的安全问题也变得越来越严重。Web 应用采用浏览器/服务器(B/S)架构,用户通过客户端向服务器发送访问请求,服务器收到用户发送的请求后向用户返回对应的数据。而攻击者可以利用服务器存在的漏洞向服务器发送携带恶意参数或恶意数据的请求来攻击服务器,实现比如假冒身份绕过系统访
13、问控制进入系统内核或通过注入恶意代码使系统瘫痪进而泄露敏感信息等攻击行为1。常见的 Web 应用攻击主要包含 SQL 注入攻击、跨站脚本攻击、远程恶意文件包含2等。超文本传输协议(HTTP)作为一种分布式、可协作、超媒体信息系统的应用层协议3,目前已成为一种通用的传输协议。大量的数据通过 HTTP 协议进行传输,它的安全问题已经引起研究人员的高度重视。针对 HTTP 请求数据进行检测已经成为入侵检测的一项重要手段。相关科研人员提出了大量针对HTTP 请求数据的异常检测方法以保护网络安全。HTTP 请求数据是将一些字段信息以文本的方式进行存储,要想将其输入到检测模型中进行 Web 攻击检测,需将
14、其做数值化处理。一些基于统计学的方法可以将原始的 HTTP 请求数据转换成数值形式的特征,但这样的处理往往会忽略原始请求中上下文信息之间的关系,同时在实际应用中也会产生大量的人力物力资源消耗。当前很多 Web 攻击检测模型都是使用单一模型进行检测或是将多个模型进行检测性能对比以选择最优检测模型,将多个检测模型进行融合可以得到更强的检测模型。模型融合的方法已经在很多领域得到了应用。模型融合策略有很多,比如加权平均法,这在集成学习中的Boosting方法4中有所应用;再比如投票法,包括多数投票、相对多数投票、加权投票等方法,在集成学习中的 Bagging5方法中有所应用。与前述几种融合策略相比,学
15、习法则更胜一筹,这种方法主要是利用一个元学习器将多个不同的学习器结合起来,Stacking 方法6是一种广泛应用的学习法模型融合策略。在本文中,首先将原始的 HTTP 请求进行格式化处理以生成所需格式,然后经过 Word2Vec 方法7和 TextCNN 模型8处理进而得到向量化特征表示形式,最后使用 Stacking 方法实现模型融合,最终构建出 Web 攻击检测模型,使用公开数据集和真实环境中的数据作为输入,实现 Web 攻击检测。本文的内容安排如下:第 2 节给出 Web 攻击检测以及融合模型相关的国内外研究;第 3 节详细介绍了本文的方法;第 4 节通过实验对本文的方法进行了验证;第
16、5 节总结全文并提出了未来工作。2 相关工作 2.1 Web 攻击检测 Web 攻击检测研究工作在网络安全保障中起着很重要的作用,一直以来都有许多 Web 攻击检测相关的研究。早期的研究是使用基于规则匹配和字段、会话过滤的 Web 应用程序防火墙,针对 SQL 注入、跨站脚本攻击和应用层拒绝服务攻击等 Web 攻击的检测与阻断9。这种方法很难发现未知攻击,同时规则的制定也是一项很艰巨的工作。近几年,随着机器学习、深度学习的蓬勃发展,在网络安全领域得到了广泛的应用,出现了很多使用机器学习、深度学习方法的 Web 攻击检测技术。祝鹏程等人10基于TF-IDF算法和随机森林搭建Web攻击检测模型,利
17、用TF-IDF算法构建词频矩阵,将有效载荷转换成对应的特征表示形式,以避免复杂的规则制定工作,然后使用随机森林算法识别出正常流量与攻击流量。Mereani F A 等人11使用了几种机器学习方法构建分类器对跨站脚本攻击进行检测,在原始脚本文件的基础上提取了59个特征(包括结构特征和行为特征),分别使用 SVM、KNN 和随机森林在公开数据集和真实环境下的数据进行对比实验,以表明这些分类器的适用性。Yang W 等人12利用有监督机器学习模型,实现了对 HTTP 流量中Webshell 攻击的检测,使用 4-gram 方法处理 HTTP请求,并使用 SVM 分类器检查请求文件的合理性。Arumu
18、gam C等人13利用请求日志文件,提取请求参数中的关键字作为特征,通过逻辑回归分类算法,实现对于在特定时间中从特定地点部署的 Web 应用程序上发生的 SQL 注入攻击进行预测。隐马尔可夫模型(Hidden Markov Models,HMM)是一种典型的机器学习模型,由于其能够较好地捕获连续序列的依赖性,对于字节序列(比如 HTTP 有效载荷)的分析是有效的14。以上这些 Web 攻击检测方法都是使用的机器学习方法,近几年深度学习得到了蓬勃的发展和广泛的应用,越来越多的研究者倾向于使用深度86 Journal of Cyber Security 信息安全学报,2024 年 1 月,第 9
19、卷,第 1 期 学习方法进行 Web 攻击检测的研究。田俊峰等人15提出了一种基于卷积神经网络的检测方法,利用卷积神经网络将 Web 请求流量转换为灰度图,使用空间金字塔池化的方法以处理不同大小的 Web 请求流量。刘新等人16提出了面向物联网服务的Web攻击检测方案IoTGuardEye,该方案在对 HTTP 请求的文本序列进行特征抽取的基础上,针对应用程序接口请求的报文格式相对固定的特点,使用双向长短期记忆网络实现 Web 攻击检测。Zhang M 等人17在处理 HTTP 请求的时候使用了卷积神经网络,他们利用专门设计的卷积神经网络针对 HTTP请求自动提取特征,并通过 Softmax
20、将 HTTP 请求分类到正常或异常类。同样是使用卷积神经网络,Ito M等人18提出了 Character-level Convolutional Neural Network(CLCNN)的方法用于检测恶意请求,这种方法首先将 HTTP 请求转换成包含 1000 个字符的字符串,再经过嵌入层以及两次卷积和最大池化的处理,最后通过全连接层得到一维输出,区分正常与异常。Liu Z 等人19提出了一种基于图卷积网络的跨站脚本负载检测模型,将用户提交内容中的跨站脚本负载进行处理以得到一种图结构,在训练样本数量较少的情况下依然有着很高的识别准确率。这些方法都是使用了一个模型或是几个模型进行对比选取最优
21、模型,可能会受限于所使用的模型,模型融合策略则可以将多个子模型进行融合进而得到更强的检测模型。2.2 模型融合 模型融合策略在入侵检测领域得到了广泛的应用。Aljawarneh S 等人20提出了一种基于异常的入侵检测系统,使用借助于信息增益的投票算法过滤数据,进而结合每个基学习器的概率分布。M.Zaman等人21使用了 6 种常用的机器学习技术以进行网络流量异常检测,并采取多数投票的方式将这 6 种方法进行集成,虽然集成后的方法并没有取得最优的分类效果,但作者肯定了集成技术的潜力,值得进一步研究。N.T.Pham 等人22提出了一种使用集成模型方法的改进的入侵检测系统,其中的集成模型是基于B
22、agging和Boosting技术构建的,使用基于树的算法作为基本分类器,提高了准确率并降低了误报率。Tama B A 等人23提出了一种基于异常的入侵检测方法,该方法先后使用 Rotation Forest 方法和Bagging 方法,分阶段将这两种方法相结合,在不同数据集上与其它方法进行比较,取得了更优的分类性能。万子云等人24在 MOOC 作弊行为的检测研究中提出了一种基于深度学习的混合模型,通过将卷积神经网络、双向门控循环单元和注意力机制进行融合,与融合前的单一模型相比大大提升了检测性能。Stacking 方法作为一种强大的模型融合方法,在很多研究中都有所应用。Subudhi S 等人
23、25提出了一种检测数据库中的入侵活动的方法,该方法分别使用三种集成学习方法(Bagging、Boosting、Stacking)将所使用的不同的分类器集成起来,实验结果表明,使用 Stacking 方法所得到的分类结果优于 Bagging和 Boosting 两种方法。李勃等人26提出一种基于密度聚类和集成学习的数据库异常检测方法,该方法首先使用OPTICS聚类算法构建用户行为特征,然后利用 Bagging、Boosting 和 Stacking 方法组合的集成学习模块对用户行为作进一步分析,创建用户行为特征库,进而实现数据库异常检测。Nkenyereye L 等人27提出了一种基于 Stac
24、king 的网络异常检测系统,将不同参数配置的深度神经网络子模型进行融合,通过将融合模型与不同的子模型进行检测性能对比,进而强调基于 Stacking 集成模型的入侵检测系统的有效性。在标记分布学习中,针对单个算法对预测模型性能产生影响的问题,王一宾等人28结合Stacking集成框架,组合多个分类器对标记分布进行学习,提出基于标记分布学习的异态集成学习算法(HELA-LDL),在不同规模的标记分布数据集上均能产生良好效果。Zhang H 等人29提出了一种多维特征融合与叠加集成机制用于搭建网络入侵检测系统,综合考虑流量的时间、空间、负载等不同方面,建立了多个基础特征数据集,并对这些数据集进行
25、叠加集成学习处理,实现了一种有效的多维全局异常检测模型,检测性能优于所采用的基本分类器和元分类器,具有更强的鲁棒性。总结相关工作,可以发现多数 Web 攻击检测方法都是使用一个模型或是在几个模型中选取最优的模型,这样的检测结果会受限于单个模型的性能,而将多个模型进行融合,则可以得到一个性能更优的检测模型,Stacking 方法则是一种有效且应用广泛的模型融合方法。3 基于 Stacking 融合模型的 Web 攻击检测方法 为了解决单个模型性能受限的问题,本文提出一种基于 Stacking 融合模型的 Web 攻击检测方法,共包括两个部分:第一部分在将原始的 Web 访问请求格式化处理之后,结
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Stacking 融合 模型 Web 攻击 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。