基于深度学习的跨站脚本攻击检测技术的研究.pdf
《基于深度学习的跨站脚本攻击检测技术的研究.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的跨站脚本攻击检测技术的研究.pdf(12页珍藏版)》请在咨信网上搜索。
1、第 12 卷第 5 期2023 年 9 月网络新媒体技术Vol.12 No.5Sep.2023基于深度学习的跨站脚本攻击检测技术的研究吴金宇1 陶文伟1 张富川1 江泽铭1 王依云1 赵宇珩2 王宝会2(1中国南方电网有限责任公司广州 5106232北京航空航天大学软件学院北京 100191)摘要:针对互联网应用的网络攻击。跨站点脚本 XSS 攻击是常见的针对 Web 应用程序的攻击种类。本文提出的基于深度学习的 XSS 检测模型,将 CNN 神经网络和 BiLSTM 神经网络序列化,融合两者优点学习样本的局部特征和上下文依赖特征,并通过 Attention 注意力机制加权计算来解决长序列效果
2、差的问题,并融合 BERT 预训练的特征向量加速模型训练,提高检测效果,从而实现 XSS 检测模型的构建。优化的模型能够自动的提取样本的特征信息并完成分类检测相对于传统的静态和动态检测方法及采用人工特征提取的机器学习算法相比,在准确率和误报率方面都有较大提升。准确率、召回率、精确度值超过目标值(98%),误报率低至 0.12%。关键词:跨站脚本攻击,深度学习,网络安全,检测技术,特征DOI:10.20064/ki.2095-347X.2023.05.005Detection Technology Research of Cross-site Scripting AttackBased on D
3、eep LearingWU Jinyu1,TAO Wenwei1,ZHANG Fuchuan1,JIANG Zeming1,WANG Yiyun1,ZHAO Yuheng2,WANG Baohui2(1China Southern Power Grid Co.,LTD,Guangzhou,510623,China,2College of Software,Beihang University,Beijing,100191,China)Abstract:Cross site scripting(XSS)attacks are common types of attacks against Web
4、 applications.The XSS detection model based ondeep learning proposed in this paper combines the advantages of CNN neural network and BiLSTM neural network,integrates the localfeatures and context dependent features of the learning samples with their advantages,solves the problem of poor effect of lo
5、ng se-quences through the weighted calculation of Attention mechanism,and accelerates the model training with the feature vector pre trainedby BERT to improve the detection effect,so as to realize the construction of XSS detection model.The optimized model can automati-cally extract the feature info
6、rmation of samples and complete classification detection.Compared with traditional static and dynamic de-tection methods and machine learning algorithms using artificial feature extraction,it has a greater improvement in accuracy and falsealarm rate.The accuracy rate,recall rate and precision value
7、exceed the target value(98%),and the false alarm rate is as low as0.12%.Keywords:cross-site scripting,deep learning,network security,detection technology,characteristics本文于 2022-11-28 收到,2022-12-21 收到修改稿。0引言随着互联网的发展,互联网应用给人们的生产、生活带来巨大便利,但伴随而来针对互联网应用的各种网络新媒体技术2023 年病毒,攻击威胁着互联网生态的安全,网络安全形势日益复杂,网络攻击事件和
8、个人信息泄露频频发生,全球网络战愈演愈烈,外部势力对关键基础设施的攻击逐年增加,国家、社会对网络安全越发重视。在众多网络攻击中跨站脚本(Cross-Site Scripting,XSS)攻击是常见的针对 Web 应用程序的攻击,攻击者可以在用户的浏览器中执行其预定义的恶意脚本,如劫持用户会话,插入恶意内容,重定向用户,使用恶意软件劫持用户浏览器,繁殖 XSS 蠕虫,甚至破坏网站、篡改路由器配置信息等。XSS 攻击频发严重危害用户及服务器的安全。XSS 具有攻击形式复杂多变,攻击频发的特点,多次被列为 Web 应用程序安全主要漏洞之一。在 2013年和 2017 年开放式 Web 应用程序安全项
9、目组织(Open Web Application Security Project,OWASP)公布的Web 应用前十大漏洞中,跨站脚本攻击位列其中1。北京奇虎科技有限公司发布的2019 年中国政企机构网络安全形势分析报告披露,在 2019 年 1 月到同年 6 月,XSS 漏洞被识别出次数为 51.9 万次,存在此漏洞的网站数量为 4.3 万个,属于高危漏洞,XSS 漏洞被识别出次数和漏洞网站数量均是最多的,排名高危漏洞第一2。因此,对于 XSS 攻击的检测尤为重要。1跨站脚本(XSS)攻击检测现状1.1跨站脚本攻击跨站脚本攻击,这类漏洞可以使用户在浏览器中执行其预定义的恶意脚本,针对用户和
10、 Web 服务都有不同的危害,例如劫持用户会话、插入恶意内容、重定向用户、使用恶意软件劫持用户浏览器、繁殖 XSS 蠕虫,甚至破坏网站、修改路由器配置信息等。跨站脚本可以分为反射型跨站脚本攻击(非持续性 XSS)、存储型跨站脚本攻击(持久性 XSS)及 DOM(Document Object Model,DOM)型 XSS 3 种类。1.1.1反射型跨站脚本攻击反射型跨站脚本攻击一般存在于 GET 请求的页面中,是一种非持续的攻击,需要用户点击黑客构造的恶意信息载荷(payload)的链接才会触发。当用户访问一个带有 XSS 代码的 URL 请求时,服务器端接收数据后进行处理,会将带有 XSS
11、 的数据发送到浏览器,浏览器解析这段带有 XSS 代码的数据后,造成 XSS 漏洞,这个过程就像一次反射。交互的数据一般不会被存在数据库里,经常出现在查询类页面。反射型跨站脚本攻击流程:黑客发送带有 XSS 恶意脚本的链接给用户,一般会诱导用户点击;用户没有仔细识别链接而轻易点击了该链接,访问了正常目标服务器;网站将 XSS 同正常页面返回到用户浏览器;用户浏览器解析了网页中的 XSS 恶意代码,向恶意服务器发起了请求;黑客从自己搭建的恶意服务器中获取用户提交的信息。1.1.2存储型跨站脚本攻击存储型跨站脚本攻击是黑客将 XSS 代码植入到网站的数据库中,当攻击者成功攻击服务器数据库后,后续的
12、其他访问者均会受到跨站脚本攻击,因此也被称作持续性 XSS。例如黑客将 XSS 攻击写到网站的留言板,当用户访问留言板就会被触发。反射型与 DOM 型 XSS 执行都必须依靠用户手动触发,而存储型 XSS不需要用户点击便会触发,因此具有更高的隐蔽性和危害性。存储型跨站脚本攻击流程:黑客在目标服务器上构造 XSS 恶意脚本;用户在网站登录状态下,访问了目标服务器,查看了存在恶意脚本的页面;网站将 XSS 同正常页面返回到用户浏览器;用户浏览器解析了网页中的 XSS 恶意代码,向恶意服务器发起请求;黑客从自己搭建的恶意服务器中获取用户提交的信息。1.1.3DOM 型跨站脚本攻击DOM 型跨站脚本攻
13、击是基于文档对象模型的一种漏洞,不经过服务器端。DOM 是访问 HTML 的标准编程接口。DOM 型 XSS 也是通过 URL 传入参数去控制触发的,DOM XSS 与反射性 XSS、存储型 XSS 的主要435 期吴金宇 等:基于深度学习的跨站脚本攻击检测技术的研究区别在于 DOM 型 XSS 的恶意代码不需要服务端解析响应直接参与,触发 XSS 的是客户浏览器端的 DOM解析。DOM 型跨站脚本攻击流程:黑客发送带有 XSS 恶意脚本的链接给用户,一般会诱导用户点击;用户点击链接访问了 Web 服务器;Web 服务器向受害者发送 HTTP 响应;XSS 在受害者客户端执行,然后将用户的 c
14、ookie 等信息发送给黑客。1.2检测现状网络安全的攻击和防御是相互对抗但又不断相互演进的过程,随着 XSS 攻击技术的逐步升级演化,其对应的检测手段和技术也在不断更新发展。目前针对 XSS 攻击的检测主流方法可以分为 5 类:静态检测、动态检测、混合检测、机器学习检测方法和深度学习检测方法3。静态检测、动态检测和混合检测的方法是传统的 XSS 检测技术,随着机器学习方法的出现,许多研究者通过人工特征选择将大量机器学习检测算法应用到网络安全领域。近年来,由于深度学习方法在图像、自然语言处理等问题上的突破性表现,网络安全领域的研究者纷纷将深度学习和网络安全相结合进行检测,其检测效率和检测效果都
15、有较大幅度的提升。(1)静态检测方法。静态检测方法4,5是在不运行代码的情况下,采用语法分析、词法分析等技术手段对程序文件进行扫描从而生成程序的反汇编代码6。(2)动态检测方法。动态检测的方法和静态检测不同,静态检测主要通过分析源码中的漏洞进行检测,而动态检测主要分析代码在运行时的行为来找寻漏洞,动态检测方法相比静态检测具有更高的检出率。(3)混合检测方法。混合检测方法利用了静态特征值和动态特征值来进行检测。(4)机器学习检测方法。机器学习技术很早就被提出,从上世纪 80 年代开始复兴,一些专家学者将机器学习应用到了 XSS 攻击检测中取得了较好的检测效果。相对于动态检测方法,机器学习的检测方
16、法不需要运行代码进行动态分析,但需要进行人工特征选取,主观性强,特征选择的质量直接影响检测的效果,而且人工特征工程对于网络专家的工作量也很大。(5)深度学习检测方法。Liang J 等人通过训练 2 个循环神经网络(Recurrent Neural Network,RNN)来检测异常的 Web 请求,能够区分正常和异常的请求,实验结果证明该种方法比人工特征选择的机器学习方法准确率更高,在误报率等方面也更有优势7。Li Zhen 等人将长短时记忆网络(Long Short Term Memory Network,LSTM)运用到了 Web 漏洞检测中取得了较好的检测结果8。Wu F 等人通过卷积
17、神经网络(Convolutional Neural Network,CNN)来提取特征,然后使用 Softmax 函数对 Web 异常和正常请求进行分类9。姜天等人通过 fastText 方法来对恶意 URL 进行分类,通过数据预处理和词嵌入将样本转化为多维向量,通过隐藏层对词向量进行叠加平均后输出分类,取得了 97.86%的准确率10。URL 作为 Web 应用程序的唯一入口经常被黑客攻击利用,XSS 在恶意 URL 中占比很高。目前攻击者对 XSS 的攻击及防检测的手段不断更新,通过代码混淆和攻击逻辑复杂化大大提高了检测的难度。(1)XSS 攻击代码混淆复杂化。攻击者会通过多种编码手段对攻
18、击代码进行编码,例如使用 Base64、ASCII、Unicode 和 UTF-8 等编码形式来躲避浏览器的过滤,或者在攻击代码中插入一些不影响代码运行的空白随机字符来进行代码混淆,多种混淆手段的运用会直接影响检测的效果。(2)XSS 攻击逻辑的复杂化。JavaScript 脚本语言与文本语言相似,存在着上下文的语义,攻击者在构造攻击代码时会使用多种功能一致的函数相互替换,例如通过 let x=alert替代 alert()来实现 JavaScript 的弹窗功能的代码,或者通过插入条件分支或循环来复杂代码结构、攻击形式和逻辑,越复杂越难以检测。攻击53网络新媒体技术2023 年逻辑复杂化导致
19、相应的语义复杂化,也加大了检测的难度11。2基于深度学习 XSS 检测算法的研究2.1深度学习 XSS 检测传统检测技术以分析安全问题和设定固定规则的研究方法变得效率低下,例如需要大量的安全专家从威胁中提取特征,并通过特征编码来检测威胁,或是依靠固定规则或黑白名单过滤的检测方法,这些技术都存在检测效率低,规则更新不及时等问题12。以机器学习和深度学习为基础的新技术传统安全检测技术提供了新的思路。通过人工特征选择的机器学习技术,特征选择依赖于网络安全专家的个人能力,主观性强,提取的特征质量直接影响模型的检测效果,后续模型的更新成本很高,该种方法的检测准确率在 96%左右,在误报率、漏报率等指标上
20、表现一般。由于网络安全的流量庞大,小概率发生正常流量被拦截都会直接影响用户体验,所以对误报率、漏报率的要求很高,在这几项关键指标上仍需提高13。目前以深度学习为基础的新技术给表现逐渐乏力的传统安全检测技术提供了新的思路与方向,通过大量的数据集进行特征学习,更好的把握攻击样本的特征,极大的提升了检测效果。目前己经有部分研究将深度学习技术应用于 Web 攻击检测,但仍处于探索阶段,具有较大的研究前景。2.2基于深度学习 XSS 检测算法2.2.1数据集深度学习对数据集的数量有很高的要求,数据集的质量和规模直接影响模型的训练效果。目前暂没有发现直接针对 XSS 的权威的数据集,因此研究采用的恶意样本
21、小部分来自于 Github 个人上传的 XSS 样本,大部分爬取于 XSSed 和 Exploit-db 网站,正常样本主要来自 DOMZ 等网站14。恶意样本主要收集于 XSSed 网站,XSSed 由 KF 和 DP 于 2007 年创建,是全球最大的 XSS 样本提交网站,可以验证所有提交的 XSS 易受攻击的网站样本。正常的样本主要收集于开放式分类目录网站 DMOZ,该网站由来自世界各地的志愿者共同建设和维护。本文利用爬虫工具从 DMOZ 数据库爬取了 30 余万条 ht-tp,get 样本。为保证数据安全,数据集去除了 URL 中的 host、path 等信息,仅保留 payload
22、 部分。另从 XSSed网站和 Exploit-db 共收集了 6 万多条 XSS 恶意样本。2.2.2数据预处理模型的检测效果受检测模型算法等影响,质量好的数据集能更好地提取出特征。XSS 样本载荷主要通过 URL 编码、Base64 编码、Unicode 编码等技术进行恶意混淆,因此,首先需要对样本数据进行逐次解码操作来反混淆,经过解码后,对数据集进行去噪处理,去除无效、残缺、重复、错误的数据。经过数据清洗后的数据集将作为训练测试用的标准数据集。此外进行特征提取的神经网络需要输入向量,而搜集的样本数据集为文本形式,所以还需要转换为神经网络能够输入的向量形式。对所收集的 XSS 样本数据和正
23、常样本数据进行了数据预处理,数据预处理分为数据清洗、分词以及向量化 3 个部分。数据清洗主要对数据中的噪声数据进行去除,对样本进行解码操作等。分词主要是对数据样本按照预定的正则规则进行分词操作。向量化主要通过工具算法将文本数据转化为神经网络能够输入的向量形式。本文使用 Python 中的自然语言处理工具包 NLTK(Natural Language Toolkit)和正则表达式进行分词操作,NLTK 自带语料库,能够实现分类、分词等功能。文本形式的数据不能直接进行特征提取的神经网络,所以需要将文本数据进行向量化表示,文本向量化的方式由独热(One-Hot)编码、词频-逆文件频率(Term Fr
24、equency-Inverse Document Frequency,TF-IDF)方法和 Word2Vec 等方法。(1)独热编码也被称为一位有效编码15,词表示为一个很长的向量,向量长度为词汇表的长度,每个词只有一个维度的值为 1,其他都为 0,独热编码的优点是将离散特征映射到欧式空间,有利于特征之间的距离635 期吴金宇 等:基于深度学习的跨站脚本攻击检测技术的研究或者相似度的计算,但这种方法存在 2 个问题:一是向量极其稀疏,由于需要表示的词较多的话词向量的维度会很高,对应的特征空间也很大,表现出高维稀疏的特点,一般需要结合主成分分析法(Principal Compo-nent Ana
25、lysis,PC)等方法来降维使用16;二是词与词之间是相互独立的,即使语义上接近的词也是完全独立。(2)TF-IDF 算法是一种加权计算方法17,通过计算字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。(3)Word2Vec 模型是为了解决独热编码高维稀疏的问题18,该模型主要分为连续词袋模型(CBOW)和使用中心词预测其周边的词(Skip-Gram)2 种模型。这 2 种模型结构包含了输入层、隐藏层和输出层,CBOW 通过给出上下文来预测中间值出现的概率,而 Skip-Gram 则是给出中间值输出上下文中词出现的概率。CBOW 训练速度快,Skip-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 脚本 攻击 检测 技术 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。