基于集成学习的无监督网络入侵检测方法.pdf
《基于集成学习的无监督网络入侵检测方法.pdf》由会员分享,可在线阅读,更多相关《基于集成学习的无监督网络入侵检测方法.pdf(16页珍藏版)》请在咨信网上搜索。
1、NETINFOSECURITY2024年第3期技术研究doi:10.3969/j.issn.1671-1122.2024.03.007基于集成学习的无监督网络人侵检测方法一江荣1,刘海天1,刘聪2(1.国防科技大学计算机学院,长沙410 0 7 3;2.中央军委后勤保障部信息中心,北京10 0 8 42)摘要:目前,网络对抗对入侵检测智能化和自主性的需求不断提高,基于深度学习的方法通过训练和学习来区分复杂攻击模式和行为,但有监督的学习方法需要专家知识和大量人工开销。针对上述问题,文章提出一种基于集成学习的无监督网络入侵检测方法,并使用基于3种不同异常检测理念的深度学习检测器,在3种不同集成逻辑
2、下对各单检测器的检测结果进行检测判定。该方法可以综合分析时间序列数据中不同类型的异常数据,降低无监督异常检测模型由于过度拟合所造成的影响,并以一种高效的在线方式检测可能存在的网络攻击数据流。在KDD CUP1999和CSE-CIC-IDS2018数据集上进行验证,实验结果表明,与其他单一的无监督异常检测模型相比,文章提出的集成方法结合了不同无监督检测模型的优势,适用于对多种网络入侵引起的异常进行检测。关键词:入侵检测系统;异常检测;无监督深度学习;集成学习中图分类号:TP309文献标志码:A文章编号:16 7 1-112 2(2 0 2 4)0 3-0 411-16中文引用格式:江荣,刘海天,
3、刘聪.基于集成学习的无监督网络入侵检测方法 J.信息网络安全,2 0 2 4,24(3):411-426.英文引用格式:JIANG Rong,LIU Haitian,LIU Cong.Unsupervised Network Intrusion Detection MethodBased on Ensemble LearningJ.Netinfo Security,2024,24(3):411-426.Unsupervised Network Intrusion Detection Method Based onEnsemble LearningJIANG Rongl,LIU Haitian,
4、LIU Cong?(1.College of Computer,National University of Defence Technology,Changsha 410073,China;2.InformationCenter,Logistic Support Department of Central Military Commission,Beijing 100842,China)Abstract:With the increasing demand for intelligent and autonomous intrusion detectionin network counter
5、,deep learning-based methods can distinguish complex attack patterns andbehaviors through training and learning.However,supervised learning requires professionalexpert knowledge and the overhead of a large amount of manually annotated data.In responseto the above issues,this paper proposed an unsupe
6、rvised network intrusion detection methodbased on ensemble learning,which used deep learning detectors based on three differentanomaly detection concepts in parallel to detect,and the results of individual detectors were收稿日期:2 0 2 3-11-17基金项目:国家自然科学基金 6 2 0 7 2 131;国家重点研发计划 2 0 2 2 YFB3104103作者简介:江荣
7、(19 8 4一),男,福建,副研究员,博士,CCF会员,主要研究方向为网络空间安全、大数据分析和人工智能;刘海天(19 9 4一),男,湖南,博士研究生,主要研究方向为网络安全态势分析和预测;刘聪(19 8 5一),男,江西,高级工程师,博士,主要研究方向为人工智能与大数据分析。通信作者:刘聪411NETINFOSECURITY技术研究2024年第3期combined under three different integration logics to provide the final detection decision.Thismethod could comprehensively
8、 analyze the different types of anomalies in time series data,reduce the impact of unsupervised anomaly detection models caused by overfitting,and detectpotential new attack data streams in an efficient online manner.Experiments are conductedon the KDDCUP 99 and the CSE-CIC-IDS 2018 datasets,and the
9、 results show that comparedto other single unsupervised anomaly detection models,the integrated method proposed in thearticle combines the advantages of different unsupervised detectors and is suitable for anomalydetection situations caused by multiple network intrusions.Key words:intrusion detectio
10、n system;anomaly detection;unsupervised deep learning;ensemble learning0引言随着信息时代的到来,人们不可避免地在网络上开展各种活动,同时面临多种网络威胁和攻击,如网络病毒、蠕虫传播、勒索软件和拒绝服务等。网络攻击往往会造成巨大的经济损失,甚至阻碍核心公共服务的运行。对一些机构来说,一次严重的分布式拒绝服务(Distributed Denial of Service,D D o S)攻击不仅造成每小时高达10 万美元的损失,还会影响客户的信任程度。在当前信息系统中,判定安全性和是否受到不法分子的外部威胁是两个复杂的问题,这些
11、外部威胁包括木马、病毒、后门程序、勒索软件以及Web攻击等。人侵检测系统(IntrusionDetection System,ID S)是一种解决上述问题的有效方法,用于检查特定环境下的活动,并识别多种网络威胁。根据检测技术进行分类,传统的IDS包括基于标志/误用、基于异常情况以及两种方法的结合。根据数据来源进行分类,IDS可以分为基于主机的 IDS(H o s t-Ba s e d I n t r u s i o n D e t e c t i o nSystem,H ID S)和基于网络的IDS(Ne t w o r k In t r u s i o nDetection System,N
12、ID S)。H ID S通过捕获和分析被攻击系统的数据进行检测,NIDS在攻击到达终端系统前,在网关处对流量数据(报文)进行捕获和检测 2。然而,传统的IDS主要依赖于主机和网络设备生成的日志和流量数据,并基于规则、签名和行为模式等方式检测潜在的人侵行为,这些传统的检测技术已无法处理现代网络攻击多变的数据流,使得传统IDS难以适应不断涌现的新型网络攻击,无法做到准确识别、及时报告和有效阻截。针对日益严峻的网络安全问题,迫切需要更多方法识别潜在的网络威胁,同时处理庞大而复杂的网络数据。随着人们对智能化和自主性需求的不断提高,神经网络受到广泛关注,其具有学习复杂模式和行为的能力,用于区分正常流量和
13、网络攻击,已经被广泛用于人侵检测领域 3.4。随着时间的推移,网络攻击不断演变,新的攻击不断被发现,因此维护恶意攻击流量存储库需要巨大的开销。同时,有监督的机器学习意味着专家必须对网络流量进行标注,并定期手动更新模型,这需要庞大的专业知识库来支持,并且标注过程耗时且昂贵,对人力成本要求较高。此外,分类本身是一种封闭的概念识别方法,即分类器只能通过训练来识别训练集中提供的类别,然而训练集中没有收集所有可能的恶意流量,因此使用场景有限。与有监督机器学习方法相比,无监督神经网络模型可以显著降低人工标记成本。在训练过程中,无监督模型不使用标签,因此可以避免采样平衡和欠采样等问题,并且对新的网络攻击类型
14、的适应性更好。类比于传统的基于异常的IDS,无监督神经网络模型可以通过观察网络的正常流量,建立一个无监督或半监督的神经网络模型,从而学习网络的正常流量模式。异常数据是指不符合正常模式明确定义特征的数据模式,这些异常数据通常由各种异常活动产生,如信用卡诈骗、电信诈骗和网络攻击等。在网络攻击中,异常数据不一定属于攻击数据,但人侵或攻击通常会以异常模式的形式呈现 5.6。这些异常数据的主要来源412NETINFOSECURITY2024年第3期技术研究通常是外部黑客的攻击,这些黑客试图未经授权访问网络,窃取信息或者破坏网络。鉴于异常的性质不同,将异常分为点异常、集合异常和上下文异常。在网络攻击中,不
15、同类型的网络攻击往往表现出不同的异常性质。攻击与异常类型映射如图1所示,简要展示了不同攻击类型与异常类型之间的相互关系,并选取KDDCUP1999数据集中的4种不同攻击形式作为示例。在拒绝服务(Denial of Service,D o S)攻击中,对Web服务器的大量连接请求构成集合异常,但单个请求却可能是合法的,因此DoS攻击特征与集合异常相匹配 7。Probe攻击则基于特定意图获取信息,因此它与上下文异常相匹配 8。而U2R和R2L攻击具有高度的条件特异性和复杂性,相对于其他异常类型更适合被视为点异常。本文考虑攻击者可能以多种方式留下不同的异常迹象,在进行攻击检测时,采取不同策略将会更有
16、效。异常类型点异常集合异常上下文异常U2RR2LDoS攻击类型图1攻击与异常类型映射本文为了更好地对网络数据流中的正常行为进行建模,进一步提高无监督异常检测模型对数据流中可能存在的异常流数据条目的检测性能,针对多种不同的时间序列数据异常特性,在现有无监督异常检测模型的基础上,提出一种基于多种无监督神经网络模型集成的网络攻击检测模型,该模型极大地减少了模型训练所需的专家知识以及人工开销,并以一种高效的在线方式检测可能存在的网络异常数据流。在这项工作中,使用复数无监督异常检测模型进行并行训练和异常识别,以降低某些无监督异常检测模型过度拟合产生的影响,该集成模型比单个检测器更高效,噪声更小,提高了整
17、体检测质量。本文基于3种不同异常检测理念提出不同深度学习模型框架,将点异常检测、上下文异常检测和集合异常检测进行技术集成,在通过不同深度模型结构实现各自技术优势的同时,考虑了时间序列数据中不同类型的异常数据。1相关研究通过网络流数据进行异常检测被视为一个典型的时间序列异常检测问题,主要目标是从时间序列中识别异常的事件或行为,此类异常检测算法目前已被应用于多个领域,如量化交易、智能运维和医疗健康等。由于数据流或者时间序列数据具有周期性、趋势性、季节性和不规则性等特点,如何准确地检测点异常成为一个具有挑战性的问题。研究人员在通过有监督机器学习进行异常检测方面取得了一些成果,文献 9 对经典的有监督
18、机器学习技术进行综述,各种常规分类器都可以使用,但需要注意样本不均衡问题。在通常情况下,异常样本数量远小于正常样本,因此需要处理样本不均衡问题,如上采样、下采样和调整阈值等,文献 10 针对该问题给出了相对完善的解决方案。在此基础上,各种深度学习网络相继出现,例如,2 0 18Probe年KIM等人提出C-LSTM模型,2 0 2 0 年YIN12等人在C-LSTM的基础上进行改进,这些都是基于网络流数据进行异常检测的典型方案。此外,在大多数现实场景中一般不会对大量数据进行标记,因此,本文更倾向于使用无监督方法构建基于异常的人侵检测模型。各种经典的无监督机器学习算法被广泛应用于异常检测中,统计
19、异常检测是一种常用的异常检测技术,K最近邻(K-Nearest Neighbor,K NN)异常检测方法是一种简单、应用广泛的点异常无监督全局异常检测方法,该方法根据KNN距离 13计算异常得分。为了降低KNN方法的计算成本,BREUNIG14等人提出基于密度的局部异常检测的无监督方法,也被称为局部离群因子(Local Outlier Factor,LO F)。T A NG 15等人提出基于LOF的改进方法,即基于连接性的离群值因子(Connectivity Based Outlier Factor,CO F)方法,该方法进一步考虑了线性结构。除了基于最近邻的算413NETINFOSECURI
20、TY技术研究2024年第3期法,基于聚类的算法也用于无监督离群点检测。基于聚类的离群因子(Cluster-Based Local Outlier Factor,CBLOF)16 是一种基于聚类的异常检测算法,其使用k-means聚类算法对数据点进行聚类。基于直方图的离群值(Histogram-Based Outlier Score,HBOS)17 是一种统计无监督异常检测算法,与基于最近邻和聚类的异常检测方法相比,该算法的计算成本更低。此外,以统计自回归移动平均(Auto Regressive Moving Average,ARMA)模型为代表的时间序列模型算法及其变化,也被广泛应用于时间序列
21、异常检测问题,如自回归移动平均(Auto Regressive Integrated Moving Average,ARIMA)模型。YU18等人提出一种基于ARIMA模型的无线传感器网络流量控制异常检测技术,通过结合ARIMA模型与短步指数加权平均法,更好地在网络流量中实现异常检测判断。YAACOB19等人通过对比实际网络流量和ARIMA预测模式,提出一种用于DoS攻击的早期预警检测技术。目前,无监督或者半监督神经网络架构已成功用于时间序列分析,通过无监督深度学习进行异常检测已经有了较为成熟的案例。一种典型的基于深度学习的异常检测方式是基于神经网络的自编码器,在文献 2 0-2 4中,自编码
22、器用于检测离群值,其核心思想是先将原始输人数据压缩成一个紧凑、隐藏的表示,再从隐藏的表示中重建输入数据。异常会在编码过程中丢失信息,因此一个有效的模型不应像正常实例一样能够重建异常。因为隐藏的表示非常紧,所以只能从输入中重建有代表性的特征,原始数据和重构数据之间的差异表示数据中的观察值是离群值的可能性。前馈全连接的神经网络是一个经典的自动编码器 2 0,其中输入层和输出层的神经元数量相同,隐层的神经元数量比输入层和输出层少得多,为了尽可能接近重构输入,隐层中的权值只捕捉原始输人数据中最具代表性的特征,而忽略输入数据的细节(如离群值),因此内层数据(即正常数据)比异常值更容易重构。经典的基于前馈
23、神经网络的自编码器常用于处理非顺序数据,为了在时间序列中进行异常值检测,本文基于递归神经网络的自编码器 2 1,2 解决时间序列异常检测问题。同时,遵循集成学习原则,为了进一步提高基于自编码器的离群点检测的准确性,自编码器集成技术被提出 2 3,其主要思想是构建一组自动编码器,并在检测异常值时考虑多个自动编码器的重构错误。然而,自动编码器集成技术仅适用于非顺序数据,不能直接用于时间序列,为了解决这个问题,KIEU24等人在前人基础上进一步在时间序列中执行离群值检测的自动编码器集成框架。另一种典型的基于深度学习的时间序列异常检测方法的核心是通过学习时间序列数据中上下文之间的有序性,查找巨大的输入
24、数据集的规律性和不规则性。当顺序输人时,深度学习模型将预测下一个值并将其与实际值进行比较,对两者之间的距离测量值进行测量和评分,以区分正常数据和异常数据 2 5-2 7。文献 2 5提出一种基于深度学习的时间序列数据异常检测方法DeepAnT,该方法使用深度卷积神经网络(ConvolutionalNeural Network,CNN)预测定义视界的下一个时间戳,同样也适用于非流数据。DeepAnT先获取一个时间序列窗口的信息(用作上下文),并尝试预测下一个时间戳,再将预测值传递给异常检测器模块,该模块负责将相应的时间戳标记为正常或异常。文献 2 6 使用基于循环神经网络(Recurrent N
25、eural Network,R NN)的预测模型,并用于工业物联网环境中的网络入侵检测,将余弦相似度作为评分函数,并通过设置余弦相似度边界执行异常检测。DU27等人提出一种基于长短期记忆(Long Short-Term Memory,LST M)的深度神经网络模型DeepLog,该模型不考虑网络数据流,而是将系统日志建模为自然语言序列,并从正常执行的系统日志中自动学习日志模式,将预测的输出与实际观察到的日志键值进行比较,从而检测异常。文献 2 8 提出EGADS模型,用于检测大尺度时间序列数据中的异常,对于给定的时间序列,EGADS对时间序列进行建模,并在时间戳t处产生一个期望值,将期望值与实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 集成 学习 监督 网络 入侵 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。