![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于Double-Bagg...g特征降维异质集成入侵检测_陈俊彦.pdf
《基于Double-Bagg...g特征降维异质集成入侵检测_陈俊彦.pdf》由会员分享,可在线阅读,更多相关《基于Double-Bagg...g特征降维异质集成入侵检测_陈俊彦.pdf(9页珍藏版)》请在咨信网上搜索。
1、 基于D o u b l e-B a g g i n g特征降维异质集成入侵检测*陈俊彦,卢贤涛,黄雪锋,卢小烨,廖岑卉珊(桂林电子科技大学计算机与信息安全学院,广西 桂林 5 4 1 0 0 4)摘 要:入侵检测是网络安全领域中具有挑战性的重要任务。单个分类器可能会带来分类偏差,使用集成学习相较单分类器,具有更强的泛化能力及更高的精确率,但调整各基分类器的权重需要大量的时间。基于此问题,提出了一种基于B a g g i n g特征降维和基于B a g g i n g异质集成入侵检测分类算法(D o u b l e-B a g g i n g)的特征降维异质集成入侵检测算法。该算法通过集成5个
2、特征选择算法,采用B a g g i n g投票机制选出最优特征子集,实现高效准确的特征降维。同时,引入集成学习中的成对多样性度量,从不同基分类器组合中选出最优异质集成集合。对于赋权函数综合使用精确率和A O C值作为权重对分类器进行集成。实验结果表明,所提算法精确率高达9 9.9 4%,系统错误率及正判率分别为0.0 3%和9 9.5 5%,均优于现有主流入侵检测算法的。关键词:入侵检测;异质集成学习;特征降维;成对多样性度量中图分类号:T P 3 9 3 文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 6.0 0 8
3、D o u b l e-B a g g i n g b a s e d f e a t u r e d i m e n s i o n r e d u c t i o n h e t e r o g e n o u s i n t e g r a t e d i n t r u s i o n d e t e c t i o nCHE N J u n-y a n,L U X i a n-t a o,HUANG X u e-f e n g,L U X i a o-y e,L I AO-C E N H u i-s h a n(S c h o o l o f C o m p u t e r S c
4、i e n c e a n d I n f o r m a t i o n S e c u r i t y,G u i l i n U n i v e r s i t y o f E l e c t r o n i c T e c h n o l o g y,G u i l i n 5 4 1 0 0 4,C h i n a)A b s t r a c t:I n t r u s i o n d e t e c t i o n i s a c h a l l e n g i n g a n d i m p o r t a n t t a s k i n t h e f i e l d o f
5、n e t w o r k s e c u r i t y.A s i n g l e c l a s s i f i e r m a y b r i n g c l a s s i f i c a t i o n b i a s,a n d u s i n g e n s e m b l e l e a r n i n g h a s s t r o n g e r g e n e r a l i z a t i o n a b i l i t y a n d h i g h e r a c c u r a c y c o m p a r e d t o a s i n g l e c l
6、a s s i f i e r.A l t h o u g h s u c h a l g o r i t h m s h a v e g o o d c l a s s i f i-c a t i o n p e r f o r m a n c e,a d j u s t i n g t h e w e i g h t s b e t w e e n t h e b a s e c l a s s i f i e r s r e q u i r e s a l o t o f t i m e.T o a d d r e s s t h i s i s s u e,a n f e a t u
7、r e d i m e n s i o n r e d u c t i o n h e t e r o g e n o u s i n t e g r a t i o n i n t r u s i o n d e t e c t i o n m o d e l b a s e d o n B a g g i n g-b a s e d f e a t u r e d i m e n s i o n r e d u c t i o n a n d B a g g i n g h e t e r o g e n e o u s i n t e g r a t i o n-b a s e d i
8、n t r u s i o n d e t e c-t i o n c l a s s i f i c a t i o n a l g o r i t h m(D o u b l e-B a g g i n g)i s p r o p o s e d.T h e a l g o r i t h m i n t e g r a t e s f i v e f e a t u r e s e l e c-t i o n a l g o r i t h m s a n d a d o p t s a B a g g i n g v o t i n g m e c h a n i s m t o s
9、e l e c t t h e o p t i m a l f e a t u r e s u b s e t,i n o r d e r t o a c h i e v e e f f i c i e n t a n d a c c u r a t e f e a t u r e d i m e n s i o n a l i t y r e d u c t i o n.A t t h e s a m e t i m e,t h e p a i r w i s e d i v e r s i t y m e a s u r e i n e n s e m b l e l e a r n i
10、n g i s i n t r o d u c e d t o c h o o s e t h e o p t i m a l h e t e r o g e n e o u s e n s e m b l e s e t f o r d i f f e r-e n t b a s e c l a s s i f i e r c o m b i n a t i o n s.F o r t h e w e i g h t i n g f u n c t i o n,a c c u r a c y a n d A O C v a l u e a r e u s e d a s w e i g h
11、t s t o i n t e g r a t e c l a s s i f i e r s.T h e e x p e r i m e n t s h o w s t h a t t h e m o d e l s a c c u r a c y i s u p t o 9 9.9 4%,a n d t h e s y s t e m e r r o r r a t e a n d p o s i t i v e j u d g m e n t r a t e a r e u p t o 0.0 3%a n d 9 9.5 5%,w h i c h i s s u p e r i o r
12、t o t h e e x i s t i n g m a i n s t r e a m i n t r u s i o n d e t e c t i o n a l g o r i t h m s.K e y w o r d s:i n t r u s i o n d e t e c t i o n;h e t e r o g e n e o u s i n t e g r a t e d l e a r n i n g;f e a t u r e d i m e n s i o n r e d u c t i o n;m e a s u r e o f p a i r e d d i
13、v e r s i t y*收稿日期:2 0 2 3-0 1-1 8;修回日期:2 0 2 3-0 3-2 6基金项目:广西区自然科学基金(2 0 2 0 G X N S F D A 2 3 8 0 0 1);广西高校中青年教师科研基础能力提升项目(2 0 2 0 KY 0 5 0 3 3)通信地址:5 4 1 0 0 4 广西桂林市桂林电子科技大学花江校区计算机与信息安全学院A d d r e s s:S c h o o l o f C o m p u t e r S c i e n c e a n d I n f o r m a t i o n S e c u r i t y,H u a
14、j i a n g C a m p u s,G u i l i n U n i v e r s i t y o f E l e c t r o n i c T e c h n o l o g y,G u i l i n 5 4 1 0 0 4,G u a n g x i,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第6期2 0 2 3年6月 V o l.4 5,N o.6,J u n.2 0 2 3
15、 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 6-1 0 1 1-0 91 引言随着互联网的快速发展和普及,互联网面临着严峻的安全问题。入侵检测技术作为一种主动的安全防御手段,得到了广泛的关注与研究。基于异常流量的入侵检测是入侵检测算法中的一种。网络中的恶意流量变化多端且数量庞大,使得网络异常流量的检测成为当前研究的热点。此外,由于网络流量的复杂性和实时性,基于异常流量的入侵检测面临着巨大的挑战1。现有的入侵检测技术能够处理大量的数据,但往往包含冗余或无关的特征,导致训练和分类时间过长2。因此,特征选择和降维已经成为入侵检测领域的一个关键研究领域。各种特征选择方法已广泛应用于
16、统计模式识别、机器学习、数据挖掘等领域,以约简数据、提高性能和检测异常点。近年来,随着机器学习的发展,机器学习结合入侵检测愈演愈热,因为机器学习不需要获取数据包的内容,只需根据数据流的特点做出判断,快速检测出异常流量数据。单分类器的检测结果错误率较高,这是因为不同的分类器配合不同的训练数据集,性能往往也会有所不同,偏向性较高的训练数据容易导致错误率较高3。理论和实验结果表明,集成多个单分类器的集成学习可以提高基分类器的泛化能力。B a g g i n g算法就采用了集成学习中的并行思想。传统的B a g g i n g算法采用自助采样法,随机产生多个训练子集,基于这些训练子集训练不同的模型进行
17、集成。自助采样法在数据集较小时具有较好的效果,但入侵检测一般基于大量的流量数据集进行模型训练,采用自助采样法会导致产生的训练子集与原始的数据集类型分布不一致,从而降低入侵检测性能。投票法是B a g g i n g集成思想的代表,一般包括硬投票(H a r d V o t i n g)与软投票(S o f t V o t i n g)。软投票算法即加权投票算法。硬投票算法不能体现集成学习中的互补性,加权投票则需要大量的时间来确定每个基分类器的权重。针对上述问题,本文提出了一种基于B a g g i n g特征降维和基于B a g g i n g异质集成入侵检测分类算法(D o u b l e-
18、B a g g i n g)的特征降维异质集成入侵检测算法。首先,提出了一种基于B a g g i n g的集成特征选择算法,避免单特征选择算法忽略特征间联系而倾向选择冗余特征的情况。该算法通过集成5个特征选择算法,采用投票机制选出最优特征子集。随后,引入集成学习中的成对多样性度量用于选择性集成,选出较优的异质集成模型,并采用分层1 0折交叉验证方法避免了过度拟合。最后,采用B a g g i n g集成思想中的加权投票方法。此外,针对个体分类器权重函数设计仅来源于准确度,致使结果具有偏向性的问题,提出综合精确度和A O C值作为权重进行集成,通过此加权投票机制提高了入侵检测的性能。本文在入侵
19、检测数据集上对D o u b l e-B a g g i n g算法进行了评估,并与单一分类器(如朴素贝叶斯、B P(B a c k P r o p a g a t i o n)神经网络、C 4.5、逻辑回归、S VM(S u p p o r t V e c t o r M a c h i n e)等)硬投票算法及其它机器学习算法进行比较。实验结果表明,D o u b l e-B a g g i n g算法在准确性、错误率和时间消耗方面均具有优越性。2 相关工作国内外许多研究人员将机器学习方法应用在网络流量异常检测中的特征选择、分类算法选择等方面。2.1 特性选择特征选择是从一个大的特征空间中
20、选择一个相关的非冗余特征子集4。在机器学习和模式识别的许多应用中,特征选择被用来选择最优的特征子集,以训练学习模型。在处理大型数据集时,通常会出现特征信息间关联度不强以及不相关特征占比较高的情况。从原始特征空间中识别和去除不相关的特征,使得学习算法关注最优特征子集的处理,即特征或变量或属性的选择。特征选择的目的主要有3点:(1)去除冗余特征;(2)提高预测精度;(3)减少分析过程中的时间和内存消耗。此外,单一的特征选择方法可能具有结果偏向性,从而产生局部最优或次优的特征子集,也会影响使用这些特征的学习方法的性能。基于集成的特征选择方法是将多个特征子集组合起来,通过对不同的特征子集进行实验,然后
21、基于精确率选择最优的特征子集,从而提高分类精度5。O s a n a i y e等人6提出了一种综合特征选择算法,分别使用信息增益、信息增益率、R e l i e f F和卡方进行特征选择;特征选择后,选择4种滤波方法中所包含的特征;最后,采用决策树作为分类器评价模型。但是,这种方法没有考虑特征与特征之间的联系,且该方法只使用单个算法评估模型,导致模型的稳定性较弱。H o q u e等人7在上述方法的基础上,增加了对称不确定性方法。该方法也属于滤波方法,并选择了2 1种数据集。最后,利用决策2101C o m p u t e r E n g i n e e r i n g&S c i e n
22、c e 计算机工程与科学 2 0 2 3,4 5(6)树、随机森林等4种分类算法对模型进行评价。但是,该方法只增加了多种算法评价模型,没有增加其他类型的特征选择方法,也没有关注特征之间的关联信息。S i n g h等人8提出了一种综合了上述5种方法的特征选择算法,并加入了相关系数和支持向量机,相关系数属于滤波方法,支持向量机属于嵌入方法;然后,根据每种方法生成的特征权重对特征进行筛选;最后,使用多层感知器作为二分类器评价模型。不平衡的包过滤法和嵌入法,有6种过滤方法,只有一种嵌入方法会导致偏差,该方法使用二进制分类模型,按照正常流和异常流分类,无法确定异常流的具体类型,且该方法仅采用单一算法评
23、估模型。由此可知,单个特征选择算法没有考虑到特征和特征之间的关联信息,导致倾向于选择冗余特征,而不合理的模型集成会带来偏向性问题。针对上述问题,本文提出了基于B a g g i n g的特征降维算法,集成了5个特征选择算法,采用投票机制选出最优特征子集,以减少时间消耗,实现高效准确的特征降维。2.2 入侵检测算法因为机器学习不需要获取数据包的内容,只需要根据数据流的特点进行判断,并可以快速检测异常流量数据,近年来越来越多的机器学习算法用于解决网络流量异常检测的问题。本文仅对基于异常的入侵检测系统I D S(I n t r u s i o n D e t e c t i o n S y s-t
24、e m s)进行研究9。基于异常的入侵检测研究大致可分为3类:基于深度学习的入侵检测、单一分类器入侵检测和多分类器融合检测。由于深度学习方法可以根据问题自动建立模型,不局限于一个固定的问题,因此在解决入侵检测问题上很有前景。文献1 0 使用了结合循环神经网络R NN(R e c u r r e n t N e u r a l N e t w o r k s)和模糊C均值聚类F CM(F u z z y C-M e a n s)的云环境I D S。在聚类模块中,使用模糊C均值聚类对输入数据进行聚类分组;在分类模块中,使用R NN对入侵进行分类。文献1 1 提出了一种基于增量层次自组织 映 射GH
25、 S OM(G r o w i n g H i e r a r c h i c a l S e l f-O r g a n i z i n g M a p)神经网络模型的网络入侵检测方法,该方法可以在在线检测过程中通过增量学习新的攻击类型来实现入侵检测模型的动态扩展,同时不破坏已学到的知识。该方法具有一定的适应性和可扩展性,但在处理海量数据集时,其鲁棒性还有待提高。文献1 2 使用双向长短期记忆神经网络B L S TM(B i-d i r e c t i o n a l L o n g S h o r t-T e r m M e m o r y)检测物联网网络中的攻击。在文献1 3 中,对K
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Double Bagg 特征 降维异质 集成 入侵 检测 俊彦
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。