分销赏收藏举报申诉 / 9

立即下载开通VIP

当前位置：首页 > 学术论文 > 毕业论文/毕业设计 > 基于Double-Bagg...g特征降维异质集成入侵检测_陈俊彦.pdf

基于Double-Bagg...g特征降维异质集成入侵检测_陈俊彦.pdf

上传人：自信****多点

文档编号：277431

上传时间：2023-06-26

格式：PDF

页数：9

大小：1.32MB

《基于Double-Bagg...g特征降维异质集成入侵检测_陈俊彦.pdf》由会员分享，可在线阅读，更多相关《基于Double-Bagg...g特征降维异质集成入侵检测_陈俊彦.pdf（9页珍藏版）》请在咨信网上搜索。

1、基于D o u b l e-B a g g i n g特征降维异质集成入侵检测*陈俊彦,卢贤涛,黄雪锋,卢小烨,廖岑卉珊(桂林电子科技大学计算机与信息安全学院,广西桂林 5 4 1 0 0 4)摘要:入侵检测是网络安全领域中具有挑战性的重要任务。单个分类器可能会带来分类偏差,使用集成学习相较单分类器,具有更强的泛化能力及更高的精确率,但调整各基分类器的权重需要大量的时间。基于此问题,提出了一种基于B a g g i n g特征降维和基于B a g g i n g异质集成入侵检测分类算法(D o u b l e-B a g g i n g)的特征降维异质集成入侵检测算法。该算法通过集成5个

2、特征选择算法,采用B a g g i n g投票机制选出最优特征子集,实现高效准确的特征降维。同时,引入集成学习中的成对多样性度量,从不同基分类器组合中选出最优异质集成集合。对于赋权函数综合使用精确率和A O C值作为权重对分类器进行集成。实验结果表明,所提算法精确率高达9 9.9 4%,系统错误率及正判率分别为0.0 3%和9 9.5 5%,均优于现有主流入侵检测算法的。关键词:入侵检测;异质集成学习;特征降维;成对多样性度量中图分类号:T P 3 9 3 文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 6.0 0 8

3、D o u b l e-B a g g i n g b a s e d f e a t u r e d i m e n s i o n r e d u c t i o n h e t e r o g e n o u s i n t e g r a t e d i n t r u s i o n d e t e c t i o nCHE N J u n-y a n,L U X i a n-t a o,HUANG X u e-f e n g,L U X i a o-y e,L I AO-C E N H u i-s h a n(S c h o o l o f C o m p u t e r S c

4、i e n c e a n d I n f o r m a t i o n S e c u r i t y,G u i l i n U n i v e r s i t y o f E l e c t r o n i c T e c h n o l o g y,G u i l i n 5 4 1 0 0 4,C h i n a)A b s t r a c t:I n t r u s i o n d e t e c t i o n i s a c h a l l e n g i n g a n d i m p o r t a n t t a s k i n t h e f i e l d o f

5、n e t w o r k s e c u r i t y.A s i n g l e c l a s s i f i e r m a y b r i n g c l a s s i f i c a t i o n b i a s,a n d u s i n g e n s e m b l e l e a r n i n g h a s s t r o n g e r g e n e r a l i z a t i o n a b i l i t y a n d h i g h e r a c c u r a c y c o m p a r e d t o a s i n g l e c l

6、a s s i f i e r.A l t h o u g h s u c h a l g o r i t h m s h a v e g o o d c l a s s i f i-c a t i o n p e r f o r m a n c e,a d j u s t i n g t h e w e i g h t s b e t w e e n t h e b a s e c l a s s i f i e r s r e q u i r e s a l o t o f t i m e.T o a d d r e s s t h i s i s s u e,a n f e a t u

7、r e d i m e n s i o n r e d u c t i o n h e t e r o g e n o u s i n t e g r a t i o n i n t r u s i o n d e t e c t i o n m o d e l b a s e d o n B a g g i n g-b a s e d f e a t u r e d i m e n s i o n r e d u c t i o n a n d B a g g i n g h e t e r o g e n e o u s i n t e g r a t i o n-b a s e d i

8、n t r u s i o n d e t e c-t i o n c l a s s i f i c a t i o n a l g o r i t h m(D o u b l e-B a g g i n g)i s p r o p o s e d.T h e a l g o r i t h m i n t e g r a t e s f i v e f e a t u r e s e l e c-t i o n a l g o r i t h m s a n d a d o p t s a B a g g i n g v o t i n g m e c h a n i s m t o s

9、e l e c t t h e o p t i m a l f e a t u r e s u b s e t,i n o r d e r t o a c h i e v e e f f i c i e n t a n d a c c u r a t e f e a t u r e d i m e n s i o n a l i t y r e d u c t i o n.A t t h e s a m e t i m e,t h e p a i r w i s e d i v e r s i t y m e a s u r e i n e n s e m b l e l e a r n i

10、n g i s i n t r o d u c e d t o c h o o s e t h e o p t i m a l h e t e r o g e n e o u s e n s e m b l e s e t f o r d i f f e r-e n t b a s e c l a s s i f i e r c o m b i n a t i o n s.F o r t h e w e i g h t i n g f u n c t i o n,a c c u r a c y a n d A O C v a l u e a r e u s e d a s w e i g h

11、t s t o i n t e g r a t e c l a s s i f i e r s.T h e e x p e r i m e n t s h o w s t h a t t h e m o d e l s a c c u r a c y i s u p t o 9 9.9 4%,a n d t h e s y s t e m e r r o r r a t e a n d p o s i t i v e j u d g m e n t r a t e a r e u p t o 0.0 3%a n d 9 9.5 5%,w h i c h i s s u p e r i o r

12、t o t h e e x i s t i n g m a i n s t r e a m i n t r u s i o n d e t e c t i o n a l g o r i t h m s.K e y w o r d s:i n t r u s i o n d e t e c t i o n;h e t e r o g e n e o u s i n t e g r a t e d l e a r n i n g;f e a t u r e d i m e n s i o n r e d u c t i o n;m e a s u r e o f p a i r e d d i

13、v e r s i t y*收稿日期:2 0 2 3-0 1-1 8;修回日期:2 0 2 3-0 3-2 6基金项目:广西区自然科学基金(2 0 2 0 G X N S F D A 2 3 8 0 0 1);广西高校中青年教师科研基础能力提升项目(2 0 2 0 KY 0 5 0 3 3)通信地址:5 4 1 0 0 4 广西桂林市桂林电子科技大学花江校区计算机与信息安全学院A d d r e s s:S c h o o l o f C o m p u t e r S c i e n c e a n d I n f o r m a t i o n S e c u r i t y,H u a

14、j i a n g C a m p u s,G u i l i n U n i v e r s i t y o f E l e c t r o n i c T e c h n o l o g y,G u i l i n 5 4 1 0 0 4,G u a n g x i,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第6期2 0 2 3年6月 V o l.4 5,N o.6,J u n.2 0 2 3

15、文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 6-1 0 1 1-0 91 引言随着互联网的快速发展和普及,互联网面临着严峻的安全问题。入侵检测技术作为一种主动的安全防御手段,得到了广泛的关注与研究。基于异常流量的入侵检测是入侵检测算法中的一种。网络中的恶意流量变化多端且数量庞大,使得网络异常流量的检测成为当前研究的热点。此外,由于网络流量的复杂性和实时性,基于异常流量的入侵检测面临着巨大的挑战1。现有的入侵检测技术能够处理大量的数据,但往往包含冗余或无关的特征,导致训练和分类时间过长2。因此,特征选择和降维已经成为入侵检测领域的一个关键研究领域。各种特征选择方法已广泛应用于

16、统计模式识别、机器学习、数据挖掘等领域,以约简数据、提高性能和检测异常点。近年来,随着机器学习的发展,机器学习结合入侵检测愈演愈热,因为机器学习不需要获取数据包的内容,只需根据数据流的特点做出判断,快速检测出异常流量数据。单分类器的检测结果错误率较高,这是因为不同的分类器配合不同的训练数据集,性能往往也会有所不同,偏向性较高的训练数据容易导致错误率较高3。理论和实验结果表明,集成多个单分类器的集成学习可以提高基分类器的泛化能力。B a g g i n g算法就采用了集成学习中的并行思想。传统的B a g g i n g算法采用自助采样法,随机产生多个训练子集,基于这些训练子集训练不同的模型进行

17、集成。自助采样法在数据集较小时具有较好的效果,但入侵检测一般基于大量的流量数据集进行模型训练,采用自助采样法会导致产生的训练子集与原始的数据集类型分布不一致,从而降低入侵检测性能。投票法是B a g g i n g集成思想的代表,一般包括硬投票(H a r d V o t i n g)与软投票(S o f t V o t i n g)。软投票算法即加权投票算法。硬投票算法不能体现集成学习中的互补性,加权投票则需要大量的时间来确定每个基分类器的权重。针对上述问题,本文提出了一种基于B a g g i n g特征降维和基于B a g g i n g异质集成入侵检测分类算法(D o u b l e-

18、B a g g i n g)的特征降维异质集成入侵检测算法。首先,提出了一种基于B a g g i n g的集成特征选择算法,避免单特征选择算法忽略特征间联系而倾向选择冗余特征的情况。该算法通过集成5个特征选择算法,采用投票机制选出最优特征子集。随后,引入集成学习中的成对多样性度量用于选择性集成,选出较优的异质集成模型,并采用分层1 0折交叉验证方法避免了过度拟合。最后,采用B a g g i n g集成思想中的加权投票方法。此外,针对个体分类器权重函数设计仅来源于准确度,致使结果具有偏向性的问题,提出综合精确度和A O C值作为权重进行集成,通过此加权投票机制提高了入侵检测的性能。本文在入侵

19、检测数据集上对D o u b l e-B a g g i n g算法进行了评估,并与单一分类器(如朴素贝叶斯、B P(B a c k P r o p a g a t i o n)神经网络、C 4.5、逻辑回归、S VM(S u p p o r t V e c t o r M a c h i n e)等)硬投票算法及其它机器学习算法进行比较。实验结果表明,D o u b l e-B a g g i n g算法在准确性、错误率和时间消耗方面均具有优越性。2 相关工作国内外许多研究人员将机器学习方法应用在网络流量异常检测中的特征选择、分类算法选择等方面。2.1 特性选择特征选择是从一个大的特征空间中

20、选择一个相关的非冗余特征子集4。在机器学习和模式识别的许多应用中,特征选择被用来选择最优的特征子集,以训练学习模型。在处理大型数据集时,通常会出现特征信息间关联度不强以及不相关特征占比较高的情况。从原始特征空间中识别和去除不相关的特征,使得学习算法关注最优特征子集的处理,即特征或变量或属性的选择。特征选择的目的主要有3点:(1)去除冗余特征;(2)提高预测精度;(3)减少分析过程中的时间和内存消耗。此外,单一的特征选择方法可能具有结果偏向性,从而产生局部最优或次优的特征子集,也会影响使用这些特征的学习方法的性能。基于集成的特征选择方法是将多个特征子集组合起来,通过对不同的特征子集进行实验,然后

21、基于精确率选择最优的特征子集,从而提高分类精度5。O s a n a i y e等人6提出了一种综合特征选择算法,分别使用信息增益、信息增益率、R e l i e f F和卡方进行特征选择;特征选择后,选择4种滤波方法中所包含的特征;最后,采用决策树作为分类器评价模型。但是,这种方法没有考虑特征与特征之间的联系,且该方法只使用单个算法评估模型,导致模型的稳定性较弱。H o q u e等人7在上述方法的基础上,增加了对称不确定性方法。该方法也属于滤波方法,并选择了2 1种数据集。最后,利用决策2101C o m p u t e r E n g i n e e r i n g&S c i e n

22、c e 计算机工程与科学 2 0 2 3,4 5(6)树、随机森林等4种分类算法对模型进行评价。但是,该方法只增加了多种算法评价模型,没有增加其他类型的特征选择方法,也没有关注特征之间的关联信息。S i n g h等人8提出了一种综合了上述5种方法的特征选择算法,并加入了相关系数和支持向量机,相关系数属于滤波方法,支持向量机属于嵌入方法;然后,根据每种方法生成的特征权重对特征进行筛选;最后,使用多层感知器作为二分类器评价模型。不平衡的包过滤法和嵌入法,有6种过滤方法,只有一种嵌入方法会导致偏差,该方法使用二进制分类模型,按照正常流和异常流分类,无法确定异常流的具体类型,且该方法仅采用单一算法评

23、估模型。由此可知,单个特征选择算法没有考虑到特征和特征之间的关联信息,导致倾向于选择冗余特征,而不合理的模型集成会带来偏向性问题。针对上述问题,本文提出了基于B a g g i n g的特征降维算法,集成了5个特征选择算法,采用投票机制选出最优特征子集,以减少时间消耗,实现高效准确的特征降维。2.2 入侵检测算法因为机器学习不需要获取数据包的内容,只需要根据数据流的特点进行判断,并可以快速检测异常流量数据,近年来越来越多的机器学习算法用于解决网络流量异常检测的问题。本文仅对基于异常的入侵检测系统I D S(I n t r u s i o n D e t e c t i o n S y s-t

24、e m s)进行研究9。基于异常的入侵检测研究大致可分为3类:基于深度学习的入侵检测、单一分类器入侵检测和多分类器融合检测。由于深度学习方法可以根据问题自动建立模型,不局限于一个固定的问题,因此在解决入侵检测问题上很有前景。文献1 0 使用了结合循环神经网络R NN(R e c u r r e n t N e u r a l N e t w o r k s)和模糊C均值聚类F CM(F u z z y C-M e a n s)的云环境I D S。在聚类模块中,使用模糊C均值聚类对输入数据进行聚类分组;在分类模块中,使用R NN对入侵进行分类。文献1 1 提出了一种基于增量层次自组织映射GH

25、 S OM(G r o w i n g H i e r a r c h i c a l S e l f-O r g a n i z i n g M a p)神经网络模型的网络入侵检测方法,该方法可以在在线检测过程中通过增量学习新的攻击类型来实现入侵检测模型的动态扩展,同时不破坏已学到的知识。该方法具有一定的适应性和可扩展性,但在处理海量数据集时,其鲁棒性还有待提高。文献1 2 使用双向长短期记忆神经网络B L S TM(B i-d i r e c t i o n a l L o n g S h o r t-T e r m M e m o r y)检测物联网网络中的攻击。在文献1 3 中,对K

26、D D 1 9 9 9数据集进行Z-S c o r e归一化、主成分分析P C A(P r i n c i p a l C o m p o-n e n t A n a l y s i s)特征提取和离散化处理,得到网络路由检测的输入特征;然后采用朴素贝叶斯对处理后的网络路径数据集进行分类。实验结果表明,该方法能有效检测特洛伊木马攻击、假消息攻击、拒绝服务攻击和远程用户非法访问攻击,检出率达8 7%9 7%。文献1 4 使用最小依赖最大显著性MDM S(M i n i m u m D e p e n d e n c y M a x i m u m S i g n i f i-c a n c e)

27、算法从K D D 1 9 9 9数据集中选择6个特征,使用KNN(K-N e a r e s t N e i g h b o r)对网络数据进行预测。该方法能较好地识别探测攻击和拒绝服务攻击。文献1 5 基于随机森林等机器学习算法,根据选择的特征对网络中的流量进行检测和分类,在算法上并没有太大的改进。实验结果表明,使用单一分类器的检测方法错误率较高,因为在分类过程中,这些方法的性能通常会随着分类器或数据集变化而变化,从而导致错误率较高。集成学习是指通过组合多个分类器来提高最终分类性能。该方法通常比使用单一分类器的方法获得的预测结果更好。T e n g l 等人1 6提出了一种基于遗传算法的协同

28、鲁棒入侵检测模型。使用P C A进行数据降维,同时使用遗传算法GA(G e-n e t i c A l g o r i t h m)优化集成分类器中每个基分类器的权重。然而,虽然该方法具有较高的精度,但调整权重需要大量的时间,这将影响算法的实时性和可用性。文献3 采用模型概率核主成分分析方法对特征进行降维,然后用多异质分类器1 0层交叉验证策略进行异常检测,最后根据所提出的分类器评价算法选择在相关数据上性能最好的3种分类器,基于概率加权投票实现多分类器集成算法进行入侵检测。汪洁等人1提出了基于多层集成分类器的恶意网络流量检测方法。首先,采用无监督学习框架对数据进行预处理并将其聚成不同的簇,对每

29、一个簇进行噪音处理;然后,构建一个多层集成分类器ML D E(M u l t i-L e v e l D i s t r i b u t e d E n s e m b l e c l a s s i-f i e r s)检测网络恶意流量。ML D E集成框架在底层使用基分类器,非底层使用不同的集成元分类器。该框架构建简单,能并发处理大数据集,并能根据数据集的大小来调整集成分类器的规模。A l i g u l i y e v等人1 7提出了一种基于 S t a c k i n g 的方法检测异常网络流量,在第一层中使用了决策树、KNN、A d a B o o s t、L o g i t

30、 B o o s t 和随机森林这5种3101陈俊彦等:基于D o u b l e-B a g g i n g特征降维异质集成入侵检测不同的学习器,使用 S VM 作为元分类器,但是实验数据没有进行交叉验证,这可能导致模型过拟合,且没有对数据进行特征选择,导致冗余特征多,浪费计算资源。综上所述,现有用于入侵检测的集成学习方法存在需要大量时间调整各个基分类器的权重,多数投票法无法有效使用不同分类器提供的互补信息以及赋权函数仅与精确率相关而导致分类效果出现偏向性等问题。因此,本文采用B a g g i n g集成思想中的加权投票方法,引入集成学习中的成对多样性度量中的不一致度量D i s、Q统计及

31、双次失败度量D F,选出最优异质集成集合,最后对数据集进行异常检测。本文采用1 0折交叉验证。对于基分类器的赋权,本文提出使用精确率和A O C值的综合作为权重对分类器进行集成,有效解决了以上问题。3 基于D o u b l e-B a g g i n g特征降维异质集成入侵检测3.1 算法总体框架本文提出的D o u b l e-B a g g i n g算法分为3个部分:(1)特征降维。使用本文所提的基于B a g g i n g的降维算法,结合过滤法和嵌入法,尽可能地减少信息损失和降低计算开销。(2)选择性集成。引入集成学习中的成对多样性度量不一致度量D i s、Q统计及双次失败度量D

32、F,选出最优异质集成集合,对数据集进行异常检测。此外,为防止算法过拟合,本文应用了1 0折交叉验证方法。(3)集成分类器赋权策略。提出了使用精确率和接收者操作特征曲线上面积A O C(A r e a O v e r r e c e i v e r o p e r a t i n g c h a r a c t e r i s t i c C u r v e)的综合作为权重,对分类器进行集成。整个算法的体系结构如图1所示。3.2 基于B a g g i n g的特征降维算法入侵检测数据集中常常存在大量冗余噪声,进行特征降维能够提高弱分类器的分类效率。因此,对数据集进行特征选择降维,能够降低特征维

33、度,去除冗余信息,降低计算开销,提升基分类器的泛化能力和检测性能。在入侵检测领域,特征选择通常包括3种方案,分别是过滤法、封装法和嵌入法。过滤法通过对具有独立评价函数的特征子集进行评价来实现特征选择,不仅计算效率高,而且不继承分类器的F i g u r e 1 O v e r a l l s t r u c t u r e o f t h e p r o p o s e d a l g o r i t h m图1 所提算法总体结构偏差。嵌入法将特征选择嵌入到分类算法中,具有效率高、与学习算法有交互的优点,但仅适用于某些特定的分类算法。封装法使用预定义的分类器来评估进行特征选择的特征子集,并以给

34、定学习算法的性能作为标准函数来评估所选特征子集的有用性。文献1 8 采用了封装法,虽然在大多数情况下具有比过滤法更好的性能,但是在计算方面更加费时,且容易出现过拟合现象。因此,本文只使用了过滤法和嵌入法。综上所述,本文提出了一种基于投票机制的特征降维算法,其基本框架如图2所示。F i g u r e 2 F l o w c h a r t o f B a g g i n g-b a s e d f e a t u r e r e d u c t i o n a l g o r i t h m图2 基于B a g g i n g的特征降维算法流程图在特征选择中,单个特征选择算法存在很多局限性,不

35、能很好地挑选出优异的特征,因此结合了传统的2大类过滤法和嵌入法的优势。在过滤法中挑选了2种特征选择算法,在嵌入法中挑选了3种特征选择算法,这5种特征选择算法计算特征的贡献度(权重)排名,权重越大表示特征越重要。每一个特征选择算法根据自身的算法准则为每一个特征赋予权重,产生各自的特征权重分布。根据5种特征选择算法特征权重排序大小,设计了一个投票机制。该机制通过设定阈值决定每个方法结果的个数,对于5种方法进行特征重要性排序产生的5个结果特征子集,在5个算法结果子集中采用4101C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学

36、2 0 2 3,4 5(6)V o t i n g投票策略选择出现次数最多的特征作为最优特征子集。3.3 异质选择性集成根据文献1 9 研究表明,互补且精确率较高的基分类器集成后的性能优于性能最优的基分类器的,如果各基分类器的分类方法及其分类结果类似,那么他们集成后并不会提高泛化能力2 0。选择性集成的目的在于减少模型中的分类器数量,同时不降低模型预测精度,从而减小存储与计算开销,提高预测的精度与速度。由上述可知,基分类器间的多样性是影响集成分类器的关键因素。要想构建优质的异质集成学习模型,基分类器除了要保证精确度,基分类器间的分类方式也要有一定的差异。为了优化异质集成模型的性能,有必要单独分

37、析每一分类器的预测能力,同时引入集成学习中的多样性度量进行基分类器的异质集成模型选择。为了衡量一个分类器的好坏,在分类问题中常引入混淆矩阵,如表1所示。T a b l e 1 C o n f u s i o n m a t r i x表1 混淆矩阵检测为正常类别检测为异常类别实际正常类别T PFN实际异常类别F PTN 混淆矩阵中,T P、F P、TN、FN这4类分别表示将所有用例按照真实类别与学习器预测类别进行组合分类,总样本数量为N。本文采用精确率A C C(A C C u r a c y)、命中率T P R(T r u e P o s i t i v e R a t e)、误检率F P

38、R(F a l s e P o s i t i v e R a t e)、接收者操作特征曲线下面积A U C(A r e a U n d e r r e c e i v e r o p e r a t i n g c h a r a c t e r i s t i c C u r v e)这4个分类评价指标。A C C定义如式(1)所示:A C C=T P+TNT P+FN+F P+TN(1)其中,A C C表示总样本中被正确预测的比例。但是,在正、负样本数量比例严重失衡的情况下,只使用精确率对模型进行评价缺乏可信度。因此,还综合了其他指标来评价。T P R和F P R定义分别如式(2)和式(

39、3)所示:T P R=T PT P+FN(2)F P R=F PF P+TN(3)其中,T P R和F P R的取值均在0,1,T P R越高,F P R越低,表明检测效果越好。A U C采用接收者操作特征R O C(R e c e i v e r O p e r a t i n g C h a r a c t e r i s t i c)曲线来描述T P R和F P R这2个指标变化的相对关系2 0。A U C为1时对应理想分类器,其计算如式(4)所示:A U C=i正样本r a n k(i)-M*(1+M)2M*N(4)其中,M,N分别表示正负样本个数,r a n

40、k(i)表示正样本i的排序编号,M*N表示所有比较中正样本概率大于负样本概率的例子。此外,为了获得最佳的检测效果,还需要选择差异度比较大的基分类器。对于模型的选择性集成,本文引入基于集成学习的成对多样性度量中的不一致度量D i s、Q统计及双次失败度量D F。Q统计与分类器间的多样性程度有关,其取值在-1,1。若2个分类器相对完全独立,即分类方法完全无关联,则其Q统计值为0。不一致度量D i s关注2个分类器分类结果不同的样例,其取值在0,1,分类结果不同的样例越多,2个分类器间的多样性程度越高;反之,多样性程度越低。双次失败度量关注2个分类器均错误分类的样例,其取值在0,1,均错误分类的样例

41、越多,2个分类器越倾向于在相同的样例上出错1 9。3.4 基于A C C-A O C加权投票的集成策略单一分类算法存在偏向性及高错误率,采用集成学习能得到更优秀的高泛化模型。本文在集成分类算法当中也引入B a g g i n g思想。B a g g i n g算法在对各基分类器的输出进行结合时,通常使用投票法。投票法一般包括硬投票与软投票,软投票算法即加权投票算法,但硬投票算法不能体现集成学习中的互补性,因此,加权投票法被广泛应用。加权投票法需要调整基分类器间的权重,但若该权重仅与精确率相关,其有效性不强2 1。因此,在文献2 1 基础上,本文将分类检测评价指标精确率和A O C值综合作为权重

42、对分类器进行集成,如式(5)所示:Wi=0.5*1-ei-ebew-eb()+1-UAOC,i-UAOC,bUAOC,w-UAOC,b()?(5)其中,ew和eb分别为所有个体学习器中的最大和最小错误率(错误率=1-准确率);ei为第i个人个体学习器的错误率,UAO C,i表示第i个基分类器的R O C曲线未覆盖的面积(UAO C,i=1-A U C);UAO C,w和UAO C,b分别为所有基分类器中R O C曲线未覆盖面积的最大值和最小值。5101陈俊彦等:基于D o u b l e-B a g g i n g特征降维异质集成入侵检测4 实验验证4.1 特征降维比对为了验证本文特征选择算法

43、的性能,本文在决策树算法和极限随机树2种算法下对比使用平均不纯度算法1 5特征降维算法和本文提出的基于B a g g i n g的特征降维算法的时间消耗和精确率。表2显示了这3个实验中使用的特征数、分类的准确性和时间消耗。实验结果表明,本文提出的基于B a g g i n g的特征降维算法在准确率与时间复杂度上都有比较明显的优势。4.2 选择性集成为了验证基分类器的分类性能,本文使用以下8种基分类器来分别检测:D T(D e c i s i o n T r e e)、B P、S VM、KNN、R F(R a n d o m F o r e s t)、E T(E x t r a-T r e e

44、s)、A d a B o o s t、G B D T(G r a d i e n t B o o s t i n g D e-c i s i o n T r e e)。这8个分类器的分类结果相对较好,且可解释性较高,并通过贝叶斯优化来调整和选择模型参数。实验数据为I D S 2 0 1 7中的M o n-d a y这一天的数据。在选择性集成中,采用二分类的方式结合成对多样性度量选出优质的异质集成模型。通过该实验得到各基分类器A C C和A U C的平均值,如表3所示。从表3可以看出,B P基分类器的A C C和A U C值远低于其它基分类器的,因此首先排除了B P基分类器。T a b l e

45、3 P e r f o r m a n c e o f e a c h b a s e c l a s s i f i e r o n t h e d a t a s e t表3 各基分类器在数据集上的性能%基分类器A C CA U CF P RD T9 9.9 19 9.9 90.0 7B P6 5.4 95 8.1 33 4.5 1S VM9 1.8 18 7.7 19.2 0KNN9 9.5 89 9.6 00.1 2R F9 9.9 39 9.9 90.0 5E T9 9.9 29 9.9 90.0 8A d a B o o s t9 9.9 39 9.9 90.0 5G B D T9

46、 9.9 49 9.9 90.0 4 基分类器间的D F值、Q统计值及D i s值分别如表4表6所示。由该实验结果可知,在各基分T a b l e 2 C o m p a r i s o n o f f e a t u r e d i m e n s i o n a l i t y r e d u c t i o n表2 特征降维对比原始数据集特征数量 A C C/%时间消耗平均不纯度算法特征数量 A C C/%时间消耗基于B a g g i n g的特征降维算法特征数量 A C C/%时间消耗C 4.57 89 9.5 02 7.6 0 m s 1.2 4 m s99 8.5 88.1 2

47、m s 3 6 7 s99 9.3 69.0 9 m s 4 4 3 sE T7 89 8.5 22.5 1 s 5 5.9 0 m s98 6.4 32.4 2 s 4 5.1 0 m s99 8.6 82.3 7 s 7.9 9 m sT a b l e 4 D F v a l u e s b e t w e e n b a s e c l a s s i f i e r s表4 各基分类器之间的D F值%基分类器S VMKNNR FE TA d a B o o s tG B D T平均值D T0.0 7 40.0 5 00.0 5 80.0 5 80.0 5 50.0 5 20.0 5

48、8S VM0.1 1 30.0 5 50.0 6 60.0 5 20.0 4 50.0 6 8KNN0.0 5 50.0 5 30.0 5 00.0 4 70.0 6 1R F0.0 6 00.0 6 00.0 5 00.0 5 6E T0.0 5 80.0 4 50.0 5 7A d a B o o s t0.0 4 70.0 5 4G B D T0.0 4 8T a b l e 5 Q s t a t i s t i c v a l u e s b e t w e e n b a s e c l a s s i f i e r s表5 各基分类器之间的Q统计值%基分类器S VMKNNR F

49、E TA d a B o o s tG B D T平均值D T9 5.6 39 9.4 69 9.9 99 9.9 89 9.9 99 9.9 99 9.1 7S VM4 9.5 59 5.3 49 7.0 49 6.3 19 2.8 98 7.7 9KNN9 9.8 69 9.7 19 9.8 49 9.8 39 1.3 8R F9 9.9 99 9.8 39 9.9 99 9.1 9E T9 9.9 99 9.9 89 9.4 5A d a B o o s t9 9.9 99 9.3 5G B D T9 8.7 86101C o m p u t e r E n g i n e e r i

50、n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(6)T a b l e 6 D i s v a l u e s b e t w e e n b a s e c l a s s i f i e r s表6 各基分类器间的D i s值%基分类器S VMKNNR FE TA d a B o o s tG B D T平均值D T1 1.1 2 10.4 0 50.0 3 70.0 4 50.0 3 70.0 3 91.9 4 7S VM1 1.3 7 21 1.1 3 71 1.1 2 41 1.1 3 71 1.1 5 01 1.1 7 4KNN0.3 7 30.3 8

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 Double Bagg 特征降维异质集成入侵检测俊彦

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。