交互博弈引导的网络流量异常检测建模方法研究.pdf
《交互博弈引导的网络流量异常检测建模方法研究.pdf》由会员分享,可在线阅读,更多相关《交互博弈引导的网络流量异常检测建模方法研究.pdf(11页珍藏版)》请在咨信网上搜索。
1、第 9 卷 第 2 期信 息 安 全 学 报Vol.9 No.22024 年 3 月Journal of Cyber SecurityMarch 2024通讯作者:魏松杰,副教授,Email:。本课题得到国家重点研发计划子课题内生安全交换机关键技术研究(No.2020YFB1804604)、工业互联网创新发展工程项目工业企业网络安全综合防护平台(No.TC200H01V)资助。收稿日期:2022-05-25;修改日期:2022-07-05;定稿日期:2023-11-02交互博弈引导的网络流量异常检测建模方法研究张文哲,杨栋,魏松杰南京理工大学 计算机科学与工程学院 南京 中国 210094摘要
2、基于网络流量的系统入侵会带来严重破坏,因此寻找能够准确识别和分类异常流量的方法具有重要的研究价值。数据作为基于机器学习模型的检测算法的唯一依据,训练过程对于外界是一个黑盒过程,整个模型在训练和使用过程中缺乏用户交互。这导致在网络运维场景中,专业运维人员不能根据当前模型检测结果,实时将指导信息反馈到系统中,进而削弱了系统的场景适应能力和检测纠错能力。本文基于强化学习过程,设计了一种基于动态贝叶斯博弈的交互引导式的网络流量异常检测方法。通过检测模型和运维人员交互的方式,在训练过程中让运维人员提供专业反馈使得模型获得外界针对当前检测效果的奖惩信号,从而对自身特征聚焦方向和收敛过程起到引导的作用。将运
3、维人员和检测模型视为博弈的双方,建立博弈模型,使双方之间的交互引导行为达到动态平衡状态。通过博弈对于模型交互频次和内容反馈给出指导,从而使得模型具有动态适应当前场景的能力,有效控制了人机交互反馈所带来的系统开销。实验部分验证了交互式博弈的流量检测方法中,双方博弈指导交互行为的可行性与有效性,证明了该方法在动态场景中具有良好的适应能力。相较于传统的机器学习方法,交互引导式模型提高了模型整体的检测性能。性能对比测试结果表明交互频次每增加 0.02%,系统整体检测性能随之提升 0.01%。关键词动态贝叶斯博弈;强化学习;网络流量;异常检测中图分类号TN915.08DOI 号 10.19363/J10
4、-1380/tn.2024.03.03Interactive-Gaming Guided Modeling andDetection for Network TrafficAnomalyDetectionZHANG Wenzhe,YANG Dong,WEI SongjieSchool of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,ChinaAbstractSince system intrusion through network traffic m
5、ay cause serious damages,it is of great value to research formore accurate methods for network traffic recognition and anomaly classification.Traditional machine-learning baseddetection methods rely only on data,with the model training and application procedures lack interaction with domainusers,whi
6、ch makes the mode just mystery running in a black box.The domain experts in network anomaly detection scenarioscannot provide instant feedback about the model detection results to the system,and thus the detection system is short ofadaptability and self-correction capability in these scenarios.This
7、paper proposes an interaction guided network trafficanomaly detection based on the improved reinforcement learning procedure with the dynamic Bayesian gaming.The newmodel training and detection procedure enables system administrators and domain experts to return feedbacks about themodel behaviors in
8、to the system as incentive signals for feature focusing and model convergence.System administratorsand detection models are interacting with each other following the gaming theory to approximate a dynamic equilibriumstate.We design the interactive gaming strategy to control the interaction frequency
9、 and content,which optimize thedetection model to achieve dynamic adaptability to the current network traffic scenarios,with constrained interactionoverhead.We have conduct experiments with public dataset for traffic anomaly detection to verify the interactive gamingperformance,detectionimprovementa
10、ndeffectiveness.Theexperimentalresultseffectivelyprovethattheinteraction-guided model has good adaptability and usability in dynamic scenarios.It can make the interaction frequencycontrollable by adjusting parameters.It can achieve a balance between performance and interaction frequency on data sets
11、of different types and scenarios.Compared with traditional machine learning methods,the interactive guided modelimproves the overall detection performance of the model.Results show that the detection performance is improve by0.01%for every 0.02%more interaction frequency.张文哲 等:交互博弈引导的网络流量异常检测建模方法研究3
12、7Key wordsdynamic Bayesian gaming;reinforcement learning;network traffic;anomaly detection1引言由于网络中的任何入侵和异常都会严重影响许多领域,如私人和社会数据的安全、国家安全、社会和金融问题等,因此,科学界对信息和通信的安全性越来越关注。自 21 世纪初以来,研究人员在异常检测领域做出大量研究,并提出了众多异常检测方法,主要分为基于规则的异常检测和基于机器学习的异常检测两大类。其中基于机器学习的异常检测框架又分为无监督学习和有监督学习。在有监督学习中,利用已标记数据集的有用信息进行流量的分类,使用此类有
13、监督学习算法会达到高预测精度的效果。然而,手动标记所有数据这一过程任务量较大。在无监督学习中,模型通过寻找数据间的共同点去做相应的分类,整个过程不依赖于标签,但是其训练效果相比有监督学习较差,寻找能够检测恶意流量的新的快速而强大的算法模式对于应对不断变化的威胁和增加的检测难度至关重要。任何的网络流量异常检测模型都要具备适应不同网络场景的能力,随着网络环境的变化,模型要做出相应变化。在传统的网络流量异常检测中,将某个场景中的数据进行定量采集后,将其作为预先设计的机器学习算法模型的输入,进行模型的训练,当模型训练完备后,将当前模型发布到正式生产环境中使用,在使用过程中模型不具备针对当前网络的自适应
14、能力。对于新型的攻击模型无法识别时,发出告警将对于当前数据的检测和排查工作交由网络运维人员处理。面对当下比以往规模更大、结构更复杂的网络基础设施、基础服务和线上业务环境,该过程加大了网络运维人员的工作量,已经无法满足当前监控和管理任务的需要。智能运维(Artificialintelligence for IT operations,AIOps)的提出基于已有的运维数据,通过机器学习算法和运维场景结合的方式来进一步解决自动化运维所未能解决的问题,以提高监测系统的分析预判能力、准确率和稳定性,并有效地降低运维成本。但是 AIOps 中的算法模型使用已有的运维数据(日志、监控信息、应用信息等)进行驱
15、动,往往训练过程对于外界是一个黑盒子,已有的历史数据成为模型的唯一依赖,整个模型在训练和使用过程中不具有与用户交互的能力和机制,进而导致在运维环境中运维人员不能根据模型判断结果实时将信息反馈到 AIOps 系统中,从而削弱了系统的适应能力和纠错能力。针对上述问题,本文结合强化学习算法的Reward 回馈机制,提出一种交互引导式的模型进行网络流量异常检测。相较于传统的 AIOps 系统,在该场景中采用交互式博弈的方式,运维人员通过可视化交互界面,对模型的分析与决策进行反馈和评估,进而使得模型不断的在运维人员提供的外部信息训练过程中获得更加精确的训练结果。为了更好的使得运维人员和模型之间进行合作,
16、建立模型合理的交互策略以及模型合理的反馈策略,本文使用动态贝叶斯博弈模型建立了一个二者间的信誉评估和更新机制,通过博弈建立起运维人员和模型之间的均衡态,从而指导模型和运维人员的行为。本文结构如下所示:第一节为引言,第二节介绍网络流量异常检测领域相关工作,第三节介绍基于动态贝叶斯博弈的交互式引导异常检测方法以及相关理论,第四节详细描述系统中人机博弈模型的构建流程,第五节对实验结果进行整理和分析,第六节为总结和展望。2相关工作针对网络异常流量检测,机器学习作为一种基于统计的分析工具,已经在各个领域得到了广泛的讨论和应用。针对网络异常检测所制定的系统为入侵检测系统(Intrusion detecti
17、on system,IDS),是用来保护网络的一种典型的对抗手段。当前机器学习领域应用于 IDS 的算法多为传统的机器学习算法,例如支持向量机(Support vector machines,SVM),K 近邻算法(K-nearest neighbors,KNN),人工神经网络(Artificial neural networks,ANN)和决策树(Decisiontree,DT)以及深度神经网络(Deep neural network,DNN)。在网络流量的历史数据中,每条数据在空间和时间上相互关联依赖,所以网络流量的历史数据之间具有高度非线性和复杂性的特征。2012 年 K.Sethi等人
18、1提出了一种将日志关联和强化学习相结合的入侵检测系统。算法通过奖励回馈机制来识别已知和未知的攻击。2015 年 Kumar 等人2使用季节性差分自回归滑动平均模型(Seasonal autoregressive integratedmoving average,SARIMA)模型,通过分析流量分布进而设置流量分类阈值的方法进行流量的时间序列预测,但是该方法设置的阈值不具有普适性,难以38Journal of Cyber Security 信息安全学报,2024 年 3 月,第 9 卷,第 2 期适应各种网络场景。同年 Basant Subba 等人3提出线性判别分析(Linear discri
19、minant analysis,LDA)和逻辑回归(Logistic regression,LR)应用于网络异常检测中,相对于 SVM 具有更小的整体系统开销,并且便于实际应用中的部署。2017 年 Zhang Xiaofeng 等人4提出了一种改进的半监督学习网络入侵检测算法。该算法首先使用改进的 K-means 将要检测的数据划分为不同的聚类,然后使用多级 SVM 对标记为异常的簇进行分类,以达到提高检测效率的目的。2018年 R.Blanco 等人5在多层感知器(MLP)上使用深度Q 网络(Deep Q network,DQN)体系结构构建基于 RL的 IDS 系统。Daochen Zh
20、a 等人6提出了一种采用元策略的主动异常检测新框架,并命名为 Meta-AAD。Meta-AAD 框架通过近端策略梯度(Proximal policyoptimization,PPO)进行实例化,利用深度强化学习(Deep reinforcement learning,DRL)来训练元策略以选择最合适的实例,从而在整个查询过程中显式优化发现的异常数量。随后 G.Apruzzese 等人7提出通过双深 Q 网络(Double deep Q network,DDQN)算法进行僵尸网络检测程序的逃避攻击,自动生成能够逃避检测的攻击样本,并使用此类样本生成用于生成强化检测器的增强训练集,然后利用深度强
21、化学习算法来生成保留其恶意逻辑并能够逃避检测的对抗样本。在此类数据驱动的算法模型中,数据为算法模型的唯一依赖,整个模型不具有与用户交互的能力,导致模型缺乏对不同真实场景的适应能力。为了增强模型在网络流量异常检测系统中的动态适应性,本文结合强化学习算法,提出了一种基于动态贝叶斯博弈的交互引导式模型用于网络流量异常检测,通过模型和运维人员交互的方式增加模型的可维护性和扩展性,并且在其基础上建立动态贝叶斯博弈模型,寻找二者交互的平衡点。3交互式引导检测方法基于贝叶斯博弈的交互式引导检测方法整合了强化学习算法的奖励回馈机制以及动态贝叶斯博弈。在异常检测系统中运维人员通过给予模型反馈使得模型快速适应动态
22、环境。系统整体结构如图 1 所示。该架构主要分为 2个部分:第 1 部分为基于强化学习的交互式引导异常检测方法,第 2 部分为交互式博弈过程中的博弈系统。本节对于基于强化学习的交互式引导方法进行介绍,第 4 节对人机博弈系统进行阐述。图 1系统结构图Figure 1System structure diagram3.1算法概述强化学习(Reinforcement learning,RL)是一种机器学习范式,具有通过在动态环境中的模拟试错来自我学习的能力8。在 RL 框架中,代理、状态、动作、环境和奖励是学习循环的组成部分,即 agent,environment,state,reward,act
23、ion。其中模型为强化学习的本体,作为决策者;环境为强化学习智能体以外的组成部分,主要由状态集合组成;状态用来表示环境的数据,状态集则是环境中所有可能的状态;动作是智能体可以做出的动作;奖励为智能体执行一个动作后从环境中所获得的正/负反馈信号9。在当前异常检测场景下,强化学习范式各个模块定义如表 1 所示。强化学习通过在状态?处获取期望值?来引入价值函数?(?),表明状态?的价值。价值函数取决于 agent 选择 action 的策略?。在所有可能的函数中,存在最优值函数,表示为?蓐?(?),并且最大化可实现的动作值的最优策略为?,计算式表示为?蓐籀?蓐?蓐籀?蓐蓐?(?,蓐)。其中?函数的输
24、入为状态和动作,输出为奖励的值,?表示?函数的最优值。根据Bellman方程可知,最优?函数的递归定义如公式(1)所示。Q*(s,a)=R(s,a)+ESV*(s)(1)其中?(?,蓐)表示在状态?执行动作 蓐 后的即时奖励,?表示转换到下一个状态?后的预期奖励。张文哲 等:交互博弈引导的网络流量异常检测建模方法研究39表 1模块定义表Table 1Module definition模块定义Agents代理Environment训练集State流量数据Action当前预测标签Reward当前预测所获奖励在 Q-learning 算法中使用?表格的形式记录?值,表的大小为?,其中 m,n 分别表
25、示状态和动作的数量,通过查表的方式完成一次决策过程。?值更新方程如公式(2)所示。Qnew(st,at)=(1)Q(st,at)+(rt+maxaQ(st+1,at+1)(2)由于在 Q-learning 算法中状态空间过大时,会使得?表格过大从而导致维度灾难。本文使用 DQN 进行优化,在DQN算法中,使用神经网络代替?表格。该神经网络将当前状态作为输入,每个动作的?值估计作为输出。在 Q-learning 中,目标?值为:j+aQ(j+1,a;?)。其中表示状态?,?表示当前神经网络中的参数。在该神经网络中目标为最小化目标?值与神经网络输出的?值之间的误差,其用公式表示为:。Loss=(y
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 交互 博弈 引导 网络流量 异常 检测 建模 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。