基于随机博弈与A3C深度强化学习的网络防御策略优选.pdf
《基于随机博弈与A3C深度强化学习的网络防御策略优选.pdf》由会员分享,可在线阅读,更多相关《基于随机博弈与A3C深度强化学习的网络防御策略优选.pdf(12页珍藏版)》请在咨信网上搜索。
1、基于随机博弈与 A3C 深度强化学习的网络防御策略优选胡浩1赵昌军1刘璟1宋昱欣1,*姜迎畅1张玉臣1(1.战略支援部队信息工程大学,郑州 450001)摘要网络资源的有限性和攻防对抗的动态性导致最优防御策略难以选取,将深度强化学习引入攻防随机博弈建模领域,通过构建网络攻防 actor 策略网络和 critic 价值网络,结合随机博弈模型构建了网络攻防博弈决策模型总体结构,在此基础上引入异步优势演员评论家算法(asynchronous advantage actor-critic,A3C)智能体学习框架设计了防御策略选取算法;针对现有方法未考虑攻击方群体间的共谋攻击,引入群智能体性格特征,建立
2、合作系数 滋 来刻画攻击者之间的合作对攻防策略收益的影响,进而得出对防御策略选取的影响,构建的博弈决策模型更符合攻防实际情况。实验结果表明,该方法的策略求解速度要优于现有方法,同时由于考虑了攻击合作关系,能够用于分析攻击者群体间合作关系对防御者决策的影响,防御策略选取更有针对性,期望防御收益更高。关键词网络攻防,最优防御决策,随机博弈,多智能体,A3C 算法引用格式胡浩,赵昌军,刘璟,等.基于随机博弈与 A3C 深度强化学习的网络防御策略优选 J.指挥与控制学报,2024,10(1):47-58DOI10.3969/j.issn.2096-0204.2024.01.0047网络防御策略优选,作
3、为主动防御的重要环节之一表示在复杂的网络环境中,防御方根据攻击者的特点及时选择出合适的防御策略,既要保证系统的安全,又要减少资源的消耗。随着主动网络防御技术研究的不断深入,各式各样的防御策略方法应运而生,运用在不同的网络环境所面临的各自威胁。但面对网络的复杂攻防对抗特性,如何快速找出一个及时应对、效率最高的防御策略是研究的重难点。AIphaGo 和 AIphaStar 的突破性发展,为深度强化学习在网络攻防推演应用中提供了新方向。基于攻防推演的防御决策研究已经有了一定的进展,如文献1采用矩阵博弈和马尔科夫决策过程分析和刻画网络攻防。姜伟等构建了一种攻防随机博弈模型以刻画网络安全攻防矛盾,并解决
4、最优防御策略选取问题2。王元卓等提出了基于随机博弈模型的网络攻防量化分析方法,通过搭建网络攻防实验架指挥与控制学报JOURNAL OF COMMAND AND CONTROL第 10 卷第 1 期2024 年 2 月收稿日期 2022-01-29录用日期 2023-04-03国家自然科学基金(61902427)资助*通信作者邮箱 Vol.10,No.1February,2024Network Defense Strategy Optimization Based on Stochastic Gamingand A3C Deep Reinforcement LearningHU Hao1ZHAO
5、 Changjun1LIU Jing1SONG Yuxin1,*JIANG Yingchang1ZHANG Yuchen1(1.Strategic Support Force Information Engineering University,Zhengzhou 450001,China)AbstractThe limitation of network resources and the dynamics of attack-defense confrontation make it difficult to select the optimal defensestrategy.There
6、fore,the deep reinforcement learning is introduced into the field of attack and defense stochastic game modeling.Byconstructing the network attack-defense actor strategy network and critical value network,the stochastic gaming model is combined,the overallarchitecture of the game decision-making mod
7、el for network attack-defense is constructed.On this basis,the asynchronous advantageactor-critical(A3C)agent learning framework is introduced to design the defense strategy selection algorithm.In view of the fact that theexisting methods do not consider the collusion attacks among the attacker grou
8、ps,the personality characteristics of group agents are introducedby establishing cooperation factor 滋 to describe the impact of attacker cooperation on the benefits of attack-defense strategies as well as that onthe selection of defense strategies.Therefore,the constructed game decision-making model
9、 more conforms to the realistic attack-defensesituation better.The experimental results show that strategy calculating speed of the proposed method is better than the existing method.At thesame time,as the attack cooperation relationship is considered,which can be used to analyze the impact of the c
10、ooperation relationship amongattacker groups on the decision-making of the defenders.The defense strategy selection is more targeted and the expected defense benefits areexpected to be higher.Key wordscyber security,optimal defense decision-making,stochastic gaming,multi-agent,A3C algorithmCitationH
11、U H,ZHAO C J,LIU J,et al.Network defense strategy optimization based on stochastic gaming and A3C deep reinforcementlearningJ.Journal of Command and Control,2024,10(1):47-5810 卷指挥与控制学报10 卷指挥与控制学报构来研究随机博弈模型的快速建模方法3。文献4通过构建不完全信息随机博弈模型来研究移动中目标的防御决策问题,并通过实验数据证明了这个模型比完全信息随机博弈模型5具有更高的现实意义。张红旗等在不完全信息随机博弈中引
12、入了 Q-learning算法求解纳什均衡。强化学习是机器学习的一个分支6,智能体可以知道自己在什么状态下采取什么行动,并通过强化学习与环境互动获得最大的回报。然而 Q-learning 是基于时间差分法的典型强化学习算法,该算法的主要思想是构造一个带有状态和动作的 Q 表来存储 Q 值,然后根据 Q 值选择能够获得最大收益的动作。在此基础上,文献7对网络攻防进行博弈分析,使用 WoLF-PHC 算法求解贝叶斯纳什均衡,提出了一种智能防御决策方法。文献8基于 Q-learning 研究了无线动态环境下物理层系统功率分配策略。深度强化学习有机融合了强化学习和神经网络,深度强化学习(deep Q-
13、learning network,DQN)算法是于 2013 年被提出的第一个深度强化学习,其对 Q-learning 算法进行了改进,用深度学习中的卷积神经网络生成目标 Q 值。文献9利用 DQN求解博弈均衡,得出最优移动策略。但是,DQN 算法使用卷积神经网络结构,时间和空间的复杂度都较高,并且在不完全信息情况下,DQN 求解能力有限,性能下降,难以发挥效果。同时,随着网络共谋攻击10的出现,传统双人博弈模型难以刻画攻击间的合作关系,不再适用于具有共谋攻击关系的网络攻防场景。而博弈论可以在一定角度上解决共谋攻击场景中的非合作博弈问题,成为近年来的研究热点之一,张宝等利用博弈论分析了区块链共
14、识算法中存在的共谋攻击问题,利用精炼贝叶斯博弈构造共谋合约,分析求得共谋者之间的纳什均衡点,从而解决超过1/3 节点的共谋攻击问题11。文献10构建了一种基于演化博弈的共谋攻击抑制模型,通过刻画共谋车辆节点的不协作行为特征,量化构造了博弈收益矩阵,借助车辆节点信誉与博弈收益间的关系,抑制共谋车辆节点的恶意攻击行为。为此本文进一步在传统博弈论基础上,引入 A3C 多智能体强化学习模型,解决共谋攻击场景下防御策略如何高效选取的问题。本文的研究动机是:1)在攻防博弈模型构建方面,现有随机博弈模型将多个攻击者视作一个攻击群体作为一个博弈方,忽略了攻击者之间的合作关系,然而攻击者之间存在竞争抢夺资源或者
15、合作对抗的情况,导致模型与实际网络攻防情况存在差距。2)在模型求解方面,现有的研究大多采用动态规划、蒙特卡罗或时差法,但是随智能体数量指数增长。因此,多智能体系统策略空间非常大,在博弈模型求解时存在计算量大、计算复杂、算法难以收敛等问题,导致防御策略决策只能应用于节点数量较小的网络。针对上述问题,本文引入 A3C 算法12,相比于DQN等其他算法,A3C 具有更好的计算能力和更短的训练时间。该方法具有 3 方面优势:1)异步执行多个智能体,每个智能体并行执行各自的行动策略,消除了在学习中由于状态转变从而产生的样本之间的关联性;2)是在多核 CPU 上运行,无论在效率还是在节省资源方面都强于一般
16、的强化学习方法;3)是能够处理离散、连续型动作的强化学习任务。A3C 和DQN 不一样,不使用经验回放记忆,A3C 网络中使用多个智能体,且每个智能体用不同的策略进行并行学习,然后整合这些智能体获得的经验形成一个全局智能体,因此,应用到策略选取方面具有更强的灵活性和可扩展性。本文主要贡献如下:1)提出了一种基于 A3C 智能体学习框架的随机博弈模型,提高大规模对抗场景下的防御决策速度。现有的随机博弈模型在求解博弈均衡方面存在收敛慢、复杂度高等问题,使得网络防御策略选取效率较低,针对此问题,本文将深度强化学习中的A3C 算法引入到随机博弈中。多个智能体异步并行,并且每个智能体遵循各自制定的策略,
17、进一步消除网络模型在训练过程中产生的状态转移样本之间的关联性,数值实验结果表明,在计算速率和收敛性都优于现有博弈决策方法。2)引入系数 滋 刻画攻击合作共谋系数,依据攻击共谋关系,选择更有针对性的防御策略,防御收益相应更高。由于攻击者之间可能合作共谋实施攻击,因此,如何在博弈模型中刻画攻击共谋对策略选择的影响是个难点问题,本文从群智能体的性格特征角度进行分析,设定攻击者的性格类型,引入攻击效率系数 滋 研究攻击者之间合作与非合作两种情况下的攻击回报,从而得出不同情况下的网络防御策略选取方案,使得模型更贴近网络攻击实际,更具合理性。改变了以往单一从防御视角进行策略选择的不足,防御者可以依据攻击共
18、谋关系,选择更有针对性的防御策略,防御收益相应更高。1攻防随机博弈模型构建1.1攻防博弈分析攻防过程是一个多阶段博弈过程,攻防双方在每个阶段执行动作后获得当前回报,每个阶段当前回报的总和就是整个攻防过程中的总收益,博弈的481 期1 期目的就是使总收益最大。攻防双方的收益受到双方所选动作的影响,当前状态双方所选的动作不仅影响到当前状态的立即回报,还会通过状态转移概率影响后续的攻防状态。当防御者检测到网络受到攻击时,开始博弈分析,具体博弈过程如下:1)攻防双方都检测当前网络状态;2)攻防双方根据收益函数 U 制定策略选取攻防动作;3)进攻和防守双方在执行完动作后,都收到一个立即回报 R;4)系统
19、按照状态转移概率转变到下一个状态;5)重复步骤 1)步骤 4),直到网络转移到安全状态。1.2深度强化学习深度强化学习遵循随机博弈过程,深度强化学习框架如图 1 所示。拥有许多个智能体和许多个状态,在多个智能体构成的环境中,智能体通过一起作用,迫使状态发生转变,智能体联合行动获得的奖励由智能体的策略决定。图 1深度强化学习框架Fig.1Deep reinforcement learning framework模型假设:1)攻防双方都是理性的;2)攻防双方都已知网络状态转移概率;3)已知 t 阶段的状态以及双方在相应状态下可以采取的行动;4)双方在 t 阶段采取的行动会被在 t+1 阶段的对手观
20、察到。定义 1.网络攻防博弈模型(network attack-defensegame model,NADGM)是一个九元组,即 NADGM=(N,S,M,仔,T,滋,酌,R,U),其中:1)N=(N1,N2,Nn)是参与网络攻防博弈的局中人集合;2)S=(S1,S2,Sn)是网络状态集合;3)M=(M1,M2,Mn)是参与者动作集合;4)仔=(仔1,仔2,仔n)为策略集合。策略是参与者动作的规则,而不是动作本身;5)T 为状态转移概率;6)滋(0臆滋臆1)为攻击者在实际攻击中的攻击效率。该值可通过攻击者间的合作关系而改变,从而影响立即回报;7)酌(0臆酌臆1)为收益折扣因子,表示参与者对未来
21、收益的偏好。当 酌=0,表示该策略只考虑当前的即时收益;当 酌=1,表示参与者更关心未来的累积收益;8)R=(Ra,Rd)是参与者的立即回报;9)U=(U1,U2,Un)是参与者的收益函数集合。1.3攻防策略收益量化定义 滋(0臆滋臆1)为攻击方群体攻击合作系数。当 滋=0 时,表示该攻击方不合作,导致攻击收益提升率最低,当 滋=1 时,表示攻击方彼此完全信任合作,此时攻击收益提升率达到最大。攻击成本 SAC表示攻击者一次攻击行动的资源消耗,包括资源消耗、伪装代价等。攻击收益 SAR表示攻击者进行攻击所得到的资源。由式(1)计算。SAR(a,d)=SDC(d)-(1-滋)SAC(a)(1)其中
22、,a 为攻击策略;d 为防御策略;防御成本 SDC分为运作成本 SOcost和消极成本 SNcost。运作成本是指防御攻击所消耗的资源。消极成本是指网络受到攻击后,在一段时间内防御方可能遭受的社会损失,比如网络带宽、响应时间等服务性能下降,客户数据丢失、泄露等。由式(2)计算。SDC(d)=滋SOcost(d)+SNcost(d)(2)防御补偿 SDR表示防御者进行防御后所得到的补偿。包括直接补偿和反击补偿。防御直接补偿是指防御者进行防御后,防御者获得的直接补偿情况。反击补偿表示防御者利用攻击者攻击时留下的痕迹对攻击者进行投诉、追究责任得到的补偿。由式(3)计算。SDR(a,d)=(1-滋)S
23、AC(a)-SDC(d)(3)由于网络攻防双方具有目标对立性,因此,本文定义 SAR+SDR=0,攻防之间为 0 和博弈,即进攻方的收益就是防御方的损失。1.4群智能体特征刻画性格特征由实数表征,表示面对环境变化的个体意图。攻击者的行为选择取决于该智能体的性格特征和该行为的相关回报。对于智能体 i,定义性格特征:胡浩等:基于随机博弈与 A3C 深度强化学习的网络防御策略优选4910 卷指挥与控制学报10 卷指挥与控制学报(4)对于 n 个性格特征定义的奖励函数用向量表示:(5)奖励函数表示性格特征对智能体行为的作用程度,当选择动作 mi时,所采取的动作的效果由式(6)评估:(6)对于所有攻击者
24、,假定每个智能体具有 3 种性格特征:“冒险”(1),“一般”(2)和“保守”(3),影响着攻击者采取何种行为。“冒险”的攻击者倾向于独立完成攻击任务,而“一般”和“保守”的攻击者倾向于合作攻击目标。性格特征定义如下:1)冒险(1):攻击智能体沿着风险方向,即在防御等级增大的方向,因此,这种性格特征使得智能体更可能将环境识别为“低风险”状态。2)一般(2):攻击智能体沿着与风险相反方向,即在防御等级减小的方向上,因此,这种性格特征使得智能体更可能将环境识别为“高风险”状态。3)保守(3):攻击智能体倾向于聚集在一起,以减少被攻击检测的概率。这种性格特征使得攻击智能体一起合作。攻击者采取什么行为
25、与环境风险有关,假设环境 Ft为防御方当前节点防御系数,Fm为防御方最高防御系数,由此定义智能体识别环境状态为 兹(高风险)概率:(7)由于性格特征归一化,选择阈值函数:(8)因此,如果“冒险”(1)占主导,该智能体识别环境为高风险的概率将降低。反之,当“一般”(2)和“保守”(3)占主导时,该智能体识别环境为高风险的概率将增大。2防御策略选取算法2.1基于 A3C 的智能体学习框架A3C 算法中,将基于价值的强化学习 Q-learn原ing 视作“评论家”(critic),将策略梯度法视作“演员”(actor),通过两种算法相结合得到了演员-评论家算法。同时在更新网络参数时,通过优势函数来确
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 随机 博弈 A3C 深度 强化 学习 网络 防御 策略 优选
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。