分销赏收藏举报申诉 / 12

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于随机博弈与A3C深度强化学习的网络防御策略优选.pdf

基于随机博弈与A3C深度强化学习的网络防御策略优选.pdf

上传人：自信****多点

文档编号：2343166

上传时间：2024-05-28

格式：PDF

页数：12

大小：6.26MB

《基于随机博弈与A3C深度强化学习的网络防御策略优选.pdf》由会员分享，可在线阅读，更多相关《基于随机博弈与A3C深度强化学习的网络防御策略优选.pdf（12页珍藏版）》请在咨信网上搜索。

1、基于随机博弈与 A3C 深度强化学习的网络防御策略优选胡浩1赵昌军1刘璟1宋昱欣1，*姜迎畅1张玉臣1（1.战略支援部队信息工程大学，郑州 450001）摘要网络资源的有限性和攻防对抗的动态性导致最优防御策略难以选取，将深度强化学习引入攻防随机博弈建模领域，通过构建网络攻防 actor 策略网络和 critic 价值网络，结合随机博弈模型构建了网络攻防博弈决策模型总体结构，在此基础上引入异步优势演员评论家算法（asynchronous advantage actor-critic，A3C）智能体学习框架设计了防御策略选取算法；针对现有方法未考虑攻击方群体间的共谋攻击，引入群智能体性格特征，建立

2、合作系数滋来刻画攻击者之间的合作对攻防策略收益的影响，进而得出对防御策略选取的影响，构建的博弈决策模型更符合攻防实际情况。实验结果表明，该方法的策略求解速度要优于现有方法，同时由于考虑了攻击合作关系，能够用于分析攻击者群体间合作关系对防御者决策的影响，防御策略选取更有针对性，期望防御收益更高。关键词网络攻防，最优防御决策，随机博弈，多智能体，A3C 算法引用格式胡浩，赵昌军，刘璟，等.基于随机博弈与 A3C 深度强化学习的网络防御策略优选 J.指挥与控制学报，2024，10（1）：47-58DOI10.3969/j.issn.2096-0204.2024.01.0047网络防御策略优选，作

3、为主动防御的重要环节之一表示在复杂的网络环境中，防御方根据攻击者的特点及时选择出合适的防御策略，既要保证系统的安全，又要减少资源的消耗。随着主动网络防御技术研究的不断深入，各式各样的防御策略方法应运而生，运用在不同的网络环境所面临的各自威胁。但面对网络的复杂攻防对抗特性，如何快速找出一个及时应对、效率最高的防御策略是研究的重难点。AIphaGo 和 AIphaStar 的突破性发展，为深度强化学习在网络攻防推演应用中提供了新方向。基于攻防推演的防御决策研究已经有了一定的进展，如文献1采用矩阵博弈和马尔科夫决策过程分析和刻画网络攻防。姜伟等构建了一种攻防随机博弈模型以刻画网络安全攻防矛盾，并解决

4、最优防御策略选取问题2。王元卓等提出了基于随机博弈模型的网络攻防量化分析方法，通过搭建网络攻防实验架指挥与控制学报JOURNAL OF COMMAND AND CONTROL第 10 卷第 1 期2024 年 2 月收稿日期 2022-01-29录用日期 2023-04-03国家自然科学基金（61902427）资助*通信作者邮箱 Vol.10，No.1February，2024Network Defense Strategy Optimization Based on Stochastic Gamingand A3C Deep Reinforcement LearningHU Hao1ZHAO

5、 Changjun1LIU Jing1SONG Yuxin1，*JIANG Yingchang1ZHANG Yuchen1（1.Strategic Support Force Information Engineering University,Zhengzhou 450001,China）AbstractThe limitation of network resources and the dynamics of attack-defense confrontation make it difficult to select the optimal defensestrategy.There

6、fore,the deep reinforcement learning is introduced into the field of attack and defense stochastic game modeling.Byconstructing the network attack-defense actor strategy network and critical value network,the stochastic gaming model is combined,the overallarchitecture of the game decision-making mod

7、el for network attack-defense is constructed.On this basis,the asynchronous advantageactor-critical（A3C）agent learning framework is introduced to design the defense strategy selection algorithm.In view of the fact that theexisting methods do not consider the collusion attacks among the attacker grou

8、ps,the personality characteristics of group agents are introducedby establishing cooperation factor 滋 to describe the impact of attacker cooperation on the benefits of attack-defense strategies as well as that onthe selection of defense strategies.Therefore,the constructed game decision-making model

9、 more conforms to the realistic attack-defensesituation better.The experimental results show that strategy calculating speed of the proposed method is better than the existing method.At thesame time,as the attack cooperation relationship is considered,which can be used to analyze the impact of the c

10、ooperation relationship amongattacker groups on the decision-making of the defenders.The defense strategy selection is more targeted and the expected defense benefits areexpected to be higher.Key wordscyber security,optimal defense decision-making,stochastic gaming,multi-agent,A3C algorithmCitationH

11、U H,ZHAO C J,LIU J,et al.Network defense strategy optimization based on stochastic gaming and A3C deep reinforcementlearningJ.Journal of Command and Control,2024,10（1）:47-5810 卷指挥与控制学报10 卷指挥与控制学报构来研究随机博弈模型的快速建模方法3。文献4通过构建不完全信息随机博弈模型来研究移动中目标的防御决策问题，并通过实验数据证明了这个模型比完全信息随机博弈模型5具有更高的现实意义。张红旗等在不完全信息随机博弈中引

12、入了 Q-learning算法求解纳什均衡。强化学习是机器学习的一个分支6，智能体可以知道自己在什么状态下采取什么行动，并通过强化学习与环境互动获得最大的回报。然而 Q-learning 是基于时间差分法的典型强化学习算法，该算法的主要思想是构造一个带有状态和动作的 Q 表来存储 Q 值，然后根据 Q 值选择能够获得最大收益的动作。在此基础上，文献7对网络攻防进行博弈分析，使用 WoLF-PHC 算法求解贝叶斯纳什均衡，提出了一种智能防御决策方法。文献8基于 Q-learning 研究了无线动态环境下物理层系统功率分配策略。深度强化学习有机融合了强化学习和神经网络，深度强化学习（deep Q-

13、learning network，DQN）算法是于 2013 年被提出的第一个深度强化学习，其对 Q-learning 算法进行了改进，用深度学习中的卷积神经网络生成目标 Q 值。文献9利用 DQN求解博弈均衡，得出最优移动策略。但是，DQN 算法使用卷积神经网络结构，时间和空间的复杂度都较高，并且在不完全信息情况下，DQN 求解能力有限，性能下降，难以发挥效果。同时，随着网络共谋攻击10的出现，传统双人博弈模型难以刻画攻击间的合作关系，不再适用于具有共谋攻击关系的网络攻防场景。而博弈论可以在一定角度上解决共谋攻击场景中的非合作博弈问题，成为近年来的研究热点之一，张宝等利用博弈论分析了区块链共

14、识算法中存在的共谋攻击问题，利用精炼贝叶斯博弈构造共谋合约，分析求得共谋者之间的纳什均衡点，从而解决超过1/3 节点的共谋攻击问题11。文献10构建了一种基于演化博弈的共谋攻击抑制模型，通过刻画共谋车辆节点的不协作行为特征，量化构造了博弈收益矩阵，借助车辆节点信誉与博弈收益间的关系，抑制共谋车辆节点的恶意攻击行为。为此本文进一步在传统博弈论基础上，引入 A3C 多智能体强化学习模型，解决共谋攻击场景下防御策略如何高效选取的问题。本文的研究动机是：1）在攻防博弈模型构建方面，现有随机博弈模型将多个攻击者视作一个攻击群体作为一个博弈方，忽略了攻击者之间的合作关系，然而攻击者之间存在竞争抢夺资源或者

15、合作对抗的情况，导致模型与实际网络攻防情况存在差距。2）在模型求解方面，现有的研究大多采用动态规划、蒙特卡罗或时差法，但是随智能体数量指数增长。因此，多智能体系统策略空间非常大，在博弈模型求解时存在计算量大、计算复杂、算法难以收敛等问题，导致防御策略决策只能应用于节点数量较小的网络。针对上述问题，本文引入 A3C 算法12，相比于DQN等其他算法，A3C 具有更好的计算能力和更短的训练时间。该方法具有 3 方面优势：1）异步执行多个智能体，每个智能体并行执行各自的行动策略，消除了在学习中由于状态转变从而产生的样本之间的关联性；2）是在多核 CPU 上运行，无论在效率还是在节省资源方面都强于一般

16、的强化学习方法；3）是能够处理离散、连续型动作的强化学习任务。A3C 和DQN 不一样，不使用经验回放记忆，A3C 网络中使用多个智能体，且每个智能体用不同的策略进行并行学习，然后整合这些智能体获得的经验形成一个全局智能体，因此，应用到策略选取方面具有更强的灵活性和可扩展性。本文主要贡献如下：1）提出了一种基于 A3C 智能体学习框架的随机博弈模型，提高大规模对抗场景下的防御决策速度。现有的随机博弈模型在求解博弈均衡方面存在收敛慢、复杂度高等问题，使得网络防御策略选取效率较低，针对此问题，本文将深度强化学习中的A3C 算法引入到随机博弈中。多个智能体异步并行，并且每个智能体遵循各自制定的策略，

17、进一步消除网络模型在训练过程中产生的状态转移样本之间的关联性，数值实验结果表明，在计算速率和收敛性都优于现有博弈决策方法。2）引入系数滋刻画攻击合作共谋系数，依据攻击共谋关系，选择更有针对性的防御策略，防御收益相应更高。由于攻击者之间可能合作共谋实施攻击，因此，如何在博弈模型中刻画攻击共谋对策略选择的影响是个难点问题，本文从群智能体的性格特征角度进行分析，设定攻击者的性格类型，引入攻击效率系数滋研究攻击者之间合作与非合作两种情况下的攻击回报，从而得出不同情况下的网络防御策略选取方案，使得模型更贴近网络攻击实际，更具合理性。改变了以往单一从防御视角进行策略选择的不足，防御者可以依据攻击共

18、谋关系，选择更有针对性的防御策略，防御收益相应更高。1攻防随机博弈模型构建1.1攻防博弈分析攻防过程是一个多阶段博弈过程，攻防双方在每个阶段执行动作后获得当前回报，每个阶段当前回报的总和就是整个攻防过程中的总收益，博弈的481 期1 期目的就是使总收益最大。攻防双方的收益受到双方所选动作的影响，当前状态双方所选的动作不仅影响到当前状态的立即回报，还会通过状态转移概率影响后续的攻防状态。当防御者检测到网络受到攻击时，开始博弈分析，具体博弈过程如下：1）攻防双方都检测当前网络状态；2）攻防双方根据收益函数 U 制定策略选取攻防动作；3）进攻和防守双方在执行完动作后，都收到一个立即回报 R；4）系统

19、按照状态转移概率转变到下一个状态；5）重复步骤 1）步骤 4），直到网络转移到安全状态。1.2深度强化学习深度强化学习遵循随机博弈过程，深度强化学习框架如图 1 所示。拥有许多个智能体和许多个状态，在多个智能体构成的环境中，智能体通过一起作用，迫使状态发生转变，智能体联合行动获得的奖励由智能体的策略决定。图 1深度强化学习框架Fig.1Deep reinforcement learning framework模型假设：1）攻防双方都是理性的；2）攻防双方都已知网络状态转移概率；3）已知 t 阶段的状态以及双方在相应状态下可以采取的行动；4）双方在 t 阶段采取的行动会被在 t+1 阶段的对手观

20、察到。定义 1.网络攻防博弈模型（network attack-defensegame model，NADGM）是一个九元组，即 NADGM=（N，S，M，仔，T，滋，酌，R，U），其中：1）N=（N1，N2，Nn）是参与网络攻防博弈的局中人集合；2）S=（S1，S2，Sn）是网络状态集合；3）M=（M1，M2，Mn）是参与者动作集合；4）仔=（仔1，仔2，仔n）为策略集合。策略是参与者动作的规则，而不是动作本身；5）T 为状态转移概率；6）滋（0臆滋臆1）为攻击者在实际攻击中的攻击效率。该值可通过攻击者间的合作关系而改变，从而影响立即回报；7）酌（0臆酌臆1）为收益折扣因子，表示参与者对未来

21、收益的偏好。当酌=0，表示该策略只考虑当前的即时收益；当酌=1，表示参与者更关心未来的累积收益；8）R=（Ra，Rd）是参与者的立即回报；9）U=（U1，U2，Un）是参与者的收益函数集合。1.3攻防策略收益量化定义滋（0臆滋臆1）为攻击方群体攻击合作系数。当滋=0 时，表示该攻击方不合作，导致攻击收益提升率最低，当滋=1 时，表示攻击方彼此完全信任合作，此时攻击收益提升率达到最大。攻击成本 SAC表示攻击者一次攻击行动的资源消耗，包括资源消耗、伪装代价等。攻击收益 SAR表示攻击者进行攻击所得到的资源。由式（1）计算。SAR（a，d）=SDC（d）-（1-滋）SAC（a）（1）其中

22、，a 为攻击策略；d 为防御策略；防御成本 SDC分为运作成本 SOcost和消极成本 SNcost。运作成本是指防御攻击所消耗的资源。消极成本是指网络受到攻击后，在一段时间内防御方可能遭受的社会损失，比如网络带宽、响应时间等服务性能下降，客户数据丢失、泄露等。由式（2）计算。SDC（d）=滋SOcost（d）+SNcost（d）（2）防御补偿 SDR表示防御者进行防御后所得到的补偿。包括直接补偿和反击补偿。防御直接补偿是指防御者进行防御后，防御者获得的直接补偿情况。反击补偿表示防御者利用攻击者攻击时留下的痕迹对攻击者进行投诉、追究责任得到的补偿。由式（3）计算。SDR（a，d）=（1-滋）S

23、AC（a）-SDC（d）（3）由于网络攻防双方具有目标对立性，因此，本文定义 SAR+SDR=0，攻防之间为 0 和博弈，即进攻方的收益就是防御方的损失。1.4群智能体特征刻画性格特征由实数表征，表示面对环境变化的个体意图。攻击者的行为选择取决于该智能体的性格特征和该行为的相关回报。对于智能体 i，定义性格特征：胡浩等：基于随机博弈与 A3C 深度强化学习的网络防御策略优选4910 卷指挥与控制学报10 卷指挥与控制学报（4）对于 n 个性格特征定义的奖励函数用向量表示：（5）奖励函数表示性格特征对智能体行为的作用程度，当选择动作 mi时，所采取的动作的效果由式（6）评估：（6）对于所有攻击者

24、，假定每个智能体具有 3 种性格特征：“冒险”（1），“一般”（2）和“保守”（3），影响着攻击者采取何种行为。“冒险”的攻击者倾向于独立完成攻击任务，而“一般”和“保守”的攻击者倾向于合作攻击目标。性格特征定义如下：1）冒险（1）：攻击智能体沿着风险方向，即在防御等级增大的方向，因此，这种性格特征使得智能体更可能将环境识别为“低风险”状态。2）一般（2）：攻击智能体沿着与风险相反方向，即在防御等级减小的方向上，因此，这种性格特征使得智能体更可能将环境识别为“高风险”状态。3）保守（3）：攻击智能体倾向于聚集在一起，以减少被攻击检测的概率。这种性格特征使得攻击智能体一起合作。攻击者采取什么行为

25、与环境风险有关，假设环境 Ft为防御方当前节点防御系数，Fm为防御方最高防御系数，由此定义智能体识别环境状态为兹（高风险）概率：（7）由于性格特征归一化，选择阈值函数：（8）因此，如果“冒险”（1）占主导，该智能体识别环境为高风险的概率将降低。反之，当“一般”（2）和“保守”（3）占主导时，该智能体识别环境为高风险的概率将增大。2防御策略选取算法2.1基于 A3C 的智能体学习框架A3C 算法中，将基于价值的强化学习 Q-learn原ing 视作“评论家”（critic），将策略梯度法视作“演员”（actor），通过两种算法相结合得到了演员-评论家算法。同时在更新网络参数时，通过优势函数来确

26、定模型输出策略动作的好坏。2.1.1基于价值的学习网络（critic）对于强化学习基于值函数相似，通过神经网络当作价值网络的相似函数。（9）采用 Q-learning 算法计算目标动作值时只注意下一动作的状态，这使得直接影响产生奖励 R 的对的价值，其余对只能通过动作值函数进行间接的影响，导致学习效率慢。为了提高网络防御决策的时效性，一个快速传播奖励 R 的方法是使用多步 Q-learning 算法，多步是指包括计算后续 n 步的状态。（10）这样就可以使得一个奖励 R 可以直接影响先前n 个对，更好地模拟历史经验，提高算法的学习效率。2.1.2基于策略的学习网络（actor）actor 策略

27、网络模型本质上是一个人工神经网络模型，包括 3 个层：输入层、隐含层和输出层，如图2 所示。网络权重和阈值将随着数据样本的训练而迭代调整，输入层和输出层之间的映射关系可以通过人工祌经网络模型来建立、训练和保存。actor 策略网络的目标是学习和优化策略，使收益最大化。策略网络模型的输入为状态特征，输出为图 2神经网络模型结构图Fig.2Neural network model structure diagram501 期1 期动作，状态特征包括网络状态，动作为攻防双方的决策行为。A3C 算法使用策略迭代更新网络中的权重参数兹。由于策略函数的目标是奖励最大化，因此，使用梯度上升算法来预测奖励的期

28、望 ERt。策略梯度的更新公式为：（11）其中，为在状态 st下选择动作 at的概率；为概率的对数乘以该动作的奖励Rt，据此更新权重参数兹；是对 ERt的无偏估计。上式表示奖励期望越高的动作，应该调高其被选取的概率。实际上，假设每个动作的奖励 Rt均为正，每个动作出现的概率会随着梯度上升算法不断提高，上述操作很大程度会减缓学习速率，同时使得梯度方差增大。因此，本文对式（11）增加标准化操作，从而降低梯度的方差。（12）通过奖励 Rt减去基线函数 bt（st）来学习策略函数，可以减少估计的方差，同时保持其无偏性。其中，基线函数 bt通过求解梯度更新参数兹来提高它的概率。2.1.3优势函数A

29、3C 算法中，策略函数仔作为“演员”，基线函数bt作为“评论家”。优势函数对“演员-评论家”算法进行修改，以更好地根据奖励对动作值进行估计。在式（11）策略梯度更新中，更新规则使用了折扣奖励 Rt用于通知智能体判断动作的好坏。然后进行网络更新，以确定该动作的好坏程度。参考竞争网络的模型架构，本文定义一个优势函数 A（st，at）。（13）在式（12）中，Rt-bt（st）使用动作优势函数代替，因为奖励 Rt可视为动作值函数 Q（st，at）的估计，基线 bt（st）可视为对状态值函数 V（st）的估计，即：（14）动作值函数是在一定时间内动作概率的期望，由状态值函数值 V（st）表示；式（

30、13）中，Q（st，at）-V（st）表示目前动作值函数相较于平均水平的差距。A3C 算法中不直接确定动作值 Q，动作值 Q 的估计值用 R 表示，最后得到优势函数：（15）优势函数表示当前行动和平均水平（值函数）相比的好坏程度，如果状态-动作值函数大于当前状态值函数，则优势函数为正，策略梯度的幅值为正，表示在该状态下采取当前行动是有利的，策略改进是积极的，策略网络参数能够向着收益增加的方向更新。综合攻防随机博弈模型、A3C 强化学习算法，得到基于 A3C 算法的攻防随机博弈模型总体结构，其中主要包括全局网络和多个并行线程，如图 3 所示。图 3基于 A3C 算法的攻防随机博弈模型总体结构图F

31、ig.3Overall structure diagram of attack and defense stochastic game model based on A3C algorithm胡浩等：基于随机博弈与 A3C 深度强化学习的网络防御策略优选5110 卷指挥与控制学报10 卷指挥与控制学报图 4实验网络拓扑Fig.4Experimental network topology表 1防火墙规则Table 1Firewall rules来源目标服务动作所有主机Web 服务器FTP，HTTP允许所有主机堡垒主机SMTP允许堡垒主机数据库服务器Oracle允许Ftp 服务器数据库服务器Ora

32、cle允许算法 1基于 A3C 强化学习随机博弈模型的防御决策算法输入：攻防模型 NADGM、折扣因子酌、策略网络学习率琢、价值网络学习率茁、策略网络参数兹，价值网络参数 w输出：防御动作 md，防御策略 d*1：初始化 S=（S1，S2，Sn）2：初始化攻击者性格姿=姿i，1i臆n3：初始化攻击者动作集合 MA=（m1A，m2A，mnA）4：初始化防御者动作集合 Md=（m1d，m2d，mnd）5：初始化全局的策略网络参数和价值网络参数兹G、wG6：初始化参与者的策略网络参数和价值网络参数兹1、兹2、w1、w2、7：计算攻防双方的立即回报 R 并初始化 Q=（QA，QD）8：/

33、求解纳什均衡9：st=get（E）/从网络 E 中获取当前网络状态10：Repeat：11：md=（md|st；兹i）/根据确定性策略选取防御动作 md12：st+1=get（E）/从网络 E 中获取新的网络状态13：同步全局策略网络参数：兹1兹G、兹2兹G、14：同步全局价值网络参数：w1wG、w2wG、15：对于每一个线程 i：16：计算优势函数 A（st，at）=R（st，at）-V（st）17：计算价值网络梯度：wi，=wi+18：计算策略网络梯度：兹i，=兹i+琢兹ilog（at|st；兹i）A（st，at）+着兹iH（st；兹i）19：异步更新全局策略网络参数：兹G 兹i，20

34、：异步更新全局价值网络参数：wG wi，21：Until：|wi-wi|滓，|兹i-兹i|滓22：Output d*23：end各个智能体和环境的交互机制如下：在某个状态st下，智能体利用策略网络选择并执行动作 a，获得即时奖励 r，并转移到下一状态 st+1；基于前后状态 st、st+1和即时回报 r 更新价值网络的网络参数，得到优势函数 A；基于状态 s、行动 a 和优势函数 A，更新策略网络的网络参数。重复迭代，直至学习到理想的网络参数。2.2最优策略选取算法在各个阶段中，算法使用攻防模型 NADGM 分析网络攻防，并根据价值网络求解纳什均衡，优化防御动作，作出防御决策。决策后，使用 A

35、3C 强化学习框架进行学习，计算价值网络和策略网络的梯度，最后更新网络参数，直到收敛。算法第 1 步耀第 6 步为攻防场景初始化，第 7 步耀第 9 步求解纳什均衡，第 10 步耀第 20 步根据每个阶段的网络状态对 Q 和仔d*进行更新来完成学习，第 21 步是收敛条件，第22 步输出相应的防御策略。具体算法如下：3实验仿真与分析3.1实验场景采用图 4 所示的典型网络信息系统拓扑结构进行模拟仿真，入侵主机位于外网，在非隔离区（demil原itarized zone，DMZ）部署 Web 服务器和堡垒主机，内网由 Ftp 服务器和数据库服务器组成。根据防火墙的安全策略，外部用户只能访问 We

36、b 服务器的 FTP 和HTTP 服务以及堡垒主机上的 SMTP 服务，关闭其他网络节点和端口，防火墙规则如表 1 所示。假设所有的攻击均来自外网，目标网络脆弱性信息如表 2 所示。3.1.1攻防动作集分析攻击者漏洞利用过程，得到各个状态的候选攻击动作集，A1=a1，a2，a6，A2=a4，a6，A3=a4，a6，A4=a3，a5，a6，A5=a5，a6，A6=渍。攻击者的动作描述如表 3 所示，同时还给出了攻击类型和攻击成本。3.1.2攻防随机博弈状态博弈状态 S=（S1，S2，S3，S4，S5，S6）；H1为入侵主机；H2为 Web 服务器；H3为堡垒主机；H4为 FTP服务器；H5为数据

37、库服务器。攻击者在各主机的权限521 期1 期有 3 种：不具任何权限（none）、具有普通用户权限（user）、具有 root 用户权限（root）。攻防随机博弈状态如图 5 所示。图 5攻防随机博弈状态图Fig.5Attack and defense random gaming state diagram假设攻击者目标是获取数据库服务器的超级管理员权限。根据防火墙规则，攻击者在 Web 服务器和堡垒主机上具有用户权限无法访问数据库服务器，攻击者通过多步攻击获取数据库服务器的超级管理员权限。具体过程如下：状态节点 S1表示攻击者获取入侵主机的超级管理员权限，进一步利用 Web 服务漏洞获取

38、Web 服务器的用户权限，状态跳转至 S2；或者利用堡垒主机的漏洞发动获取其用户权限，转移至状态 S3；然后利用堡垒主机的用户权限获取其超级管理员权限，并转移至状态 S4；接下来，可以直接利用数据库服务器漏洞获取超级管理员权限到达状态 S6；或者利用 Ftp 服务器漏洞获得用户权限到达状态 S5，通过 Ftp 服务器与数据库服务器连接关系，利用数据库服务器漏洞获取超级管理员权限到达状态 S6。攻防博弈状态描述如表 5 所示。表 5攻防博弈状态Table 5Attack and defense game states转移概率 T 由历史攻击数据、专家知识并结合上述设定的信息系统环境确定，如表 6

39、所示。3.1.3攻防策略收益计算根据历史攻击经验，本文设定性格特征1=“冒序号原子攻击名称执行权限攻击成本a1Ftp.rhost attack on Web Sever用户40a2plaintext command injection用户30a3Ftp.rhost attack on Ftp Sever用户60a4overwrite the host runc binary超级管理员50a5Oracle TNS Listener超级管理员50a6Noaction无权限要求0序号原子防御动作运作成本消极成本d1Patch Ftp.rhost on Web Sever1000d2Close r

40、sh on Web Sever50100d3Check variable data type and format500d4Patch Ftp.rhost on Ftp Sever1000d10Noanction00d5Close rsh on Ftp Sever50100d6Upgrade docker500d7Deletesuspiciousaccount800d8Access control TNS Listener600d9Patch Oracle TNS Listener700表 4防御动作描述Table 4Defense action description表 3攻击动作描述Tab

41、le 3Attack action description状态状态描述S1获取入侵主机超级管理员权限S2获取 Web 服务器用户权限S3获取堡垒主机用户权限S4获取堡垒主机超级管理员权限S5获取 Ftp 服务器用户权限S6获取数据库服务器超级管理员权限主机脆弱性漏洞 ID影响Web 服务器Buffer overflowCV2-2020-35227用户权限Ftp 服务器Ftp.rhostCVE-1999-0547用户权限数据库服务器Oracle TNSListenerCVE-2012-1675超级管理员权限堡垒主机plaintextcommandinjectionCVE-2014-3556用户权

42、限堡垒主机overwrite the hostrunc binaryCVE-2019-5736超级管理员权限表 2网络脆弱性信息Table 2Network vulneravility information胡浩等：基于随机博弈与 A3C 深度强化学习的网络防御策略优选5310 卷指挥与控制学报10 卷指挥与控制学报性格滋滋10.90.920.60.830.50.6表 6状态转移概率Table 6State transition probability表 7攻击者合作前后的滋值变化Table 7Changes in 滋 before and after attacker cooperati

45、6.1）Ra，d（s0，a1，d2）=（76.9，-76.9）Ra，d（s0，a1，d3）=（15.4，-15.4）Ra，d（s0，a2，d1）=（49.9，-49.9）Ra，d（s0，a2，d2）=（80.7，-80.7）Ra，d（s0，a2，d3）=（19.2，-19.2）S2Ra，d（s1，a4，d6）=（11.5，-11.5）Ra，d（s1，a4，d7）=（29.9，-29.9）S3Ra，d（s2，a4，d6）=（11.5，-11.5）Ra，d（s2，a4，d7）=（29.9，-29.9）S4Ra，d（s4，a3，d4）=（38.4，-38.4）Ra，d（s4，a3，d5）=（69.2

46、，-69.2）Ra，d（s4，a3，d8）=（13.8，-13.8）Ra，d（s4，a3，d9）=（19.9，-19.9）Ra，d（s4，a5，d4）=（42.3，-42.3）Ra，d（s4，a5，d5）=（73.0，-73.0）Ra，d（s4，a5，d8）=（17.7，-17.7）Ra，d（s4，a5，d9）=（23.8，-23.8）S5Ra，d（s4，a3，d4）=（17.7，-17.7）Ra，d（s4，a3，d5）=（23.8，-23.8）险”、2=“一般”、3=“保守”的攻击者数量比例为0.25、0.15、0.6。1=“冒险”的合作概率为滋=0，2=“一般”的合作概率为滋=0.5，

47、3=“保守”的合作概率为滋=1。各个性格的攻击者合作前后的滋值变化如表7 所示。1）情况 1：不考虑攻击者的合作关系滋1=0.9伊0.25+0.6伊0.15+0.5伊0.6=0.6152）情况 2：考虑攻击者之间的合作关系滋2=0.9伊0.25+0.6伊0.15伊0.5+0.8伊0.15伊0.5+0.6伊0.6=0.69计算攻防动作收益和损失，本文中 AR+DR=0，即攻即攻击者的收益等于防御者的损失，因此，只需计算攻击收益，考虑到攻防收益的实际意义，攻击收益取正值。采用 2.3 节方法对立即回报 R 进行量化，量化结果如表 8 和表 9 所示。3.2实验过程针对本文提出的模型和问题，分

48、别从攻击者合作与非合作两种情况进行实验，测试两种情况对防御者选取防御策略的影响。其中，有 8 个输入参数，本文实验设置如下：冒险型攻击者比例 0.25，一般型攻击者比例 0.15，保守型攻击者比例 0.6，策略网络学习率 0.5，价值网络学习率 0.5，策略网络参数0.8，价值网络参数 0.8，折扣因子 0.9。3.2.1面对非合作关系下的攻击者所采取的防御策略通过输入状态编号生成相应的防御策略，其中，纵坐标表示不同颜色的侯选防御策略被选择实施的概率，横坐标表示防御次数，线条表示各个防御策541 期1 期表 9非合作下攻击者的立即回报 RTable 9Immediate reward R fo

49、r non-cooperative attackers状态立即回报 RS1Ra，d（s0，a1，d1）=（52.3，-52.3）Ra，d（s0，a1，d2）=（82.5，-82.4）Ra，d（s0，a1，d3）=（19.7，-19.7）Ra，d（s0，a2，d1）=（61.1，-61.1）Ra，d（s0，a2，d2）=（92.3，-92.3）Ra，d（s0，a2，d3）=（23.6，-23.6）S2Ra，d（s1，a4，d6）=（16.4，-16.4）Ra，d（s1，a4，d7）=（35.8，-35.8）S3Ra，d（s2，a4，d6）=（16.4，-16.4）Ra，d（s2，a4，d7）=（

50、35.8，-35.8）S4Ra，d（s4，a3，d4）=（46.3，-46.3）Ra，d（s4，a3，d5）=（77.2，-77.2）Ra，d（s4，a3，d8）=（21.5，-21.5）Ra，d（s4，a3，d9）=（26.4，-26.4）Ra，d（s4，a5，d4）=（53.7，-53.7）Ra，d（s4，a5，d5）=（85.2，-85.2）Ra，d（s4，a5，d8）=（24.1，-24.1）Ra，d（s4，a5，d9）=（33.7，-33.7）S5Ra，d（s4，a3，d4）=（27.3，-27.3）Ra，d（s4，a3，d5）=（34.8，-34.8）略经过不断学习后的概率走向，各

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于随机博弈 A3C 深度强化学习网络防御策略优选

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。