基于分配策略优化算法的智能防空任务分配.pdf
《基于分配策略优化算法的智能防空任务分配.pdf》由会员分享,可在线阅读,更多相关《基于分配策略优化算法的智能防空任务分配.pdf(12页珍藏版)》请在咨信网上搜索。
1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023基于分配策略优化算法的智能防空任务分配基于分配策略优化算法的智能防空任务分配刘家义1,2,王刚1,付强1*,郭相科1,王思远1,2(1.空军工程大学 防空反导学院,陕西 西安 710051;2.空军工程大学 研究生院,陕西 西安 710051)摘要摘要:针对分配策略最优算法在大规模场景中求解速度不足的问题,基于马尔可夫决策过程,将深度强化学习与其相结合,将大规模防空任务分配问题进行智能化求解。根据大规模防空作战特点,利用马尔可夫决策过程
2、对智能体进行建模,构建数字战场仿真环境;设计防空任务分配智能体,通过近端策略优化算法,在数字战场仿真环境中进行训练。以大规模防空对抗任务为例,验证了该方法的可行性和优越性。关键词关键词:分配策略优化算法;任务分配;马尔可夫决策过程;深度强化学习;智能体中图分类号:TP391.9 文献标志码:A 文章编号:1004-731X(2023)08-1705-12DOI:10.16182/j.issn1004731x.joss.22-0432引用格式引用格式:刘家义,王刚,付强,等.基于分配策略优化算法的智能防空任务分配J.系统仿真学报,2023,35(8):1705-1716.Reference fo
3、rmat:Liu Jiayi,Wang Gang,Fu Qiang,et al.Intelligent Air Defense Task Assignment Based on Assignment Strategy Optimization AlgorithmJ.Journal of System Simulation,2023,35(8):1705-1716.Intelligent Air Defense Task Assignment Based on Assignment Strategy Optimization AlgorithmLiu Jiayi1,2,Wang Gang1,Fu
4、 Qiang1*,Guo Xiangke1,Wang Siyuan1,2(1.Air and Missile Defense College,Air Force Engineering University,Xian 710051,China;2.Graduate College,Air Force Engineering University,Xian 710051,China)Abstract:Aiming at the insufficient solving speed of assignment strategy optimization algorithm in large-sca
5、le scenarios,deep reinforcement learning is combined with Markov decision process to carry out the intelligent large-scale air defense task assignment.According to the characteristics of large-scale air defense operations,Markov decision process is used to model the agent and a digital battlefield s
6、imulation environment is built.Air defense task assignment agent is designed and trained in digital battlefield simulation environment through proximal policy optimization algorithm.The feasibility and advantage of the method are verified by taking a large-scale ground-to-air countermeasure mission
7、as an example.Keywords:assignment strategy optimization algorithm;task assignment;Markov decision process;deep reinforcement learning;agent0引言引言防空反导作战实际上是一个持续决策的过程,需要针对战场局势的变化,作出适应性较好的决策,任务分配是其中的重要一环,其目的是合理分配资源、最大化防空作战效能。现有的研究中常提及目标分配和任务分配1-4两个概念,二者存收稿日期:2022-04-29 修回日期:2022-06-30基金项目:国家自然科学基金(62106
8、283)第一作者:刘家义(1996-),男,博士生,研究方向为深度强化学习、智能辅助决策。E-mail:通讯作者:付强(1988-),男,副教授,博士,研究方向为智能辅助决策、指控模型。E-mail:fuqiang_第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-在很多共性,但又不完全相同。任务分配可看作是在目标分配基础上提出的概念,当作战任务被分解为不同类型的任务后,目标分配将转化为任务分配5。本文结合目标分配和任务分配的研究成果,针对大规模防空作战的任务分配问
9、题进行研究。目前,大多数研究都是单次静/动态打击式目标分配,但防空作战是一个动态过程,在此过程中,其面临的威胁可能是大规模的体系空袭,也可能是小规模的战术偷袭,同时,火力单元和来袭目标的数量也在不断变化。因此,动态武器目标分配(dynamic weapon target assignment,DWTA)是防空反导指控系统亟待解决的重要理论问题6。DWTA的研究主要有多级武器-目标分配7-8、基于马尔可夫决策过程最优化的分配策略优化算法9。尽管这些方法在不断改进,但是对大规模的武器目标分配问题的求解速度仍然略显不足10。深度强化学习(DRL)是深度学习(DL)与强化学习(RL)的结合,20世纪9
10、0年代以来,其发展为指控系统的智能化提供了动力,其和指控系统的结合在协同作战、精准制导等方面产生了巨大的效应11。其利用马尔可夫决策过程(Markov decision process,MDP)对智能体及其交互环境完成建模后,即可利用相应的方法对问题进行求解,具有较快的反应性和较高的动态性12。因此,本研究基于MDP将分配策略最优算法结合DRL方法,利用深度神经网络的高速运算能力求解MDP,弥补了分配策略最优算法在求解速度上的不足,解决了大规模防空任务分配问题。1相关工作相关工作1.1 分配策略优化算法分配策略优化算法目标分配可以分为静态和动态。其中,DWTA考虑了战场态势随时间而变化,比静态
11、的目标分配更切合实际问题的需要,逐渐成为研究的热点。但DWTA的求解也因为约束条件多而面临着计算复杂度的挑战。在 DWTA 的求解方法中,有一类方法称为分配策略优化算法,此类方法利用了MDP的动态性来求解该问题13-14。其中,影响较大的是韩松臣的基于马尔可夫决策的动态WTA过程15,提出可基于马尔可夫动态系统,通过随机服务系统输入过程的最优控制,建立目标分配决策模型15,在一定假设条件下,将DWTA分为策略优化和匹配优化2个阶段。陈英武等在此基础上用五元组S A P r V定义 DWTA 的MDP,提出了一种混合的最优策略改进算法,其中,S为状态空间,A为方案集合,P为转移概率矩阵,r为收益
12、函数,V为目标函数。用MDP的无限阶段平均模型(式1)来描述目标函数V,用来求解大规模的DWTA问题16。V(i)=limN1Ns=1NE(Rs(i)n1=i)=limN1Ns=1N j jSr(j)pns=j n1=i j(1)式中:V(i)为武器系统从状态i出发所获得的长期平均收益;pns=jn1=i j为武器系统采用策略在第一个目标到达时所处状态为i,于第s个目标到达时转移到状态j的s-1步转移概率。何鹏等17将策略分配优化算法应用于任务分配问题中,将其描述为一个分阶段的序列决策过程,在小规模任务分配寻优中效果较为理想。尽管许多研究在不断改进分配策略最优算法18-20,但依然无法完全解决
13、计算复杂度的难题,在求解大规模DWTA时速度仍略显不足,实时性不太理想21。1.2 深度强化学习深度强化学习RL的思路是利用试错法和奖励来训练智能体学习行为。RL的基本环境是一个马尔可夫决策过程。一 个 马 尔 可 夫 决 策 过 程 有 五 元 素,即S A R P,其中,S代表状态集合,A代表动作集合,R代表奖励函数,P代表状态转移概率,代表折扣因子。其基本框架如图1所示。1706第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023刘家义,等:基于分配策略优化算法的智能防空任务分配http:/www.china-智能体(agent)从环境中感知当前状态(stat
14、e),然后做出相应的行为(action),得到对应的奖励(reward)。然而在实际问题中,状态往往十分复杂,导致传统RL存在维数灾难的问题22。DL利用深度神经网络作为函数拟合器,与RL结合形成了DRL23,有效解决了维数灾难的问题24。其中,DQN算法25将卷积神经网络和Q学习结合用于决策,在自动驾驶、机器人控制、无人机导航等多个领域取得应用成果26-28。本研究旨在将解决动态目标分配问题的分配策略优化算法,用于求解任务分配问题,同时结合DRL方法,克服分配策略优化算法在大规模场景中求解速度上的不足。2问题描述问题描述2.1 目标分配与任务分配目标分配与任务分配工作任务分配与工作目标分配两
15、者求解的问题模型以及解决问题的方法大同小异,分配本质是一样的29。随着武器系统和作战方式的不断发展,目标分配问题显示出一些局限性,而任务分配改变了目标分配火力单元-目标的模式,形成任务-目标的分配模式,在火力单元和目标数都相同的情况下,任务分配较目标分配有以下优势:(1)任务分配更加灵活,有更多分配结果供选择。将任务分解为跟踪任务和拦截任务,此时将传感器和拦截器灵活组合,可以虚拟出更多的火力单元。(2)任务分配抗毁性更强。在目标分配中,若火力单元的传感器或发射装置遭摧毁,这个火力单元将不能继续作战。而在任务分配模式下,只要该火力单元还可以完成部分协同作战任务,就可以继续参加任务分配。(3)任务
16、分配可实施性更强。具体的拦截过程涉及到多个子任务,这些任务之间有较强的时间与空间的约束,任务分配可以对这些子任务进行合理配置,最大化作战效能。虽然任务分配有许多优势,但面对大规模复杂场景,还需要具有以下几种能力:(1)实时的态势处理能力随着空袭网络化作战的发展,高实时、高动态的战场态势成为防空反导作战的主要挑战之一。因此,必须具有实时的战场态势分析和处理能力。(2)动态的要素调配能力基于要素的集成分布式协同作战是应对空域网络化的发展趋势。分散部署的要素资源需要进行协同作战,形成虚拟作战联盟,以作战要素集成的方式动态调配、灵活组合。需要动态的要素调配能力。(3)高速的信息计算能力基于要素集成的作
17、战模式带来了武器组合的爆炸式增长,大量的实时信息数据处理成为主要挑战之一。高速的信息计算能力是实时地在众多组合之中快速寻找最优结果、最大化作战效能的根本保证。2.2 智能防空任务分配智能防空任务分配为充分发挥任务分配的优势并最大程度上达到上述3种能力,本文基于分配策略最优算法的思想,将该问题建模为MDP并用DRL来求解,用智能化的方法增强实时性和计算能力。本文研究的是大规模防空任务分配问题,目的是在保护对象受损最小时使用最少的资源。因此本研究的优化目标为求解最优的策略函数*,最大化期望累积奖励值为图1 强化学习基本框架Fig.1 Basic framework of reinforcement
18、 learning 1707第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-maxE t=0Ttrt s.t.st+1p(|stat)at(|st)t=0 1 T-1(2)式中:p(|st at)为t时刻的状态转移概率。此时任务分配问题转化成了利用RL算法在状态转移概率未知情况下求解MDP,RL算法求解的核心思路是采用时间差分方法估计动作-值函数:Q(s a)=E tTtrt|s0=s a0=a(3)Q(stat)Q(stat)+r(stat)+Q(st+1at+
19、1)-Q(stat)(4)(s)=argmaxaQ(s a)(5)式中:Q(s a)为状态动作值-函数,表示在状态s下执行动作a,后续动作选取遵从策略所获得的期望总奖励;为学习率,表示新信息对旧信息的影响程度;Q为更新后的估计值。2.3 MDP建模建模对于DRL而言,状态空间、动作空间和奖励函数的定义都十分重要,必须满足合理性和完整性,本文的状态空间、动作空间和奖励函数设计如下。状态空间:红方受保护的单位状态、传感器状态、拦截器状态;蓝方单位基本信息以及可跟踪和可拦截的蓝方单位的状态。动作空间:动作分为选择跟踪的单位、选择拦截的单位、选择拦截的时机和用于拦截的资源数量。奖励函数:如果只在每局最
20、后一步给出胜利或者失败的奖励值,可以给智能体最大限度的学习空间,但会导致奖励值过于稀疏,智能体探索到获胜状态的概率很低。为了较好地平衡智能体的探索和学习,本文的奖励函数为R=5m+2n-5i+j-100 失败5m+2n-5i+j 胜利 (6)式中:m为拦截高价值数量;n为拦截高威胁单位数量;j为拦截空对地导弹数量;i为要地被攻击次数。拦截高价值单位加5分,拦截高威胁目标加2分,拦截空对地导弹加1分,要地被攻击1次扣5分,超过3次判定为失败,扣100分。3基于保卫要地任务的环境设计基于保卫要地任务的环境设计在DRL的训练中,智能体与环境交互进行试错是十分关键的环节。为了解决军事博弈对抗场景交互试
21、错成本高的难题,在前期工作中30已构建了一个高仿真度的数字战场,将物理环境较好地映射到虚拟环境中。本研究在智能化目标分配的基础上,依据任务分配问题的需求将仿真环境设计进一步完善。3.1 交互场景交互场景数字战场主要负责战场环境的呈现和交互过程的模拟,包括模拟每个单位的行为逻辑和互相攻击的毁伤计算。根据任务分配特点将各个单位分为传感器与拦截器,具体交互环境如图 2所示。3.2 数据交互数据交互本研究在数据交互流程中增加了协议模块,包含了数字战场与智能体交互的接口,主要作用是将数字战场与智能体之间交互信息的序列化、传输和反序列化。一次完整的数据交互流程如图3所示。图2 交互环境Fig.2 Inte
22、raction environment 1708第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023刘家义,等:基于分配策略优化算法的智能防空任务分配http:/www.china-4面向防空任务分配的深度强化学面向防空任务分配的深度强化学习方法习方法4.1 训练框架设计训练框架设计在使用DRL方法求解问题之前,需要先对智能体进行训练,通过不断与环境交互,让智能体学习到有效策略,优化神经网络参数。本文的智能体训练框架如图4所示。在交互方面,智能体需要输入的是状态信息和奖励,输出则是动作信息,而仿真环境需要输入的是作战指令,输出的是战场态势信息。因此,智能体要和环境进
23、行交互,需要根据定义的MDP模型,将环境输出的数据转换为状态信息,将智能体输出的动作转换为作战指令。在训练方面,智能体将与环境交互得到的数据输入RL算法,通过计算出的loss来更新网络参数。如此迭代,不断优化智能体的策略。4.2 训练网络结构设计训练网络结构设计深度神经网络是DRL方法解决大规模复杂问题的关键,网络结构的设计必须符合场景需求。结合3.2节中的MDP模型和大规模防空任务分配问题需要,设计网络结构如图5所示。图3 数据流程Fig.3 Data flow chart图4 智能体训练框架Fig.4 Agent training framework图5 神经网络结构Fig.5 Neura
24、l network structure 1709第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-分别输入状态空间定义的几种状态,经过2层FC-ReLU层进行特征提取后再合并作为基础数据,分别输入到价值网络和策略网络。在价值网络中,基础数据再经过 2 层 FC-ReLU 层和 1 层FC层,输出当前态势下的预估胜率,作为评价此阶段决策好坏的一个指标。在策略网络中,基础数据经过1层FC-ReLU层形成全局特征,与经过特征提取后的蓝方单位状态信息一起输入到FC-ReLU
25、层,继而输出动作。4.3 近端策略优化算法近端策略优化算法如何快速训练智能体,优化神经网络参数,让智能体输出高水平的策略,也是本研究的核心问题之一。本研究选用近端策略优化(proximal policy optimization,PPO)算法作为图 5 中的 RL 算法,用于优化神经网络参数。PPO算法直接优化策略函数(as),其中,s为状态,a为动作,计算累积期望回报的策略梯度,保证每步迭代获得一个“更好”的策略,进而得到使整体回报最大化的策略参数。对于PPO中的损失函数,也有不同的定义方法,如无裁剪或惩罚、带裁剪、带KL 惩罚等,从 MuJoCo 实验31来看,带裁剪的PPO实现简单,而且
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分配 策略 优化 算法 智能 防空 任务
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。