![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于多智能体博弈强化学习的无人机智能攻击策略生成模型.pdf
《基于多智能体博弈强化学习的无人机智能攻击策略生成模型.pdf》由会员分享,可在线阅读,更多相关《基于多智能体博弈强化学习的无人机智能攻击策略生成模型.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 卷第 期 年 月系统工程与电子技术 文章编号:()网址:收稿日期:;修回日期:;网络优先出版日期:。网络优先出版地址:通讯作者引用格式:赵芷若,曹雷,陈希亮,等基于多智能体博弈强化学习的无人机智能攻击策略生成模型系统工程与电子技术,():犚犲 犳 犲 狉 犲 狀 犮 犲犳 狅 狉犿犪 狋:,():基于多智能体博弈强化学习的无人机智能攻击策略生成模型赵芷若,曹雷,陈希亮,赖俊,章乐贵(中国人民解放军陆军工程大学指挥控制工程学院,江苏 南京 )摘要:如何利用以攻击型无人机(,)为代表的新型作战力量增强战斗力,是智能化、无人化战争研究的重点之一。研究了基于多智能体博弈强化学习的无人机智能攻击关键
2、技术,基于马尔可夫随机博弈的基本概念,建立了基于多智能体博弈强化学习的无人机智能攻击策略生成模型,并利用博弈论中“颤抖的手完美”思想提出优化方法,改进了策略模型。仿真实验表明,优化后的算法在原算法基础上有所提升,训练得到的模型可生成多种实时攻击战术,对智能化指挥控制具有较强的现实意义。关键词:多智能体博弈强化学习;马尔可夫随机博弈;无人机;战术策略中图分类号:文献标志码:犇犗犐:犝犃犞犻 狀 狋 犲 犾 犾 犻 犵 犲 狀 狋犪 狋 狋 犪 犮 犽狊 狋 狉 犪 狋 犲 犵 狔犵 犲 狀 犲 狉 犪 狋 犻 狅 狀犿狅 犱 犲 犾犫 犪 狊 犲 犱狅 狀犿狌 犾 狋 犻 犪 犵 犲 狀 狋犵
3、犪犿犲狉 犲 犻 狀 犳 狅 狉 犮 犲犿犲 狀 狋犾 犲 犪 狉 狀 犻 狀 犵 ,(犆狅犿犿犪 狀犱犪 狀犱犆狅 狀 狋 狉 狅 犾犈狀犵 犻 狀 犲 犲 狉 犻 狀犵犆狅 犾 犾 犲 犵 犲,犃狉犿狔犈狀犵 犻 狀 犲 犲 狉 犻 狀犵犝狀 犻 狏 犲 狉 狊 犻 狋 狔狅 犳犘犔犃,犖犪 狀 犼 犻 狀犵 ,犆犺 犻 狀 犪)犃犫 狊 狋 狉 犪 犮 狋:(),“”,犓犲 狔狑狅 狉 犱 狊:;();引言伴随着机械化时代的结束和信息化、智能化时代的到来,现代战争战斗力生成模式的发生域由物理域迈向信息域和认知域。在智能化时代,如何通过人工智能技术取得决策优势,加快观察,判断,决策,行动(
4、,)循环,使对手陷入死循环,值得深入思考。智能化、无人化作战作为未来战争关注的焦点,迫切需要协同配合、自组织和快速决策。构建无人机智能攻击策略生成模型的重点,主要体现在以下两个方面。()训练空中无人机的寻路和隐蔽能力,在避开敌人的侦察和火力打击的前提下,精准定位目标位置并实施精确打击;系统工程与电子技术第 卷()训练空中无人机的协同配合和自组织、自适应能力,在最小化我方损失的原则下完成作战任务。近年来,在单智能体领域,由深度学习与强化学习结合而产生的 游戏和围棋的虚拟玩家均达到了人类顶级玩家的水平。在多智能体领域,基于值函数分解的多智能体深度强化学习算法,如值函数分解法、混合多智能体值分解算法
5、等也在星际争霸游戏中取得了很好的成绩。从单智能体到多智能体,问题的复杂度大大增加,却也更贴近军事需要,因为真实的战场空间存在大量需要协同组织与配合的基础作战单元。由于传统的单智能体强化学习方法只能对单个作战单元进行建模,如果将其直接应用于多智能体系统,即将其他智能体视为环境的一部分,那么将会违反强化学习的基本假设,产生环境不平稳的问题,从而不再适用。相比之下,多智能体强化学习方法在军事对抗问题的建模及训练和辅助决策上更有研究价值。另一方面,军事对抗问题也属于博弈问题,可以利用博弈论中的相关知识对其进行评估和优化。目前,多智能体博弈强化学习作为多智能体和博弈论的结合体,在解决大规模智能体之间的交
6、互计算困难、学习对手的策略、完成实时策略(,)游戏中的微观管理任务 和提升算法的鲁棒性 方面均取得了不错的成果。随着研究的深入,越来越多的博弈论方法被用来分析多智能体问题,产生了平均场多智能体强化学习算法、基于对手意识的学习算法 和多智能体深度确定性策略梯度算法 等多智能体博弈强化学习方法。因此,将多智能体博弈强化学习方法应用于无人机智能攻击策略生成已成为人工智能作战模拟仿真领域的关键技术之一。目前,多智能体博弈的成功主要来自两个领域的技术组合:深度强化学习和博弈论。前者用于在交互式环境中训练具有特定目标的智能体,但无法直接被应用于多智能体场景;后者为分析多智能体的行为而生,但更多偏向理论研究
7、,算法应用只局限于较小的范围。强化学习 是让智能体以最大化奖励函数为目标,在试错中学习的算法,非常适合解决序贯决策类问题。深度学习 是用神经网络从原始输入中提取高级特征的一类机器学习算法。在深度学习普及之前,强化学习需要用人工提取特征来表示复杂博弈的状态信息,神经网络可以作为一个自适应函数近似器,允许强化学习扩展到高维状态空间 和续动作空间。深度强化学习是上述两种算法的结合,兼具二者的优点。本文尝试使用多智能体博弈强化学习方法来解决无人机智能攻击策略的生成与优化问题。将无人机智能攻击策略生成问题建模为马尔可夫博弈过程,尝试采用强化学习和博弈论相结合的方法来求解和优化无人机智能攻击策略,通过利用
8、与仿真环境交互的“试错”数据来直接学习策略,不需要人为构建推理模型,在此基础上利用博弈论中“颤抖的手完美”策略进行优化。无人机智能攻击策略训练模型 基于马尔可夫随机博弈的无人机智能攻击策略生成过程建模单智能体强化学习可以使用马尔可夫决策过程(,)进行描述,而多智能体强化学习(,)则需要使用马尔可夫博弈 过程来描述。无人机智能攻击策略训练问题,可认为是在连续动作和状态空间上的实时决策问题,可以依照马尔可夫博弈过程进行建模。具体地,定义了一个元组并用数学语言进行形式化描述:(犖,犛,犪,犪,犪犖,犜,狉,狉,狉犖)。其中:犖为智能体个数;犛为多智能体的联合系统状态;犪,犪,犪犖为智能体的动作集合;
9、犜为状态转移函数,犜:犛犪犪狀犛,即根据当前系统状态和联合动作,给出下一个状态的概率分布;狉犻(狊,犪,犪犖,狊)表示智能体犻在状态犛时,执行联合动作后,到达下一个状态犛 所获得的奖励,奖赏函数一般是关于环境和动作的函数;表示折扣因子,。在多智能体博弈中,智能体的学习目标是找到联合最优策略,最大化累积回报值。无人机智能攻击场景建模本文构建了 的无人机反坦克对抗场景。对抗双方为红方和蓝方。其中,红方是由架 型“灰鹰”无人机组成的三机编队(使用算法进行仿真);蓝方是由个地空导弹排(萨姆 “灰狗”地空导弹)和个坦克排(辆 型主战坦克)组成的防空编队(使用固定战术规则)。交战空域设置为矩形二维平面环境
10、。双方均设置固定出发点。红方无人机在指定对抗空域内进行空对地打击。蓝方地空导弹排在地面按规则对红方战机进行侦察,一旦感知红方战机威胁并当红方战机进入蓝方地空导弹排火力打击范围内,就伺机歼灭之。在目标歼灭或丢失后继续侦察搜索。由于红方无人机的飞行高度高于蓝方坦克的射程范围,故蓝方坦克无法对红方无人机构成威胁;红方无人机的任务是避开地空导弹排的火力打击范围,并歼灭蓝方所有坦克。无人机飞行模型假设无人机的飞行高度固定,无人机只在二维平面上飞行,其运动模型如下:(狋)狏狓狏(狋)(狋)狏狔狏(狋)(狋烅烄烆)式中:狓,狔分别表示平面直角坐标系下的坐标分量;狏表示速度矢量,狏狓,狏狔分别表示无人机在两个
11、方向上的速度分量;表示航向角。无人机飞行轨迹受到最小航迹和最小转弯半径犚 的限制。其中,最小航迹表示无人机在改变飞行姿态前须保持直飞的最短距离。无人机的飞行轨迹如图所示。第 期赵芷若等:基于多智能体博弈强化学习的无人机智能攻击策略生成模型 图无人机飞行轨迹图 犃,犅,犆,犇这个点分别对应初始位置、转向开始位置、转向结束位置和终止位置。状态空间设定状态空间包括无人机、坦克排、地空导弹排的生存状态、速度、海拔、经度、纬度,具体定义如下:犗狅 ,狅 ,狅 犔 ,犞 ,犺 ,犔 ,犺 ,犔 ,犺 ,犔犻 ,犞犻 ,犺犻 ,犻 ,犻 ,犔犼 ,犺犼 ,犼 ,犼 ,犔犽 ,犺犽 ,犽 ,犽 ,犔狀 ,犞狀
12、 ,犺狀 ,狀 ,狀 ,犔狀 ,犺狀 ,狀 ,狀 ,犔狀 ,犺狀 ,狀 ,狀 式中:犻,犼,犽分别表示第犻,犼,犽个无人机、坦克排和地空导弹排。动作空间设定由于红方无人机是空中移动目标,所有红方无人机的可选动作集合包括开火和移动两种选择,红方无人机根据雷达侦测情况择机开火,每个时刻均发生位移;而所有蓝方无人机都是地面固定目标,所以蓝方的可选动作集合只有开火一种选择。蓝方根据雷达侦测结果开火打击,一旦侦测到红方无人机立即开火。红方无人机、蓝方坦克和地空导弹排之间的打击效果依如下规则。当满足以下两个条件时,制定无人机摧毁坦克:()设红方无人机的雷达探测半径为狉 ,火力打击范围为犳 ,蓝方地空导弹排
13、的雷达探测半径为狉 ,火力打击范围为犳 。()设红方无人机发现目标后的射击概率为狆 ,命中率为 ;蓝方地空导弹排发现目标后的射击概率为狆 ,命中率为狆 。当满足以下两个条件时,判定无人机摧毁坦克:()无人机的机载火控雷达的扫描区域持续覆盖坦克;()无人机同时满足空对地导弹发射概率狆 ,发射导弹满足命中概率 。同理,当满足以下两个条件时,判定地空导弹摧毁无人机:()地空导弹排的火控雷达的扫描区域持续覆盖无人机;()地空导弹同时满足地对空导弹发射概率狆 ,发射导弹满足命中概率 。奖赏函数设计由于红方无人机采用多智能体博弈强化学习方法训练,蓝方坦克和地空导弹排使用固定规则训练。因此,奖赏函数只针对红
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 智能 博弈 强化 学习 无人机 攻击 策略 生成 模型
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。