协同空战与多智能体强化学习下的关键问题_谢育星.pdf
《协同空战与多智能体强化学习下的关键问题_谢育星.pdf》由会员分享,可在线阅读,更多相关《协同空战与多智能体强化学习下的关键问题_谢育星.pdf(5页珍藏版)》请在咨信网上搜索。
1、第43 卷第1期2023 年2 月飞机设计AICAFT DESIGNVol 43 No 1Feb2023收稿日期:2022 03 20;修订日期:2022 12 05作者简介:谢育星(1997),女,硕士研究生引用格式:谢育星,陆屹,管聪,等 协同空战与多智能体强化学习下的关键问题 J 飞机设计,2023,43(1):6 10 XIE Yuxing,LU Yi,GUAN Cong,et al Key Problems in Coordinated Air Combat and Multi-agent einforcement Learning J Aircraft Design,2023,43
2、(1):6 10文章编号:1673 4599(2023)01 0006 05doi:1019555/j cnki1673 4599202301002协同空战与多智能体强化学习下的关键问题谢育星,陆屹,管聪,纪德东(沈阳飞机设计研究所,辽宁 沈阳110035)摘要:自从协同作战的概念提出后,各军事强国在协同空战领域均取得了重大进展,协同成为提升作战能力的倍增器。近数十年来,作为解决序列问题的现代智能方法,强化学习在各领域高速发展。然而,面对高维变量问题时,传统的单智能体强化学习往往表现不佳,多智能体强化学习算法为解决复杂多维问题提出新的可能。通过对多智能体强化学习算法原理、训练范式与协同空战的适
3、应性进行分析,提出了协同空战与多智能体强化学习的未来发展方向,为更好地把多智能体强化学习应用于协同空战提供思路。关键词:协同空战;多智能体强化学习;训练范式;集中式训练分布式执行(CTDE)中图分类号:V11文献标识码:AKey Problems in Coordinated Air Combat andMulti-agent einforcement LearningXIE Yuxing,LU Yi,GUAN Cong,JI Dedong(Shenyang Aircraft Design esearch Institute,Shenyang110035,China)Abstract:Sinc
4、e the concept of cooperative operation was put forward,all military powers have madegreat progress in the field of cooperative air combat,and coordination has become a multiplier to en-hance combat capability In recent decades,as a modern intelligent method to solve sequence prob-lems,reinforcement
5、learning has developed rapidly in various fields However,in the face of high-di-mensional variable problems,the traditional single-agent reinforcement learning often performs poor-ly Multi-agent reinforcement learning algorithms provide new possibilities for solving complex multi-dimensional problem
6、s By analyzing the adaptability of multi-agent reinforcement learning algorithmprinciple,training paradigm and cooperative air combat,the future development direction of coopera-tive air combat and multi-agent reinforcement learning is proposed,which provides ideas for betterapplication of multi-age
7、nt reinforcement learning in cooperative air combatKey words:coordinated air combat;multi-agent reinforcement learning;training schemes;central-ized training decentralized execution(CTDE)当代战争一切空中行动的前提条件是制空权。随着人工智能技术的迅速发展,空战将从能量机动制胜、信息机动制胜时代跨越进入认知机动制胜时代,未来空战的主要模式是复杂空战系统间的对抗,核心特征是协同作战1。强化学习算法近年来广泛应用于各
8、个领域。在空战决策领域,强化学习已经解决了许多具有挑战性的问题2 3。但是,现阶段人工智能技术大多只应用于单机决策领域,解决单智能体领域问题4。随着协同空战理论的发展,空战中出现了许多新的现实问题,如有/无人协同、无人机机群控制等。面向协同作战这一新问题,单智能体解决问题能力有限,因此,针对此类多智能体的复杂空战问题,应当采用多智能体强化学习算法解决。本文对协同空战与多智能体强化学习下的关键问题进行分析研究。1智能空战与协同作战发展历程1.1智能空战领域的发展历程近几十年来,人工智能进入高速发展期。国内外智能领域里,空战决策理论与工程应用都取得了巨大的突破,智能空战的发展可以分为5 个主要阶段
9、5:第 1 阶段专家逻辑阶段1969 年 NASA 兰利研究中心研制开发 AML 系统,采用自适应专家机动逻辑,标志着智能技术首次系统性应用于空战领域6。第 2 阶段规则生成阶段代表性空战系统为PALADIN 系统,其特点是不依靠专家经验,自动生成空战规则,形成模块化规则库。第 3 阶段规则演进阶段代表性空战系统为阿尔法空战系统,该系统基于演进式规则。2016年,在模拟环境对战中,阿尔法空战系统首次击败了退役美国空军上校 Keane,标志着人工智能在空战决策问题领域取得了突破性进展7。第 4 阶段机器学习阶段代表性空战系统为空战自适应动态规划系统8 和阿尔法狗斗,空战自适应动态规划系统采用自适
10、应动态规划,解决二维离散动作优化问题,阿尔法狗斗面向近距空中格斗,并在模拟环境中击败飞行员。第 5 阶段演示验证阶段2020 年 6 月,美国空军发布关于空中博格人项目的视频。空中博格人验证机标志着人工智能在空战领域实用化,对于推动智能空战的发展具有里程碑意义9。1.2协同作战的发展历程上世纪70 年代,美国首次提出协同作战概念。此后,协同作战技术理论快速发展,并迅速应用、列装。基于协同作战关键技术,协同作战样式的发展过程分为 4 个阶段:第 1 阶段1970 年至 2000 年,典型代表项目是 CEC 系统项目,主要协同作战样式为超视距拦截来袭导弹,对应的关键技术包括高速数据传输与高精度符合
11、跟踪。第 2 阶段2002 年至 2014 年,典型代表项目是 NIFC-CA 系统项目10,主要协同作战样式为跨域协同一体化火力制空,对应的关键技术为机载多功能先进数据链 LINK16。第 3 阶段2014 年至 2018 年,典型代表项目是拒止环境中协同作战项目11、忠诚僚机项目,主要协同作战样式为有/无人协同打击、无人自主协同打击,对应的关键技术包括分布式控制、高可靠通信技术。第 4 阶段2018 年至今,典型代表项目是马赛克战项目12,主要协同作战样式为灵活组建动态杀伤网、作战资源灵活分配,对应的关键技术包括人工智能技术、新体制通信技术,以及先进无人机制造技术。综上,高可靠、多节点的通
12、信技术是协同技术的基础,随着通信技术的发展,协同作战技术实现从无到有的跨越。无人机制造技术的进步促进了无人机平台被纳入协同体系,实现了协同作战平台从有人平台为主向有人/无人并重的转变13。现阶段,人工智能技术发展日新月异,成为促进协同作战技术的关键要素。2多智能体强化学习模型协同空战问题可以描述为一个完全合作的多智能体马尔可夫决策问题,该问题可以建模为部分可观测马尔可夫决策过程(Dec-POMDP)。Dec-POMDP 可由八元组进行描述,G=S,U,P,r,Z,O,n,式中:sS 为环境的真实全局状态;uUUn为联合动作。每个步长里,智能体 aA 1,n分别选择 1 个动作,组成联合动作;P
13、(s|s,u):S U S 为状态转移函数,表示在状态下 s 采取联合动作 u 后转移到状态 s的概率,其中 0P(s|s,u)1;r(s,u)为奖励函数,表示状态下 s 采取联合动作 u 后获取的奖励,所有智能体的奖励函数相同;zZ 为每个智能体独立的观测;O(s,u)为观测函数,表示状态 s 下采取联合动作 u 后获得联合观测7第1 期谢育星等:协同空战与多智能体强化学习下的关键问题o;n 为 n 个智能体;为折扣因子,0 1。在分布式部分可观测马尔科夫决策场景下,观测函数O(s,u)=S UZ式中:Z 为局部观测,zZ 表示每个智能体 a 获取自身观测值。每个智能体 a 的联合动作观测历
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 协同 空战 智能 强化 学习 关键 问题 谢育星
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。