![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于多智能体强化学习的空地网络抗干扰传输方法研究.pdf
《基于多智能体强化学习的空地网络抗干扰传输方法研究.pdf》由会员分享,可在线阅读,更多相关《基于多智能体强化学习的空地网络抗干扰传输方法研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、2024年1月第1期71移动通信ReinforcementLearningpproachJ.Mobile Communications,2024,48(1):71-78.LIAO Chengjian,LIU Siyi,ZHAO Chenyu,et al.Anti-Jamming Transmission for Air-Ground Integrated Networks:A Multi-Agent引用格式:廖程建,刘思懿,赵晨羽,等.基于多智能体强化学习的空地网络抗干扰传输方法研究J.移动通信,2 0 2 4,48(1):7 1-7 8.文献标志码:A文章编号:10 0 6-10 10(2
2、0 2 4)0 1-0 0 7 1-0 8doi:10.3969/j.issn.1010.20231209-0002中图分类号:TN929.5OSID:扫描二维码与作者交流总第52 1期第48 卷基于多智能体强化学习的空地网络抗干扰传输方法研究廖程建,刘思懿,赵晨羽,张果,侯宏伟,朱瀚然,夏晓晨,许魁(陆军工程大学通信工程学院,江苏南京2 10 0 0 7)【摘要】提出了一种基于多智能体强化学习的抗干扰传输算法,旨在抵御空地一体化网络中的功率干扰,使所有用户的可达速率之和最大化。将优化问题转化为部分可观察马尔可夫决策过程问题,采用了集中式训练和分布式执行框架。在集中式训练过程中,每个智能体与环
3、境交互获得的经验存储在经验回放池中,用于训练演员-评论员网络。在分布式执行过程中,每架无人机使用经过训练的演员网络根据观测结果输出动作,并调整其飞行位置和传输功率以提供联合服务。采用基于剪切和计数的改进近端策略优化算法来更新演员-评论员网络参数,使其在复杂的多智能体环境中更加有效。仿真结果表明,所提算法相较于对比算法具有更快的收敛速度,且在相同干扰条件下,所提算法比对比算法获取的用户可达和速率提升约6 8.9%【关键词】多智能体;强化学习;空地网络;抗干扰Anti-Jamming Transmission for Air-Ground Integrated Networks:A Multi-A
4、gent Reinforcement Learning ApproachLIAO Chengjian,LIU Siyi,ZHAO Chenyu,ZHANG Guo,HOU Hongwei,ZHU Hanran,XIA Xiaochen,XU Kui(Army Engineering University of PLA,Nanjing 210007,China)AbstractThis paper presents an anti-jamming transmission algorithm based on multi-agent reinforcement learning,designed
5、 tocounter power interference in air-ground integrated networks and maximize the sum rate of all users.The optimizationproblem is formulated as a partially observable Markov decision process and tackled using a centralized training anddecentralized execution framework.During centralized training,exp
6、eriences gathered by each agent from interactionswith the environment are stored in a replay buffer,which is then used to train the actor-critic networks.In the decentralizedexecution phase,each unmanned aerial vehicle utilizes the trained actor network to make decisions based on observations,adjust
7、ing its flight position and transmit power for joint service provision.An improved proximal policy optimizationalgorithm based on clipping and counting is employed to update the parameters of the actor-critic networks,enhancingeffectiveness in complex multi-agent settings.Simulation results demonstr
8、ate that the proposed algorithm achieves fasterconvergence than comparative algorithms,and under similar interference conditions,it improves the achievable sum rate forusers by approximately 68.9%compared to the benchmarks.KeywordsMulti-agent;reinforcement learning;air-ground network;anti-jamming tr
9、ansmission收稿日期:2 0 2 3-12-0 9*基金项目:国家自然科学基金“通信定位一体去蜂窝大规模MIMO智能传输方法研究”,“面向低空空域的无定形大规模MIMO一体化感知与通信方法研究”(6 2 0 7 148 5,62271503);江苏省自然科学基金“基于无定形网络的低空空域融合感知与通信方法研究”(BK20231485)0引言5G/6G等新一代移动通信技术通过超密集组网、跨频段使用、波束空间复用等方式大幅提升了频率复用度,实现了高速率、低时延、大容量传输。当地形环境较为复杂时,通信系统的节点分布较为稀疏,无法进行超密集组网,导致区域覆盖能力和“山中通”能力等面临较2024
10、年1月第1期72移动涵信总第52 1期专题面向6 G的星地融合网络技术第48 卷大挑战。无人机、无人升空平台等空基平台具有部署灵活、覆盖范围广等特点,为有效提升通信覆盖能力提供了一条新的思路。无人机(UAV,UnmannedAerialVehicle)由于其灵活性和易控制性,可以在某些特殊场景提供高效可靠的无线通信 。特别是当地面基站无法提供服务时,UAV可以作为空中基站,为地面用户提供紧急通信2 。无人机还广泛应用于物联网中,为设备应用收集数据3。无人机亦可作为中继节点,与远程节点建立可靠连接,抵御恶意干扰和窃听,保证无人机中继网络中的安全传输问题【4-。此外,研究UAV网络中的抗干扰问题也
11、是一大研究热点,博奔论和凸优化理论广泛应用于UAV通信抗干扰方案设计。文献6 将UAV视做中继节点,从博奔论视角出发构建斯坦伯格博奔模型,研究了空天地一体化网络在非理想信道状态信息条件下如何抵御恶意干扰问题。文献7 应用交替优化和逐次凸逼近理论,将非凸问题进行转换,通过优化无人机的轨迹以及功率分配,最大化特定时间段内系统的平均保密速率。文献8 研究了无人机网络的物理层安全问题,使得无人机基站在存在多个窃听者的情况下,通过协作干扰向多个信息接收器传输机密信息,提升了性能增益。然而,以上研究仅考虑了单个或少量的无人机场景,大规模无人机场景下的抗干扰传输问题仍需进一步研究。当环境发生变化时,所提出的
12、优化算法可能会变得无效,难以满足实时决策的需求。近年来,强化学习(RL,R e i n f o r c e m e n t Le a r n i n g)方法引起了广泛关注,用于解决传统数学方法无法处理的高复杂度优化问题。将强化学习、深度学习等智能算法应用于抗干扰传输是当前一大研究热点9-131。文献9 针对无人机网络易受智能干扰机干扰,提出一种基于知识的强化学习方法,该方法利用领域知识来压缩智能体需要探索的状态空间,从而提高算法的收敛速度。文献10 研究了窃听节点存在的条件下的无人机网络安全传输问题,提出了一种多智能体深度强化学习(MADRL,M u l t i-A g e n tDeepR
13、einforcementLearning)算法,通过联合优化无人机的轨迹、无人机发射机的发射功率和无人机干扰机的干扰功率来最大化安全容量。文献11 考虑了一个合法无人机与智能窃听无人机的组合通信系统,通过构建零和博奔模型,并提出一种基于MADRL的算法,获得合法通信链路节点的策略,优化合法无人机的功率、轨迹。该算法的不足是仅考虑两个无人机智能体,没有考虑多智能体协同抗干扰。文献12 研究了无人机网络中联合信道和功率分配的抗干扰问题。首先将问题建模为一个局部相互作用的马尔可夫博奔以同时刻画无人机之间的竞争和协作关系。其次,提出了一种基于协作多智能体分层Q学习的抗干扰通信算法来降低动作空间的高维特
14、性,并分析了该算法的渐近收敛特性。文献13 研究了无线传感器网络的智能抗干扰通信方法。引入随机博奔框架对多用户干扰问题进行建模和分析,提出了一种联合多智能体干扰算法,以获得最优的干扰策略。上述研究仅考虑数量较少的UAV网络,将强化学习、深度学习等算法应用于多智能体空地一体化网络抗干扰传输的研究还有待完善。针对以上问题,本文面向空地一体化网络场景,提出了基于多智能体强化学习(MARL,M u l t i-A g e n tReinforcementLearning)算法的抗干扰传输算法,旨在抵御智能干扰机的恶意干扰,有效增强通信系统区域覆盖能力。具体来说,采用集中训练和分散执行的总体框架,采用近
15、端策略优化(PPO,ProximalPolicyOptimization)算法更新神经网络参数。每个UAV均看做是智能体,每个智能体基于自己的观察和来自评论员的价值函数执行自已的动作。由于无人机的能量容量和计算能力非常有限,可以将离线集中训练上传到高空平台(HAP,HighAltitudePlatforms)【10),节省能量开销。本文的贡献可以概括为以下几点:(1)首先,本文设计了一种针对三维空间的多UAV轨迹优化算法,所有UAV动态调整自身发射功率使得系统内所有用户可达速率之和最大,从而最大化奖励函数,增加了优化问题的难度与复杂度。(2)其次,将联合轨迹与功率的优化问题转化为一个稳健的马尔
16、可夫决策过程(POMDP,PartiallyObservableMarkovDecisionProcess)问题,每个UAV观测与其自身相关联的用户,而不需要从时变的多UAV环境中获得完整的信息。提出了一种基于MARL的抗干扰传输算法,用于多UAV场景下的轨迹设计和功率优化。(3)最后,制定了一个集中训练和分步执行的框架。在集中式训练阶段,每个智能体通过与环境交互获取的经验存储在经验回放池中,然后使用经验池来训练演员-评论员网络。在分布式执行阶段,每个无人机都使用训练好的演员神经网络来生成相应的动作序列,以调整下一时刻的飞行位置和发射功率。仿真结果表明所提方法相较于对比算法具有优越性。一系统模
17、型及问题建模1.1系统模型系统模型如图1所示。考虑一个具有无人升空平台,M个无人机,K个用户和一个智能扰机的多UAV多2024年1月第1期73移动通信和:总第52 1期廖程建,刘思懿,赵晨羽,等:基于多智能体强化学习的空地网络抗干扰传输方法研究第48 卷用户大规模多输人多输出(MIMO,M u l t i-I n p u t M u l t i-Output)通信系统,其中无人机均配备N根天线,用户均配备单天线,干扰机配备L根天线。在给定的系统模型中,干扰机对用户释放干扰信号,其目的是降低用户下行接收信噪比,影响通信质量。无人升空平台用于训练无人机网络,减轻无人机内部负担。本文研究目标是优化无
18、人机飞行轨迹以规避干扰,并动态调整发射功率,使得系统所有用户的可达速率之和最大。升空平台UAVUAVMUAV21UAVm用户882用户K用户18用户k干扰机通信链路干扰链路交互链路图1系统模型(1)信道模型在地面环境较为复杂、障碍物较多时,无人机与用户之间的视距路径(LoS,Lineof Sight)路径可能会被阻挡。因此,本文采用一种基于无人机飞行高度和仰角的概率视距(PLoS,Probabilistic Line of Sight)信道模型14),来建模空地信道的路径损耗。基于概率的信道模型示意图如图2 所示,随着无人机的运动,无人机与用户之间的信道有可能被障碍物遮挡,由LoS信道变成NL
19、oS信道。无人机NLOS信道LOS信道8用户k88用户1用户K图2基于概率的信道模型示意图假设无人机在三维空间内以一定高度匀速飞行,用户与干扰机的位置固定不变。在t时刻,无人机m,用户k和干扰机的三维位置坐标分别表示为dm(t)=xm(t),ym(t),hml,d=x,Yk,0 和d,=xj,yj,0。采用PLoS信道模型,第m架无人机与用户k之间为LoS信道的概率为:1PLost1+a exp(-b(%in(1)m.kh()-a)其中a和b是依赖于环境的常数,dm(t)=/(xm(t)-x)+(ym(t)-y/)+h表示t时刻无人机m与用户k之间的距离。因此,无人机m与用户k之间为(NLoS
20、,No n-Li n e o f Si g h t)信道的概率为PNLes()=1-Pls(t)。Lo S信道和NLoS信道的路径损耗分别表示为:LLos(t)=Ls,(t)+nLos(2)t)=LFS.(t)+n NLosNLoS(3)m,k其中,Ls(t)=20logdm.(t)+20log()+2 0 1o g(4元/c)表示自由空间路径损耗,了为载波频率,c为光速。nLos和nNLos分别表示LoS信道和NLoS信道的平均附加路径损耗。因此,无人机m与用户k之间的平均路径损耗可以表示为:Bm.(0)=PLos(0)Los(0)+PNLos(0)LNLos(t(t)(4)m.k6因此无人
21、机m与用户k之间的信道hmk(t)eCN为:hm.(t)=(t)gm.x(t)(5)其中,g.x()=gm.().m.k.(0).m.,(0)C表示小尺度衰落向量,gm.k.(t)表示无人机m的天线n与用户k之间的小尺度衰落系数,表达式为:K12d1gm.k.(t)a(6)eK+1Ka其中,K。表示莱斯因子,为载波波长,Pm.k.n()CN(0,1)表示瑞利衰落。因此,无人机m与所有用户k=1,2.K之间的信道H,(t)eCKxN为:H.(t)=B./2(t)G.(t)(7)77m其中,B,()=CkK为大尺度衰落矩阵,且对角线第k个元素为为快衰落矩阵。干扰机与用户k之间的信道hykCx可表示
22、为:hJk=BjgJ.k(8)其中,J=Vto/dj表示干扰机与用户k之间的大尺度衰落。表示阴影衰落,服从均值为0,标准差为,的对数正态分布。to为参考距离处的路径损耗。dj=Vx,-x)+(y,-y)表示干扰机与用户k之间的距离。K为路径损耗因子。gjkECxCN(0,I)表示干扰机与用户k之间的小尺度衰落。则干扰机与所有用户k=1,2.K之间的信道H,ECkxL为:H,=B/G,(9)2024年1月第1期74移动涵信总第52 1期专题面向6 G的星地融合网络技术第48 卷其中,B,eCK是一个对角阵,且B,lk=j为其对角线上的第k个元素,G,=g.gj.kTT7T(2)信号传输模型为有效
23、消除大规模MIMO系统中多用户之间的干扰,提高系统的容量和性能,基站端采用预编码技术。假设Wm(t)eCNxK为无人机m的预编码矩阵,W,ECLxK为干扰机的预编码矩阵,则在t时刻用户k的接收信号为:y()-Z/P.(0/khm.(0)W.0)+/P,(0)/kh/W,xj+zkm=(10)其中,P.(t)和P(t)分别为t时刻无人机m的发射功率和干扰机的干扰功率,X.=xm.Xm.kTeCK和X,=Xj,Xj.kITeCK分别为t时刻无人机m发送的信号向量和干扰机发送的干扰信号,zCN(0,)为高斯白噪声。本文采用迫零预编码方式,无人机m的预编码矩阵可表示为:HH((11)一7T干扰机的预编
24、码矩阵可表示为:(12)H,HH则在t时刻用户k接收来自UAVm的SINR为:P.(0)/K(H.(0)H(t)Jk.kt)(13)P,(t)K(H,H,)-+o2k.km,k在t时刻用户k接收来自所有UAVm的可达速率为:R,(t)=B1log,1+m(0)M(14)其中B是信道带宽。1.2UAV优化问题建模假设所有UAV的飞行高度固定不变,研究目标是优化无人机轨迹以规避干扰机的干扰,并动态调整发射功率,使得系统内所有用户的可达速率之和ZR(t)最大。基于以上假设,构建如下优化问题:maxP.DS.t.OtTIld.(t)d.(0)l/dmin,m#meM,ld.(t+1)-d.(o)l V
25、mx,meM,(15)d.(1)=d.(T),mEM,PMP.(t)PM,mEMPrln P,(0)Pmmax其中,P=P(t),mEM表示UAV的功率集,D=dm(t),mEM表示UAV的轨迹集。0 tT表示该优化问题处于一个时间周期内,ld(t)-d.(l d 确保任何两个无人机之间的最小距离,以确保飞行安全,d,(+1)-d.(u)l v ma x t限制每个UAV在单个时间间隔内的最大飞行速度。d(1)=d(T)确保在一个时间周期T之后,UAV可以沿着轨道飞回原始位置。PmP(t)Pm和PalnP(t)Pmax分别表示UAV和干扰机的功率不会超出最大功率限制。2基于部分马尔科夫观测的M
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 智能 强化 学习 空地 网络 抗干扰 传输 方法 研究
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。