基于深度强化学习的无人机路径规划与无线电测绘.pdf
《基于深度强化学习的无人机路径规划与无线电测绘.pdf》由会员分享,可在线阅读,更多相关《基于深度强化学习的无人机路径规划与无线电测绘.pdf(11页珍藏版)》请在咨信网上搜索。
1、针对传统无人机轨迹优化设计方法在构建通信模型上具有局限性的问题,本文面向蜂窝连接无人机通信方式,引入一种基于深度强化学习的无人机路径规划与无线电测绘方法。该方法利用扩展后的双深Q网络模型,结合无线电预测网络,生成无人机轨迹并预测由于动作选择而累计的奖励值。此外,基于Dyna框架将实际飞行和模拟飞行相结合,进一步训练双深Q网络模型,从而大大提高学习效率。仿真结果表明,与Direct-RL算法相比,该方法能更有效地利用学习到的覆盖区域概率图,使无人机避开弱覆盖区域,减小飞行时间和预期中断时间的加权和。关键词:无人机蜂窝通信;路径规划:深度强化学习;无线电测绘中图分类号:TN929.5文章编号:0
2、2 55-8 2 9 7(2 0 2 4)0 2-0 2 0 0-11UAV Path Planning and Radio Mapping Based onDeep Reinforcement LearningWANG Xin,ZHONG Weizhi,WANG Junzhi,XIAO Lijun,ZHU Qiuming?1.College of Astronautics,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,Jiangsu,China2.College of Electronic and Info
3、rmation Engineering,Nanjing University ofAeronautics and Astronautics,Nanjing 211106,Jiangsu,ChinaAbstract:To address the limitations of traditional UAV trajectory optimization designmethods in building communication models,this paper presents a deep reinforcementlearning-based UAV path planning and
4、 radio mapping in cellular-connected UAV com-munication systems.The proposed method utilizes an extended double-deep Q-network(DDQN)model combined with a radio prediction network to generate UAV trajectoriesand predict the reward values accumulated due to action selection.Furthermore,themethod train
5、s the DDQN model by combining actual and simulated fights based on Dynaframework,which greatly improves the learning efficiency.Simulation results show thatthe proposed method utilizes the learned coverage area probability map more effectivelycompared to the Direct-RL algorithm,enabling the UAV to a
6、void weak coverage areas andreducing the weighted sum of flight time and expected interruption time.收稿日期:2 0 2 2-0 6-2 2通信作者:仲伟志,副教授,研究方向为毫米波通信技术、5G/6G场景下的波束赋形、跟踪。E-mail:z h o n g w z 201第2 期王鑫,基于深度强化人机路径规划与无线电测绘Keywords:UAV cellular communication,path planning,deep reinforcement learning,radio mapp
7、ing近年来,无人机凭借其高机动性和灵活性广泛应用于货物运输、应急救援、空中检查等各类活动。因此,确保无人机与地面之间高容量、低延迟以及超可靠的双向无线通信至关重要。然而,现有无人机通信主要依赖未经许可的频带上(如ISM2.4GHz)简单的点对点通信,其数据传输速率低、易受干扰、难以合法监测管理,且只能在有限地域范围内进行1。因此,将无人机与蜂窝网络相结合,是解决上述问题的一项关键技术。无人机集成到蜂窝网络中主要有两方面的应用:一方面,无人机可以作为空中基站,在空中提供无线连接,即无人机辅助无线通信;另一方面,无人机可以作为空中用户,与地面基站(groundbase station,G BS)
8、通信,即蜂窝连接无人机形式的通信。蜂窝网络与无人机相结合具有很多优势。首先,蜂窝网络基础设施遍布全球,可以提供经济高效的通信链路,减少通信范围的限制,实现真正的远程操作。其次,与简单的点对点通信相比,蜂窝连接无人机通信方式可以降低延迟,提高数据传输速率。此外,蜂窝信号还可以补充定位精度,减小恶劣天气以及障碍物对无人机通信的影响。尽管蜂窝连接无人机通信方式具有以上优点,但仍有一些问题函待解决。由于现有蜂窝网络主要面向地面用户,GBS天线通常是朝向地面倾斜的,进而导致无法保证完善的空中通信覆盖。同时,蜂窝连接的无人机易受到其他非关联基站的严重干扰。针对上述问题,一部分研究致力于改善空对地的通信条件
9、,以提高连通性和数据传输速率。文献2 引入广义泊松多项分布来模拟干扰信息,分析了GBS天线不同的下倾角对空中覆盖的影响。在文献3 中,GBS天线下倾角被作为优化变量,最大限度地提高了无人机接收信号的质量,同时减少了与地面用户的交接时间。为了减小干扰问题,文献4 利用蜂窝网络中GBS之间的回程链路,提出了一种针对同信道干扰的合作性干扰消除策略。此外,利用无人机的可控移动性,优化无人机轨迹,避开弱覆盖区域,从而保证无人机与GBS之间的连通性,也是一个有前景的研究方向。文献5-6 构建了信噪比(signal to noiseratio,SNR)图,并利用图论设计了在信干噪比(signal to in
10、terference plusnoiseratio,SINR)约束下的最短路径问题。文献7 通过将图论和凸优化应用于蜂窝连接的无人机,优化轨迹以最小化无人机行进时间,同时确保它与至少一个GBS连接。文献8-9 也研究了类似的问题。但是以上传统的无人机轨迹优化设计具有一定的局限性。首先,解决相应的优化问题需要准确的通信模型,包括天线模型、信道模型以及环境模型,文献7-9 大多基于一些假设的简化模型,文献10-12 虽然考虑了更复杂的模型,但这些都是统计模型,无法为实际环境提供性能保证。此外,在实际环境中,很难获取准确的信道模型及相关参数,即使获取了与环境匹配的模型和参数,面临的优化问题也是非凸问
11、题,很难有效解决。针对上述问题,本文采用一种基于深度强化学习(deepreinforcementlearning,D RL)的同步导航与无线电测绘(simultaneousnavigationand radiomapping,SNA RM)方法,通过优化无人机轨迹,避开通信弱覆盖区域,来实现任务完成时间和预期中断时间加权和的最小化131系统模型1.1无人机飞行环境建模将无人机飞行环境设定为2 km2km的密集城市区域,根据国际电信联盟建议的统计模型来生成建筑物的高度和位置。该模型涉及3个参数:bd、bd和bd。其中,bd为建筑物第42 卷202应用报学科学覆盖面积与总土地面积的比值;bd为单位
12、面积内建筑物的平均数量;bd值决定了建筑物的高度分布,即服从均值为bd的瑞利分布,假设建筑的高度不超过9 0 m。建筑物分布的二维和三维视图如图1所示。设置无人机的飞行高度为10 0 m,飞行速度为常数V,将无人机在t时刻的位置设定为q(t)=(a t,y t),令qs=(a s,y s)和qf=(a f,f)分别表示无人机飞行的起点和终点。假设所考虑区域内分布有7 个GBS,位置如图1中蓝色标志所示。每个GBS包含3个扇区,即小区总数M=21。G BS天线为垂直放置的8 阵元均匀线阵,沿水平和垂直方向的半功率波束宽度均为6 5,其主瓣向地面倾斜10,组成定向天线阵列。2.0品00000000
13、000000000000000000000000000000000000000000000000000000-1000000000801.5-口60000000000000三000000000000000000000000000000000000000000000000040二21.0-0000000二20二0-一72.00.530000000000000000000000000000000000000000000.5100000000000上-00000001.0ux/h00.51.00.5c/km1.50.51.01.52.02.0000a/km(a)二维视角(b)三维视角(a)Two-d
14、imensional view(b)Three-dimensional view图1建筑物分布图Figure 1 Building distribution map1.2优化目标建模令无人机在t时刻从小区接收到的瞬时功率信号为Pm(t)=Pmm(q(t)Gm(q(t)hm(t),m=1,2,.,M(1)式中:Pm为小区m的发射功率,mE1,M:m()和Gm()为经历大尺度衰落的信号增益和基站天线增益;hm(t)为小尺度衰落,是根据3GPP中的UMa模型建立的,在非视距(non-lineof sight,NLo S)情况下服从瑞利分布,在视距(line of sight,Lo S)情况下服从莱斯
15、分布。令无人机在t时刻与关联小区b(t)之间的信号干扰比(signal-to-interferenceratio,SIR)S(t))低于所设阈值th,即S(t)th时,无人机处于中断状态Pb(t)(t)S(t)(2).pm(t)m#b(t)式中:Pb(t)(t)是无人机在t 时刻从关联小区b(t)接收到的信号瞬时功率。对于位置q(t)和相关联的小区b(t)来说,由于小尺度衰落系数 hm(t)具有随机性,因此,S(t)也具有随机性。本文使用中断概率Pout来评估无人机与基站之间的连通性,即Pout(q(t),b(t)=Pr S(t)th)(3)203第2 期王鑫,等:基于深度强化学习的无人机路径
16、规划与无线电测绘式中:Pr是事件发生的概率。假设飞行时长为T,则预计中断时长可定义为TTout(g(t),b(t)=Pout(q(t),b(t)dt(4)0如式(4)所示,若中断概率不变,随着飞行时长T的增加,预计中断时长会增加,但随着飞行时间的延长,无人机可以更加灵活地避开弱覆盖区域,减少中断概率,从而减少预计中断时间。因此,无人机飞行时间T与预计中断时间两者之间可用权重系数来权衡,最终目标为最小化两者的加权和,此问题的优化目标F可用下述公式表述:F=minT+Tout(q(t),b(t)(5)T,(q(t),b(t)s.t.q(o)=Qs,q(T)=qf(6)q(t)=Vu(t),Vt E
17、 0,T(7)II(t)I=1,Vt E 0,T(8)上式为一个连续优化问题,考虑到连续优化问题的复杂度,本文将时间范围0,T】离散为N个时间步长t,假设t足够小,那么在每个时间步长内,无人机与关联基站之间的距离大致不变,那么无人机轨迹可表示为【qn)n=1,则无人机在n+1时刻与n时刻位置的关系可表示为qn+1=qn+sUn,Vn(9)I/nll=1,Vn(10)式中:s=Vt,表示每个时间步长内无人机的位移。因此,预计中断时间可近似为NTout(q(t),b(t)t)tPout(an,bn)(11)n=1令第n个时间步长的瞬时信干比为S(qn,b n;h),进一步定义指示函数为1,S(q,
18、b,h)thI(q,b;h)=(12)0,其他那么,中断概率可进一步表示为如下形式Pou(t),b(t)=Pr S(an,bn;h)%th)f(h)dhJh:S(an,bn:h)th/.I(an,bn;h)f(h)dh=E(an,bn:)(13)式中:f(h)为信道状态信息的概率密度函数。假设在第n个时间步长内,无人机对M个小区分别进行J次信号测量,S(qn,bn;hn,jl)表示其中第j(i E(O,J))次测量值,则相应的经验204第42 卷应用报学学科中断概率为(14)j=1由大数定律可知,当无人机信号测量足够频繁时,式(14)中的Pout(q n,b n)可以通过经验值Pout(q n
19、,b n)来评估。最佳关联小区可表示为b=argmin,Po u t(q n,b),由此可得到给be1,2,.,M定位置9 n处的中断概率为Pout(qn)=minPout(dn,b)(15)be(1,2,M)基于以上分析,可得到本文最终的优化目标为NF=max,-N-ZPout(an)(16)N,(an,un)n=1通过式(16)将最小化问题转换成最大化问题,为后续研究奠定基础。2基于DRL白的无人机路径规划2.1DRL基基本概念在DRL中,用于学习和决策的主体叫智能体,与之交互的事物称为环境。在每个时刻,智能体将和环境交互,产生序列So,ao,r1,S1,a1,r2,S2,a2,r3,(1
20、7)式中:S、r分别代表智能体的状态、行为以及来自环境的回报。智能体通过选择最佳行为,使所有奖励Gn的累积和最大化,Gn定义为8Gn=rn+1+rn+2+2n+3+.=rn+k+1(18)k=0式中:E0,1是折扣因子,越大,考虑的长期回报越多;反之,长期回报越少。策略函数(s)根据不同状态下不同动作的概率来选择最佳动作,从而找到最优策略元*(s)。另一个重要概念是动作价值函数Q(s,),是指在状态s下通过(s)选择动作后,可以获得的期望回报,Q元(s,)可表示为如下形式Q(s,a)=EGnlsn=S,an=a(19)DRL利用深度神经网络作为函数逼近器,通过最小化损失函数来更新网络参数(rn
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 强化 学习 无人机 路径 规划 无线电 测绘
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。