基于强化学习的无人机集群动态任务规划算法.pdf
《基于强化学习的无人机集群动态任务规划算法.pdf》由会员分享,可在线阅读,更多相关《基于强化学习的无人机集群动态任务规划算法.pdf(12页珍藏版)》请在咨信网上搜索。
1、2023 年 8 月第 19 卷 第 3 期系统仿真技术System Simulation TechnologyAug.,2023Vol.19,No.3基于强化学习的无人机集群动态任务规划算法李明哲1,马琼敏2,3*,伍国华1(1.中南大学 交通运输工程学院,湖南 长沙 410075;2.军事科学院 系统工程研究院,北京 100101;3.复杂系统仿真总体重点实验室,北京,100101)摘要:针对无人机集群动态任务规划问题,本研究提出一种基于强化学习的无人机集群动态任务规划方法。该方法将无人机集群动态任务规划划分为任务分配和路径规划2层进行求解,首先通过任务分配得到各个无人机所负责的任务集合,
2、然后在各个任务集合内通过路径规划得到无人机的飞行路径。在任务分配层面,根据大规模无人机集群任务分配存在的规模性和动态性特点,设计基于注意力机制的强化学习算法对其进行求解,该算法在深度强化学习算法的基础上引入注意力机制网络,使得算法能够高效处理无人机数目和任务数动态变化。在路径规划层面,采用基于Gurobi的最优化算法求解最优飞行路径,保证强化学习训练效果与求解结果质量。实验结果表明,在多种规模的动态任务规划中,本研究所提出的算法任务完成度较对比算法提升26.9%59.9%,方案变化量较对比算法减少12.8%19.8%,且求解时间在1 s以内。关键词:无人机集群;动态任务规划;强化学习;注意力机
3、制Dynamic Task Planning Algorithm for UAV Swarm Based on Reinforcement LearningLI Mingzhe1,MA Qiongmin2,3*,WU Guohua1(1.School of Transportation Engineering,Central South University,Changsha 410075,China;2.Institute of Systems Engineering,Military Academy of Sciences,Beijing 100101,China;3.National K
4、ey Laboratory for Complex Systems Simulation,Beijing 100101,China)Abstract:Aiming at the problem of UAV swarm dynamic task planning,this paper proposes a method of UAV swarm dynamic task planning based on reinforcement learning.In this method,the UAV swarm dynamic task planning problem is divided in
5、to two layers:task assignment and path planning.First,the task set of each UAV is obtained through task assignment,and then the flight path of the UAV is obtained through path planning within each task set.At the task assignment level,according to the scale and dynamic characteristics of task assign
6、ment in large-scale UAV swarms,a reinforcement learning algorithm based on attention mechanism is designed to solve it.This algorithm introduces an attention mechanism network on the basis of deep reinforcement learning algorithm,so that the algorithm can efficiently deal with the dynamic changes of
7、 the number of drones and the number of tasks.At the level of path planning,the optimization algorithm based on Gurobi is used to solve the optimal flight path to ensure the training effect of reinforcement learning and the quality of solution results.The experimental results show that in solving mu
8、lti-scale dynamic task planning problems,the task completion degree of the proposed algorithm is improved by 26.9%59.9%,the scheme variation is reduced by 12.8%19.8%,and the solution time is less than 1s.Key words:UAV swarm;dynamic task planning;reinforcement learning;attention mechanism基金项目:自然科学基金项
9、目(62373380)通信作者:马琼敏,E-mail:DOI:10.16812/31-1945.2023.03.014系统仿真技术第 19 卷 第 3 期近年来,随着视觉感知技术、空间定位技术、路径规划算法、智能控制技术等机器人自动化技术不断发展和成熟,各类无人机器设备如工业机器人、无人机、四足机器人得到广泛研究,并应用在物流、交通等各个领域中。其中无人机因其具有操作灵活、智能化程度高以及可以越过地形障碍等特性,被应用在工业制造、交通运输等各个领域1。在物流运输方面,多无人机逐渐被应用在物流配送任务上,不仅降低了时间与人力成本,还能在新冠疫情背景下减少面对面接触、满足防控疫情的需要2。从201
10、0年以来,亚马逊3、DHL4、谷歌等企业就纷纷布局无人机配送,美团也自2016年开始研究无人机在外卖业务中的应用,目前在深圳坪山、龙岗等8个社区、1个商圈为8 000多户居民提供无人机即时配送服务。由于单无人机受到续航时间、负载能力、运动速度等的约束,在某些复杂任务上无人机集群拥有更高的任务执行效率和容错性5,能够有效降低运输成本。目前,无人机集群相关技术得到广泛研究,无人机集群也常被应用于集群配送、集群作战、集群侦察等各种现实任务当中6-7。无人机集群协作性能依赖于高效的无人机集群任务规划算法。目前,无人机集群任务规划算法的研究方向主要分为分层规划和联合规划。分层规划的研究思路是将原问题拆分
11、为任务分配和路径规划。而联合规划的研究思路是直接对原问题进行求解,如通过智能算法,逐步优化任务执行方案,或通过多智能体每次输出无人机下一步行动方式,逐步得到完整的任务执行方案。联合规划的研究思路已有不少研究,如刘希阳5、于盛8都采用多智能体强化学习的方法解决无人机集群任务规划问题;涂铮铮9采用进化算法和强化学习结合的方法解决无人机集群任务规划问题。然而,LONG等10采用进化课程学习解决多智能体强化学习任务规划中的规模性问题,但最多也只能支持24个智能体的协同。下面分别介绍任务分配和路径规划的研究现状。(1)任务分配问题研究现状对于静态场景的任务分配,Luan等12将联盟编队博弈模型应用于无人
12、机任务分配场景,提出了一种基于合作规划的联盟形成算法。田震等13、邓可等14和许可等15主要根据已知的任务信息提前进行分配,实现任务收益最大化。Ghamry等16采用粒子群算法来计算多无人机灭火路径规划,根据相对火点距离来进行任务分配,实现了灭火任务完成总时间的最小化。上述研究主要解决静态任务分配问题,还有众多学 者 在 动 态 任 务 分 配17方 面 进 行 了 大 量 研 究。韩攀18采用合同网的方法完成多无人机协同任务分配与重分配;Zhu等19和竺殊荣20采用自组织神经网络解决多无人机动态任务分配问题。强化学习方法能够动态地与环境交互,并给出实时的、可学习的决策结果。近几年,已经有一些
13、研究将强化学习应用到动态场景的任务分配上。代琪等1、唐峯竹等21和 Sun等22采用深度强化学习(Deep Q-Network,DQN)解决无人机集群动态任务规划问题,采用基础的DQN,让智能体在与动态环境交互中不断优化任务分配策略。Kool等23提出一种基于注意力机制的强化学习方法,并将其用于求解传统的组合优化问题,取得了出色的成果。Hu等11在Kool等23基础上,结合注意力机制、图神经网络与REINFORCE强化学习算法求解静态任务分配问题,其算法采用图神经网络进行特征提取,并使用注意力机制进行特征匹配,最后在实验中优于设置时限的OR-tools运算性能。但Hu等11提出的强化学习算法最
14、多只能支持10架无人机执行任务,并没有考虑动态因素对任务分配的影响,难以应对动态场景下大规模无人机集群任务规划问题。(2)路径规划研究现状针对无人机路径规划的算法研究主要分为精确算法和近似算法。精确算法主要包括动态规划24、分支定界25、Dijkstra 算法26等方法,该类方法能够求得问题的最优解,但其运算代价随规模呈指数级增长,因此适合规模较小的情况。近似算法则主要采用启发式算法求解近似最优解,如模拟退火算法27、遗传算法28等,该类方法在路径规划中经常被用到,其优势在于能够短时间内求得大规模路径规划的近似最优解,但是其不能保证质量,且在小规模问题上性能并不突出。本研究针对无人机集群动态任
15、务规划研究中存在的规模性和动态性问题,将无人机集群动态任务规划划分为任务分配和路径规划进行求解,首先通过任务分配得到各个无人机所负责的任务集合,然后在各任务集合内通过路径规划得到无人机的飞行路径。在任务分配层面,根据大规模无人机集群任务分配存在的规模性和动态性特点,设计基于注意力机制的强化学习算法对其进行求解。在路径规划层面,采用基于Gurobi的最优化算法求解最优飞行路径,保证强化学习训练效果与求解结果的质量。194李明哲,等:基于强化学习的无人机集群动态任务规划算法1 无人机集群动态任务规划问题与模型 1.1问题描述各类无人机集群任务如目标搜索、物资运送、打击突防等,都可以转换为无人机集群
16、任务规划问题,其本质都是给各无人机分配任务并规划任务执行路径。不考虑动态因素的情况下,无人机集群静态任务规划只考虑无人机集群从一个或多个起点出发,在时间约束内遍历各任务点即可,如图1所示。考虑动态因素的情况下,则转变为无人机集群动态任务规划:无人机集群在执行原任务规划方案过程中,会遭遇多种动态扰动因素,如无人机损毁、任务新增等,此时原任务规划方案失效,需要对原任务规划方案进行调整,以保证任务完成率。1.2无人机集群动态任务规划基本要素在无人机集群任务规划场景中,有Nu架无人机和Nv个任务目标,定义t代表时间步,t 0,tmax,假设任务开始于t=0,任务区域范围为Area(x轴坐标xarea0
17、,xmax;y轴坐标yarea 0,ymax),无人机飞行速度为V,无人机最大航程为Lmax。定义t时刻环境状态St=Uavst,Targetst,无人机信息Uavst主要包括无人机位置Puti Area(i=1,Nu)、无人机剩余航程Lti(Lti Lmax;i=1,Nu),而任务目标信息Targetst则包含任务目标位置Pvtj Area(j=1,Nv)。定义任务分配模型的输出结果为各无人机所负责的任务集Tasksti(i=1,Nu),Tasksti即表示时间t时无人机i所负责的所有任务序号组成的集合;路径规划模型的输出结果为各无人机的行动路线Routeti(i=1,Nu),Routeti
18、即时间t时无人机i所负责的所有任务的序号组成的序列,其顺序为执行任务的顺序。1.3动态任务分配模型动态任务分配模型根据初始状态信息(各无人机位置Pu、各任务目标位置Pv、各无人机最大航程L)进行多次任务规划决策,并考虑发生动态事件对决策的影响:以无人机最大航程为约束条件,以最大化无人机任务总完成量为目标,给出各无人机的任务分配方案Taskst=Tasksti|i=1,Nu及其对应的各无人机的路径规划方案Routet=Routeti|i=1,Nu。定义0-1变量aij 0,1代表第j个任务目标是否被分配给第i个无人机,0-1变量yij 0,1代表第j个任务是否在第i架无人机的任务执行路径当中,即
19、第j个任务是否被第i架无人机执行完成。任务分配完成后,需要对各无人机进行路径规划,在本模型内用Path Plan()函数代表这一功能,Path Plan()函数输入任务分配方案Tasks与无人机最大航程L,输出各无人机规划的满足航程约束的任务执行路径。maxa t=0tmaxj=1Ntvi=1Ntuytij-t=0tmaxj=1Taskstctj(1)yti=PathPlan(Tasksti,min(zti,V),(2)t=0,tmaxctj=1,j Taskti0,j Taskti,(3)j(Taskt-1i/Solvedt);t=0,tmaxTasksti=j|atij=1,(4)i=1,
20、Ntu;t=0,tmaxi=0Ntuatij=1,(5)j=1,Ntv;t=0,tmax&Svdtj=0i=0Ntuatij=0,(6)j=1,Ntv;t=0,tmax&Svdtj=1j=0Ntvatij=0,(7)j=1,Ntv;t=0,tmax&Dmgti=1ytij atij,(8)i=1,Ntu;j=1,Ntv;t=0,tmax其中,式(1)表示以任务完成量最大化和方案变化量最小化为目标函数;式(2)表示根据任务分配方案和航程得到各个任务的完成情况,其中航程为单位时间航程与无人机当前剩余航程中的最小值;式(3)定义ctj为方案变化量,其中,Solvedt代表到t时已经完成的任务编号集合
21、;集合运算“A/B”表示集合A去除与集合B的交集部分,即A B。Taskt-1i-Solvedt即代表上一时间段分配给无人机i的任务集中尚未完成的部分;式(4)图1无人机集群动态任务规划Fig.1UAV swarm dynamic mission planning195系统仿真技术第 19 卷 第 3 期表示Tasksti变量是由任务序号j组成的集合,而j为分配给无人机i的任务序号;式(5)表示t时刻尚未完成的目标都有且仅有一个无人机负责执行;式(6)表示t时刻已完成的目标不再被分配;式(7)表示t时刻已损毁的无人机不再被分配任务;式(8)表示任务仅能被分配的无人机执行。1.4路径规划模型给
22、定 当 前 无 人 机 任 务 集 合Tasks=0,n(0为无人机当前位置)和剩余航程L,且所有无人机均从基地出发并完成各个任务;xij为0-1变量,其值为 1表示无人机从任务点i出发前往j点执行任务;yi同样为0-1变量,其值为1表示无人机执行过任务i;zi为无人机到达任务点i时所剩余的航程大小。本研究针对多无人机任务路径规划问题,考虑无人机在执行任务过程中不能超过其原剩余航程L,在此基础上使得所有无人机执行的任务数量最大,由此得到多无人机任务路径规划数学模型如下所示。maxi=1n-1yi(9)j=0nxij=j=0nxji=yi(i=1,2,n)(10)i=0nj=0ndijxij L
23、(11)xij=0(i=j&i,j=0,1,2,n)(12)zi-zj+L xij L-dij (13)(i j&i,j=0,1,n)zi L-di0 (i=1,2,n)(14)其中,式(9)为目标函数,即最大化任务完成数;式(10)表示每个任务最多只能被执行一次;式(11)表示无人机总航程不能超过其航程限制;式(12)-(14)则表示避免自环和子圈的产生。2 基于强化学习的无人机动态任务规划算法 本研究所提出的基于注意力机制的无人机集群任务动态规划算法主要包含任务分配和路径规划2个部分,其中任务分配主要采用基于注意力机制的神经网络及基于 REINFORCE 的改进强化学习算法进行求解,而路径
24、规划主要采用启发式和最优化方法进行求解。采用任务分配、路径规划2个阶段框架求解无人机集群动态任务规划问题,能够缩减强化学习中的状态空间,降低策略的学习难度,进而使得智能体能够学习到更优的策略。算法基本框架如图2所示。其中,无人机/任务目标特征信息加工即是采用基于多头注意力机制的编码器对位置信息、航程信息进行特征提取,为特征匹配做准备,而特征匹配过程则是对无人机、任务目标的特征信息进行注意力机制运算,以得到各无人机对各任务目标的匹配度,并根据匹配度将任务目标分配给合适的无人机,特征匹配结果即是各个任务被分配到的无人机编号。根据任务分配的结果,可以得到各个无人机及其所负责任务目标组成的无人机任务集
25、合,而路径规划所完成的内容即是在任务集合内为无人机规划路径。本研究采用启发式算法与最优化算法求解路径规划问题,得到总的成本消耗、约束冲突与效能,用于评估任务分配结果,得到强化学习算法所需的奖励值,以此引导强化学习算法不断训练得到更好的任务分配策略。2.1强化学习基本框架强化学习基本框架包括状态空间、动作空间、状态转移过程、奖励函数。对于初始有M个任务目标和N架最大航程为lmax的无人机任务分配问题,其状态空间、动作空间及状态转移方程如下所示。2.1.1 状态空间无人机集群任务分配在t时刻的状态向量主要包含各无人机位置Ptuav=(xtuav,ytuav)、各无人机剩余航程ltuav、各任务目标
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 强化 学习 无人机 集群 动态 任务 规划 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。