改进型DDPG算法的多智能体编队控制与仿真.pdf
《改进型DDPG算法的多智能体编队控制与仿真.pdf》由会员分享,可在线阅读,更多相关《改进型DDPG算法的多智能体编队控制与仿真.pdf(10页珍藏版)》请在咨信网上搜索。
1、第34卷第3期2023年9月广 西 科 技 大 学 学 报JOURNAL OF GUANGXI UNIVERSITY OF SCIENCE AND TECHNOLOGYVol.34No.3Sept.2023改进型DDPG算法的多智能体编队控制与仿真景永年1,2,耿双双1,3,向瑶1,3,文家燕*1,3,4(1.广西科技大学自动化学院,广西柳州545616;2.黑芝麻智能科技有限公司,广东深圳518005;3.智能协同与交叉应用研究中心(广西科技大学),广西柳州545616;4.广西汽车零部件与整车技术重点实验室(广西科技大学),广西柳州545616)摘要:针对多智能体系统编队在路径规划过程中队
2、形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化起始点和终点概念,添加路径中点的方式,使智能体同时从起点以及终点向中点移动,形成由起点指向中点、终点指向中点的2条路径。将奖励函数设计为同号智能体相碰为正向奖励,异号智能体相碰以及智能体(同号智能体和异号智能体)与障碍物之间相碰均为负向奖励。在搭建的静态和动态障碍物2种仿真环境下分别进行可变容量体验池深度确定性策略梯度算法(deep deterministic policy gradient-variable cap
3、acity experience pool,DDPG-vcep)验证,并对比不同训练次数下的奖赏值。仿真结果表明,改进后的DDPG编队算法较传统DDPG算法节约了路径获取时间,编队避障的效果更加明显。关键词:深度学习;强化学习;深度确定性策略梯度算法(DDPG算法);多智能体;编队控制;避障中图分类号:TP273DOI:10.16375/45-1395/t.2023.03.0090引言随着多智能体系统在军事和民用领域上的应用越来越广泛,其中多智能体系统之间的协作或协调问题受到了越来越多的关注,在卫星群协同控制、无人机编队控制、多机器人系统分布式优化、自动化公路系统调度等领域有着广泛的应用1-4
4、。在多智能体群体中,编队控制是最基本、最重要的研究课题之一,它要求一组智能体保持预定的队形在期望的轨迹上运动,也可以看作是所有的自治智能体通过协作来完成共同的任务。因此,多智能体编队可以广泛应用于航空航天、工业、娱乐等领域5-7。随着理论研究的深入和现实应用需求的增加,围绕多智能体编队控制的研究越来越结合实际工况约束。现有的编队控制方法主要是针对确定性多智能体系统,不考虑任何随机干扰。然而多智能体通信中经常受到各种随机噪声的干扰,如热噪声、信道衰落和编解码过程中的量化效应8-12,因此,随机动态模型比确定性模型更能准确地描述实际的多智能体系统。为确定性系统开发的许多控制技术已成功地扩展到随机动
5、态系统,但由于高维度问题13,这些技术无法直接应用于多智能体系统控制中。近年来,随着深度强化学习方法在多智能体系统编队控制的深入研究,为解决维度高的问题提供了新思路。深度确定性策略梯度(deep deterministic policygradient,DDPG)算法是一种只适用于连续动作空间的off-policy算法,是深度Q-Learning算法在连续动作空间中的扩展。本文在传统的DDPG算法的基础上进行改进,在多智能体编队避障过程出现“局部困扰”和获得避障路径效率低的情况下,结合双向搜索以及改进奖励函数解决多智能体编队避障控制问题。收稿日期:2023-01-05基金项目:国家自然科学基金
6、项目(61963006);广西自然科学基金项目(2018GXNSFAA050029,2018GXNSFAA294085);2022年广西汽车零部件与整车技术重点实验室自主研究课题(2022GKLACVTZZ01)资助第一作者:景永年,硕士,工程师,研究方向:多车辆协同控制*通信作者:文家燕,博士,教授,研究方向:多智能体系统协同与控制研究,E-mail:第3期景永年等:改进型DDPG算法的多智能体编队控制与仿真1整体框架在传统的深度强化学习算法DDPG基础上研究多智能体系统编队整体框架,如图1所示,主要由4个模块构成。)F,DDPG1#,75L1#Agent35Agent 1Agent 2Ag
7、ent n.G5L12.n 图1整体框架图1)环境建模模块:设置智能体需要训练的环境,包括多智能体的起始点位置、中点位置、障碍物位置等。2)多智能体系统模块:由多个智能体构成,本实验设置的是4个智能体。多智能体系统设置的是智能体本身的一些参数,包括转角、移动速度等。3)基于改进的DDPG算法的多智能体系统编队控制算法模块:该模块中涉及到的改进算法是在DDPG算法基础上作了奖励函数以及智能体编队方式、智能体起点中点设置的改进。4)任务分配(编队)模块:每个智能体在保持自身与其他智能体相对位置的情况下,构建成菱形编队到达中点位置,遇到障碍物会切换队形,并重新设置智能体之间的相对距离,形成一字型绕过
8、障碍物。1.1环境建模多智能体避障所构建的环境如图2所示,环境地图较为简单。所建环境大小为1010,其中地图中的数字由小到大分别对应的是智能体可行使区域、障碍物位置、智能体所在位置、中点位置。在二维坐标平面分别在(1,2)、(1,3)、(2,2)、(2,3)位置处设立智能体的初始位置;在二维坐标平面(5,5)、(5,6)、(6,5)、(6,6)位置处建立第一次由起始位置所到达的中点位置;在二维坐标平面(8,7)、(8,8)、(9,7)、(9,8)位置处建立4个智能体的第二次起点位置;重点设立的障碍物在二维平面坐标的中点位置附近,目的是干扰智能体到达中点,验证改进算法的可行性。000010112
9、2000111002201110010000110110100000033001000003301110220010101022000001000101000000010010000图2栅栏环境图1.2任务分配任务分配是多智能体系统编队中必须应用到的。本文研究的多智能体编队控制的任务分配问题是:在环境中有4个智能体,每个智能体对应的任务分配为从起点以一定的队形到达对应的目标点,此为任务分配一;对于任务分配二,要求4个智能体从目标点出发按照相同的队形到达起点,在遇到障碍物时变换队形越过障碍物,最终实现任务一与任务二的统一,在中点处重合,形成一条完整的避障路径,以达到获取避障路径效率最快的目的。1
10、.3多Agent编队控制算法本文采用的多智能体系统编队控制方法是多智能体首先在障碍物环境中有一个起始位置,然后按照智能体之间设置的安全距离进行菱形编队,向着中点方向进行移动,在移动过程中若遇到障碍物则进行编队重构,形成一字型,绕过障碍物,之后恢复菱形编队到达中点。与同类型编队算法不同的是,本文算法新添加了一重反方向的编队,中点位置没有发生改变,从第一次多智能体到达的目标点为起点向着中点进行编队前行。最终二者会形成一条完整的避障路径,会在避障效率上大大减少训练时间。1.3.1菱形编队多智能体采用菱形编队的示意图如图3所示。其中黑色方块代表的是智能体P1、P2、P3、P4,对应 位 置 坐 标 分
11、 别 为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)。智能体P1、P2之间的夹角为1,智能体P2、P3之间的夹角为2,智能体P3、P4之间的夹角为3。通过采用角度距离的测量方式保持智能体间的相对距离,形成菱形编队。63第34卷广 西 科 技 大 学 学 报yxoP2(x2,y2)P1(x1,y1)P4(x4,y4)P3(x3,y3)1234图3多智能体菱形编队示意图角度距离度量的是智能体之间的方向,角度度量的距离更多的是衡量在各个维度上的比例差异,和绝对距离数值关系不大。其中一个特点是在智能体与原点连线上的角度距离不变,因此单独2个智能体避障时不宜采用角度距离的方式限制它们之
12、间的相对位置。但本文采用4个智能体进行编队,角度距离度量可以使智能体之间产生菱形编队。由于直接计算智能体之间的夹角比较困难,可采用arccos来代替角的计算,具体计算公式如式(1)式(4)所示:arccos1=(x2-x1)(x4-x1)+(y2-y1)(y4-y1)(x1-x2)2+(y1-y2)2(x4-x1)2+(y4-y1)2,(1)arccos2=(x1-x2)(x3-x2)+(y1-y2)(y3-y2)(x1-x2)2+(y1-y2)2(x3-x2)2+(y3-y2)2,(2)arccos3=(x2-x3)(x4-x3)+(y2-y3)(y4-y3)(x2-x3)2+(y2-y3)
13、2(x4-x3)2+(y4-y3)2,(3)arccos4=(x1-x4)(x3-x4)+(y1-y4)(y3-y4)(x1-x4)2+(y1-y4)2(x3-x4)2+(y3-y4)2.(4)对于角度距离arccos的推导是类似的。本文以arccos1为例进行分析,如图 4 所示为智能体P2、P4与智能体P1之间形成的角度1,则cos 1=P1P2 P1P4|P1P2|P1P4=(x2-x1,y2-y1)(x4-x1,y4-y1)(x2-x1)2+(y2-y1)2(x4-x1)2+(y4-y1)2=(x2-x1)(x4-x1)+(y2-y1)(y4-y1)(x2-x1)2+(y2-y1)2(
14、x4-x1)2+(y4-y1)2.(5)由反三角余弦可知式(1)得证。yxoP2(x2,y2)P1(x1,y1)P4(x4,y4)P3(x3,y3)1图4智能体间角度距离示意图初始状态下,智能体之间按照第一次菱形编队时的各个坐标位置计算出两两智能体之间的arccos值,其值确定后保持不变,在遇到障碍物前都会以相对角度进行移动。当遇到障碍物时会进行编队切换,形成一字型进行避障。1.3.2一字型切换如图5所示为多智能体遇到障碍物后切换成一字型的示意图。对于一字型的多智能体系统编队,本文采用欧式距离的计算方式保持“一”字队形。欧式距离是指两点之间的连线的距离,具体计算方式如式(6)式(8)所示:d1
15、=(x2-x1)2+(y2-y1)2,(6)d2=(x3-x2)2+(y3-y2)2,(7)d3=(x4-x3)2+(y4-y3)2.(8)本文一字型编队中距离的设置始终满足d1=d2=d3。yxoP2(x2,y1)P1(x1,y1)P4(x4,y1)P3(x3,y1)d1d3d2图5多智能体一字型示意图2基于 DDPG 算法的多 Agent 编队控制2.1DDPG相关理论DDPG算法14是深度强化学习算法的一种。在多Agent编队控制中,DQN算法只能用于动作离散64第3期景永年等:改进型DDPG算法的多智能体编队控制与仿真的强化任务。为了将深度强化学习算法应用于连续动作空间中,Johnso
16、n等15提出了DDPG算法。如图6所示为DDPG算法的流程框架。TargetOnlineyi图6DDPG路径规划实现框架从图6中可以看出,DDPG算法框架满足强化学习的马尔可夫决策过程(Markov decision process,MDP)16。2个正方形框为智能体的内容,包含了演员和评论家。演员和评论家均包含在线策略和目标策略2个网络模型,其中演员负责将策略网络参数迭代更新,评论家负责计算目标Q值。通过演员与环境进行交互的过程,把交互所产生的样本存储在经验池(experience memory)中,在下一个时间步中,经验池把小批量样本数据传递给演员和评论家进行计算。根据图 6 所示 DDP
17、G 算法框架,得到初始状态值。Step 1初始化随机初始化评论家网络Q(s,a;Q)和演员网络(s;)的权重参数Q和;初始化目标网络Q和,其中网络的权重参数为Q Q、;初始化经验回放池R。Step 2重复经验轨迹(episode)随机初始化过程N进行动作搜索,获得初始状态值s0。Step 3重复Step 1、Step 2,更新演员网络与目标,从而达到寻优目的。1)根据当前带有噪声的策略计算当前时间步长的动作at=(st;)+Nt;2)执行动作at,并记录奖 励rt和 新 的 状 态st+1;3)存 储 转 换 经 验(st,at,rt,st+1)在经验池R中;4)从经验池R中随机采样小批量的转
18、换经验样本(si,ai,ri,si+1),设yi=ri+Q(si+1,(si+1;);Q);5)最小化损失函数更新评论家网络L=1Ni(yi-Q(si,ai;Q)2;6)使 用 梯 度 策 略 算 法 更 新 演 员 网 络,J 1NiaQ(s,a;Q)|s=si,a=(si)(s;)s;7)更新目标网络,Q Q+(1-)Q,+(1-)。2.2多Agent编队控制在多 Agent 的深度强化学习过程中,每个Agent 获得的奖励不仅取决于 Agent 自身的动作,同时还依赖于其他Agent的动作。因此本文将强化学习的 MDP 模型扩展为多马尔可夫决策过程(MDPs)。现假设有n个智能体,每个A
19、gent选择的动作是连续的动作空间A,每个Agent的状态亦是连续的状态空间,则多个Agent采取的联合动作可以表示为A,多个Agent的联合状态可以表示为S。基于深度强化学习的基本模型,结合本文的任务目标,本文定义了多Agent的路径规划学习框架,具体情况如图7所示。65第34卷广 西 科 技 大 学 学 报Agent n图7多Agent路径规划学习框架2.3奖赏函数设计在智能体避障环境下,设计不同的奖赏函数会获得不同的行为策略,因此奖赏函数设计对智能体学习过程起着关键作用。对于传统的奖赏函数设计多用稀疏函数的方式,这会造成智能体在训练阶段获得的奖励值较少,智能体在获得策略价值上也会出现困难
20、,如文献17,奖赏函数如式(9)。因此本文对传统的奖赏函数进行改进,结合智能体避障环境,奖赏函数改进如式(10)所示。r=(dtotal-dgoaldtotal)+100,目标点,-1,碰撞,(dtotal-dgoaldtotal)2,其他.(9)式中:dgoal表示在t时刻智能体所在位置至目标点距离,dtotal表示在整个环境中智能体起始位置至目标点的总距离。Ri=+100,智能体到达目标点,-1,智能体未到达目标点,-W1 Dg,-1,Do 10,-W2 Tsteps.(10)其中:W1指设置的权重,取值为0.1;Dg指平均每个智能体到达中点的距离;Do指每个智能体距离障碍物的距离,其值设
21、置为在10个单位附近时就给一个负奖励;W2为设置的权重,取值为 0.1;Tsteps为完成整个训练所需要的次数,所需要的次数与奖励成反比。研究表明17,如果奖赏值设置过小,会导致智能体在训练过程中所得到的奖励变化不大,使得智能体在到达目标点的过程中效率变低;如果奖赏值设置过大,而对应惩罚太小,则会导致智能体在进行避障探索中出现无作为的现象,即无法获得大的奖励,智能体将会在原位置保持不动,使整个路径规划缓慢。基于文献17,将式(9)、式(10)中的数值设置为 100。将改进后的奖赏函数值设置为100 的目的有二:其一为与对比仿真算法保持一致;其二是使奖赏值与惩罚保持在合理区间,使得智能体快速到达
22、目标点。3数值仿真分析为了使算法学习到的策略更吻合真实环境下多智能体系统编队避障,使用Python语言与pyglet数据库搭建了仿真环境模型,最大程度地还原真实环境信息。本文仿真环境模型搭建以及算法实验验证所使用的计算机配置为:编程语言Python3.6.0,深度学习框架Tensorflow2.0.0,pyglet、numpy、matplotlib等数据库。3.1静态障碍物环境下仿真图8为验证改进算法的多智能体系统避障环境。设置环境地图大小为400 400的二维空间,采用栅格法模拟环境。黑色的圆形部分代表障碍物,其大小不一;4个绿色的三角构成的是同构智能体,其大小设置为每个边长为L=5,速度设
23、置为v=1;红色的三角位置分别代表每个智能体需要到达的中点位置,其坐标由起点和终点的位置决定,其中横纵坐标仅表示智能体和障碍物的相对位置信息,计算公式为()xend-xstart/2,()yend-ystart/2。4003002001000Y100200300400X静态障碍物中点位置智能体图8(网络版彩图)路径规划仿真环境仿真实验以4个智能体为例,仿真结果如图9所示。66第3期景永年等:改进型DDPG算法的多智能体编队控制与仿真图9所示为多智能体系统采用改进的DDPG算法与编队队形切换方法结合后在静态障碍物环境下的避障仿真图。从图9(a)(f)中可以看出,多智能体的起始位置随机变化,将智能
24、体以菱形队形编队并设置其初始位置,设置移动速度v=1向中点移动,在移动的过程中遇到障碍物时,为保障智能体能安全绕过障碍物,并缩小智能体间的相对空间,以“一”字队形绕开障碍物,然后恢复到菱形编队到达中点位置。从图9(g)(l)中可以看出,多智能体设置移动速度v=-1向中点移动,其移动过程为镜像下的起点向中点移动。当智能体同时进行如图9(a)(f)和图9(g)(l)所示的训练时,所获得的多智能体编队避障路径时间将减少近50%。为验证改进的DDPG算法以及编队算法的通图9(网络版彩图)静态障碍物环境下多智能体系统编队仿真(a)智能体初始状态(b)智能体形成初始队形(c)菱形移动40030020010
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进型 DDPG 算法 智能 编队 控制 仿真
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。