分销赏收藏举报申诉 / 15

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于投影奖励机制的多机器人协同编队与避障.pdf

基于投影奖励机制的多机器人协同编队与避障.pdf

上传人：自信****多点

文档编号：3634349

上传时间：2024-07-11

格式：PDF

页数：15

大小：1.51MB

《基于投影奖励机制的多机器人协同编队与避障.pdf》由会员分享，可在线阅读，更多相关《基于投影奖励机制的多机器人协同编队与避障.pdf（15页珍藏版）》请在咨信网上搜索。

1、第42卷第1期2024年1月应用科学学报JOURNAL OF APPLIED SCIENCESElectronics and Information EngineeringVol.42 No.1Jan.2024DOI:10.3969/j.issn.0255-8297.2024.01.014基于投影奖励机制的多机器人协同编队与避障葛星1,2，秦丽1,2，沙1,21.华中农业大学信息学院，湖北武汉 4300702.湖北省农业大数据工程技术研究中心，湖北武汉 430070摘摘摘要要要：针对多机器人协同编队任务中过度中心化、系统鲁棒性低、编队稳定性较差等问题，提出了基于投影奖励机制的多机器人协

2、同编队与避障（projected reward for multi-robotformation and obstacle avoidance,PRMFO）模型，实现了多机器人基于统一状态表征方法的去中心化决策过程。设计了一种多机器人统一状态表征方法，实现了机器人与外界环境交互信息处理的一致性；基于统一状态表征设计了基于投影的奖励机制，从距离和方向两个维度将奖励过程矢量化，丰富机器人的决策依据；为了解决多机器人系统中过度中心化问题，设置了自主决策层，融合统一状态表征与投影奖励机制的软演员评论家（soft actor-critic,SAC）算法，实现了多机器人协同编队与避障任务。在机器人操作系统

3、（robot operating system,ROS）环境下进行仿真实验，实验数据表明 PRMFO 模型在单机器人平均回报值、成功率以及时间等指标上分别提高 42%、8%、9%，基于 PRMFO 模型的多机器人编队误差控制在00.06 范围内，实现了较高精度的多机器人编队。关键词：深度强化学习；多机器人协同；编队与避障；投影奖励中图分类号：TP273文章编号：0255-8297(2024)01-0174-15Projected Reward for Multi-robot Formation andObstacle AvoidanceGE Xing1,2,QIN Li1,2,SHA Ying

4、1,21.College of Informatics,Huazhong Agricultural University,Wuhan 430070,Hubei,China2.Hubei Engineering Technology Research Center of Agricultural Big Data,Wuhan 430070,Hubei,ChinaAbstract:To address issues of excessive centralization,low system robustness,and forma-tion instability in multi-robot

5、formation tasks,this paper introduces the projected rewardfor multi-robot formation and obstacle avoidance(PRMFO)approach.PRMFO achievesdecentralized decision-making for multi-robot using a unified state representation method,ensuring consistency in processing information regarding interactions betw

6、een robots andthe external environment.The projected reward mechanism,based on this unified staterepresentation,enhances the decision-making foundation by vectorizing rewards in both收稿日期：2023-06-29基金项目：国家自然科学基金（No.62272188）；国家社会科学基金一般项目（No.19BSH022）；中央高校基本科研业务费项目（No.2662022XXYJ001,No.2662022JC004,No

7、.2662021JC008,No.2662023XXPY005）资助通信作者：秦丽，研究方向为智能机器人、人工智能。E-mail:第1期葛星，等：基于投影奖励机制的多机器人协同编队与避障175distance and direction dimensions.To mitigate excessive centralization,an autonomousdecision layer is established by integrating the soft actor-critic(SAC)algorithm with uni-form state representation and

8、the projected reward mechanism.Simulation results in therobot operating system(ROS)environment demonstrate that PRMFO enhances average re-turn,success rate,and time metrics by 42%,8%,and 9%,respectively.Moreover,PRMFOkeeps the multi-robot formation error within the range of 0 to 0.06,achieving a hig

9、h levelof accuracy.Keywords:deep reinforcement learning,cooperative multi-robot,formation and obstacleavoidance,projected reward将简单机器人组成模块化的多机器人系统以探索未知环境，并将其应用于重复性、危险性领域已成为研究热点1。其中多机器人的协同编队与避障任务是完成各项任务的基础2。根据通信方式的不同，传统的多机器人编队方式可以分为集中式和分布式两种3。集中式架构依靠主控单元获取所有机器人的状态信息后发布运动指令。文献 4 在集中式体系结构中引入图结构，将机器人看作图

10、中的顶点，通过边的关系运算得出多机系统中所有机器人的位置信息。集中架构形成的编队稳定性较好，但对主控单元的依赖性太强，一旦主控单元出错，则多机编队会溃散。另外集中式方式要求主控单元具备较高的计算力，若计算力不足也会出现编队系统效率低下的问题。因此文献 5 提出了一种新的分布式体系结构。在分布式体系结构下，编队系统内各机器人间可互相通信，共享邻居机器人的速度和位置信息，并基于此来决定自身的策略选择。分布式结构不受主控单元的影响，且对各机器人的计算力要求不高。但由于机器人的位置变化较快，各机器人因受通信延迟的影响而无法及时接收到其他机器人的位置信息，容易造成编队混乱。为此研究人员提出了分层体系结构

11、6，设置主控单元负责统筹全局信息，各机器人通过互相通信和主控单元信息共同确定自身运动。基于以上 3 种通信方式衍生出多种控制方法，如跟随领航法7、虚拟结构法8、基于行为法9、人工势场法10、遗传算法11等。随着强化学习12和深度学习13的不断发展，深度强化学习技术在多机器人领域应用越来越广泛。从分布式体系结构出发，文献 14 实现了基于深度强化学习多机器人协同避碰策略，但由于深度强化学习需要处理大量数据，对机器人的配置要求较高，因此大多适用于大型机器人。综合考虑机器人性能及成本等因素，分层式体系结构更为适用。相较于传统方法，基于分层式的深度强化学习方法提高了机器人感知外界环境的能力15，仿真环

12、境下训练的模型可以迁移到其他多种未知环境，且具备更强的适应性与可探索性。多机器人中包含自身位置、速度、传感器、其他机器人以及障碍物等多种信息，当深度强化学习技术应用于该任务时，如何从多机器人系统中提取有效信息来定义当前的状态就成了基础。在状态定义的基础上设计高效的奖赏机制，实现状态与动作之间的映射关系是深度强化学习的关键16。聚焦于此，文献 17 将深度强化学习方法与跟随领航方法相结合，利用机器人与目标位置的距离实现状态与动作之间的映射，但由于编队设置了中心点作为基准，对其中的跟随机器人和领航机器人的状态定义进行了区分，仅领航者使用深度强化学习方法完成自身决策，而跟随者依赖于领航者的决策采用了

13、传统的速度控制方法，因此编队系统中心化程度较高，鲁棒性较低。基于深度强化学习实现多机器人协同编队与避障任务中各机器人策略选择的关键问题在于：1）状态表征是深度强化学习方法的基础，多机器人系统内包含位置、速度、传感器等多种状态信息，且处于动态变化中，如何精确定义各机器人当前状态是首先要面临的问题；2）如何设计更为高效的奖励机制，准确定义状态与动作之间的映射关系；3）如何通过深度强化学习方法实现多机器人系统内各机器人自主决策，实现去中心化的多机器人系统。176应用科学学报第42卷针对以上问题，本文提出了一种基于投影奖励机制的多机器人协同编队与避障（projectedreward for multi

14、-robot formation and obstacle avoidance,PRMFO）模型。设计了统一状态表征方法，将机器人状态分为可观测状态和预测状态；在统一状态表征基础上设计矢量化的投影奖励机制判断当前动作的优劣；最后通过自主决策层为各机器人独立决策提供方法，并基于机器人操作系统（robot operating system,ROS）进行仿真实验，结果表明 PRMFO 方法在单机器人平均回报值、成功率以及时间指标上分别提高 42%、8%、9%，多机器人编队误差控制于 00.06 范围内，实现了较高精度的多机器人编队。1理论基础当深度强化学习技术应用于多机器人系统时，首先要解决的是以适

15、当的数据形式表征当前环境状态，例如机器人自身状态、多机器人编队信息、机器人与障碍物以及机器人间的碰撞信息等。根据各机器人间有无信息交互，状态表征方法有所不同。在无信息交互的情况下，文献 18 从图像角度出发，获取多机器人系统所处环境的图像，得到栅格化的环境状态，其中每格代表一个像素点，用像素信息作为当前价值评估的状态表征。此种表征方法虽较精准，但图像处理维度过高，计算量太大。文献 19 针对该问题，将每个机器人的状态信息分为自身的状态信息和其他信息，其他信息包括环境信息和多机器人系统中其他机器人信息，将其中的不变特征按一定顺序提取，再根据值函数选择最优动作指引其到达目标位置，避免每个机器人与环

16、境中障碍物或其他机器人发生碰撞。为了进一步将其他机器人与环境中障碍物统一化处理，文献 14 提出传感器级分散式碰撞策略，通过机载传感器获取原始数据，将传感器数据和其他机器人位置信息统一定义为障碍物信息，并将其映射为无碰撞的动作指令，从而学习到最优策略。为了减少各机器人的计算压力，文献 20 开发了一个完全分散的避碰框架，每个机器人的导航策略均以自身机载传感器收集的测距数据作为输入，输出相应的速度命令，而在编队系统内不进行任何通信。以上无信息交互的深度强化学习方法大多采用图像信息或机器人传感器信息来表征当前机器人状态或环境状态，在避障方面效果较好，但由于机器人间缺少交互，协同能力较差。为了增强多

17、机器人系统的协同能力，文献 21 通过增加机器人间的信息交互，将编队系统内除自身外其他机器人看作动态障碍物，各机器人发送自身位置和速度，并将其作为状态信息，采用速度障碍法预测碰撞区域，进而选择最优动作，完成路径规划。此种方法加强了机器人间的信息交流，达到了协同避碰的效果，但在移动过程中仍将其他机器人看作障碍物，并未涉及路径规划过程中的协同编队任务。为此，文献 22 引入跟随领航法形成协同编队，同时采用深度强化学习的方法融合传感器数据进行编队避障，但针对领航者和跟随者的表征方法进行了区分，且跟随者完全依赖于领航者的策略选择，若领航者发生碰撞或计算错误，则编队失败。因此如何统筹处理多机器人系统内各

18、机器人信息、传感器信息以及环境信息并准确定义机器人当前状态亟待解决。奖赏函数实现了状态与动作之间的映射，是指导机器人学习的关键。在状态定义的基础上，制定高效的奖赏机制是关键。早期研究主要设置离散化奖励指导机器人躲避障碍物并抵达目标位置。文献 23 根据机器人与障碍物的距离范围给予负奖励值，使得机器人具备避障能力。文献 24 通过设定不同状态下的奖赏值，鼓励其不断完成目标任务。此种方法实现起来简单有效，但对于距离范围的设定和给定奖励数值的大小较为敏感且缺乏相应的规则。为了解决上述问题，文献 25 直接将机器人与障碍物的距离设置为奖励值，形成连续化奖励。为了进一步扩大机器人执行动作的奖惩差距，文献

19、 26 引入奖励参数，优化连续性奖惩第1期葛星，等：基于投影奖励机制的多机器人协同编队与避障177函数，鼓励机器人更接近目标位置，并使其躲避环境中的障碍物。以上基于距离的方法较为直观，但不足在于：该方法的表现效果与环境大小和机器人动作的距离大小息息相关；奖赏参数的设定同样缺乏相应的规则。2PRMFO 模型PRMFO 模型框架如图 1 所示，包括以下 3 部分：统一状态表征、投影奖励机制和自主决策层。在当前多机器人系统内编队信息、各机器人位置信息、速度信息以及雷达信息的基础上，统一状态表征将各机器人状态分为可观测状态和预测状态；投影奖励机制根据机器人实际状态变化与预测状态变化之间的差异衡量当前动

20、作的效果；最后通过自主决策层各机器人判断自身状态下的最优动作，完成决策过程，从而实现多机器人自主决策的协同编队任务。?st+1rtstatst图 1 PRMFO 模型框架图Figure 1 Framework of PRMFO在多机器人协同任务中，若将所有机器人的状态组合成状态向量会使深度强化学习的过程计算量过大，且收敛速度过慢27。为了实现多机器人与复杂环境交互过程的一致性，PRMFO 设计了统一的状态表征方法，将机器人状态分为可观测状态和预测状态，其中可观测状态包括 t 和 t+1 时刻各机器人自身状态与目标状态的相对关系、各机器人速度信息以及雷达信息；预测状态为 t 时刻预估机器人 t+

21、1 时刻与目标状态之间的相对关系、速度信息。可观测状态和预测状态统筹处理机器人自身信息、环境信息、编队信息以及雷达信息，为多机器人系统提供了统一的状态度量。为了进一步加大各状态下不同动作的奖惩力度，为状态动作之间的映射关系提供更为准确的衡量方法，PRMFO 在统一状态表征方法的基础上，设计了投影奖励机制，将传统基于标量的奖励过程矢量化。具体实现过程是：将机器人动作前后实际状态变化的表征向量投影到预估机器人状态变化的表征向量上，得到的投影向量用以衡量当前动作实际产生的作用效果与预期产生的变化之间的差距。因此投影奖励机制旨在将机器人实际状态变化与预估状态变化向量化，进而为函数奖励机制提供了矢量化方

22、法。为了解决多机器人协同编队中的过度中心化问题，设计了自主决策层。自主决策层融合了统一状态表征与投影奖励机制，以软演员评论家（soft actor-critic,SAC）算法为基线方法，实现编队系统内各机器人独立决策，从而实现去中心化的多机器人协同编队。178应用科学学报第42卷2.1统一状态表征现有的跟随领航者方法与深度强化学习相结合的方法应用于编队协同的编队任务时，仅领航者采用深度强化学习方法进行目标导航，跟随者采用速度控制方法与领航者保持相对位置关系22。使用此种方法的主要原因在于，若跟随者机器人参与目标导航任务，则需将各机器人的状态与动作组合起来拼接为状态向量与动作向量，维度过高，训练

23、效率低下。为此，本文提出适用于多机器人系统中各机器人的统一状态表征方法，实现各机器人针对自身状态的自主策略选择。采用单元机器人 turtlebot3 系统，结构如图 2 所示。机器人在二维平面中运动。机器人顶部中心位置设置激光雷达扫描仪，扫描半径为 0.15 m,3.50 m，扫描范围为 360。机器人在 t时刻的位置信息用 pposition(t)=xt,yt 来表示，机器人在 t 时刻的速度表示为 vt=v,w，其中 v 表示线速度，表示角速度。因此机器人的速度向量 vt可以表征为vx=v cos,vy=v sin,=(1)式中：vx为机器人在该时刻 X 轴方向的速度大小；vy为机器人在该

24、时刻 Y 轴方向的速度大小；为机器人在该时刻的角速度大小。XxtytVtY03.5 m图 2 机器人模型图Figure 2 Robot model diagramPRMFO 将状态分为可观测状态和预测状态。设编队参数Fformation=(f0,f1,f2,fn)，其中 f0=(x0,y0)为目标位置；fi=(xi,yi),i 1,n)为多机器人协同编队内部的相对位置关系；n 为机器人数目。将多机器人系统中各机器人的状态表征统一化，具体表示为s(t)=(xt,yt,dt,vt)(2)式中：s R364，由两维的坐标(xt,yt)、360 维的激光雷达数据 dt、两维的速度信息vt=(vxt,v

25、yt)组成。其中(xt,yt)表示 t 时刻机器人与目标状态的相对坐标关系，设置 t为各机器人发送以上信息的频率。同时，预测状态表示为 e s(t)=(pxposition(t),pyposition(t),vpt),e st R4，其中(pxposition(t),pyposition(t)表示依据最佳速度预估下一时刻机器人与目标状态之间的相对位置关系，(pxposition(t),pyposition(t)与(xt,yt)之间的关系可表征为(pxposition(t),pyposition(t)=(xt,yt)+vpt t，vpt表示预估的最优速度。上述基于相对位置关系的表征方法，将多机器

26、人系统内各机器人状态统一处理，不同机器人在相同状态下采取的最优策略相同，因此各机器人均可通过深度强化学习方法进行策略选择，具备自主决策能力。第1期葛星，等：基于投影奖励机制的多机器人协同编队与避障1792.2投影奖励机制奖励机制是指导机器人策略选择的关键。传统的奖励机制依据机器人自身所处位置与目标位置之间的标量距离来定义反馈奖赏，但由于机器人同时存在角速度和线速度，在角度和距离两个方面均存在变化。所以 PRMFO 设计了投影奖励机制，从两个维度上将该奖励过程矢量化，提供了更为精确的奖赏机制。将传统标量方法的奖励机制转化为矢量投影的过程，具体实现如图 3 所示，主要通过统一状态中的可观测状态和预

27、测状态获取当前时刻的奖赏值。Rrobot(t)代表机器人的初始位置，R0robot(t)为预测到达的位置，Rrobot(t+1)为机器人实际下一时刻位置。Ggoal(t)=(xt,yt)和 Ggoal(t+1)=(xt+1,yt+1)分别为 t 时刻和 t+1 时刻机器人与目标位置之间相对位置的向量表示，分别为蓝色向量和黄色向量。G0goal(t)=(pxposition(t),pyposition(t)为在 t 时刻预估机器人下一时刻与目标位置之间相对位置的向量表示，为绿色向量。以上表示均由统一状态表征得到，据此得到该动作的实际状态变化与预估的状态变化，在图 3 中分别为黑色向量和紫色向量。

28、公式为(pposition(t)=Ggoal(t)Ggoal(t+1)p0position(t)=Ggoal(t)G0goal(t)(3)Rrobot(t)Ggoal(t+1)Rrobot(t+1)Ggoal(t)Ggoal(t)Rrobot(t)rreward(t)pposition(t)pposition(t)g图 3 投影奖励机制Figure 3 Projected reward mechanism式中：pposition(t)代表了机器人采取动作前后的变化情况，可以用来表征该状态下某动作的作用效果；p0position(t)则代表预估机器人在当前状态下采用最优动作的状态变化情况。可见实

29、际状态变化与预估状态变化之间的差异程度即为当前动作与最优动作之间的区别。采用向量投影的方法将 pposition(t)投影到 p0position(t)方向上，得到向量 rgreward(t)，在图 3 中由橙色向量表示，并将其作为 t 时刻采取动作得到的奖励值，公式为rgreward(t)=pposition(t)p0position(t)flflflp0position(t)flflfl(4)若机器人到达目标位置，即flflGgoal(t)flfl=0，则 rgreward(t)=100。避障效果则通过奖励函数roreward(t)实现，为提高碰撞监测的准确度，并降低雷达自身灵敏引起的负面

30、效果，取雷达数据dt中的最小值及其相邻的两组数据共同组成 rscan(t)，若 rscan(t)6 C 即判定其发生碰撞，C180应用科学学报第42卷为经验值，本模型中设为 0.3。roreward(t)表征为roreward(t)=(10,rscan(t)6 C0,其他(5)因此得到机器人各时刻奖赏值为rt=roreward(t)+rgreward(t)(6)式中：和用以表征两部分奖赏值的权重。本文给予避障部分奖赏值更大的权重，即在协同编队中优先考虑避障问题，保证机器人安全。2.3自主决策层自主决策层旨在为多机器人系统中各机器人独立完成自身策略选择提供方法。SAC 网络算法28是一种稳定高

31、效的深度强化学习算法，适用于机器人与环境交互的实验要求。本文将统一状态表征与投影奖励机制融入 SAC 算法中，设计了自主决策层，进而实现去中心化的多机器人协同编队与避障模型 PRMFO。统一状态表征是 PRME 模型应用于多机器人协同编队与避障任务的基础，各机器人自身均搭载 SAC 网络，其输入与输出如图 4 所示，各机器人获取当前编队信息，通过当前编队信息和自身位置信息得到自身与目标的相对位置关系，将雷达数据、相对位置以及速度等状态信息传入 SAC 网络进行决策，输出该状态下应采取的最优线速度与角速度。?SAC?图 4 SAC 网络输入与输出示意图Figure 4 Schematic dia

32、gram of SAC network input and output在统一状态表征的基础上，根据机器人同质动力学原理，一台机器人训练的模型可以部署到相同结构的其他机器人上，各机器人均通过自身搭载的网络选择最优策略。在该过程中给予避障任务更高的优先级，即在躲避障碍物的前提下考虑编队协同任务。如图 5 所示，以三角形队形为例，灰色框线为多机器人系统初始位置，红色框线为多机器人系统目标位置。在机器人前往目标位置的过程中，存在如灰色圆形所示障碍物，若其中某机器人遇到障碍物，则该机器人可躲避障碍物暂时脱离原队形抵达目标位置。图 5 多机器人协同编队示意图Figure 5 Schematic diag

33、ram of multi-robot cooperative formation第1期葛星，等：基于投影奖励机制的多机器人协同编队与避障181最优策略 :(s(t),e s(t)a，指在不同状态下选取当前的最优动作，从而在无碰撞的情况下保持指定队形前往目标位置。各状态下的最优动作取决于动作的奖赏值 r。最优策略的形成需综合考虑避障与目标位置，即argmax(s0,e st)EXt=0t(rt(st,e st,a,st+1)+H(|st)#(7)s.t.flflf0 pposition(t)flfl=0,dt C(8)式(7)为 SAC 的优化目标函数，即在最大化回报值的同时最大化策略的熵。式(

34、8)为该任务的约束条件，分别表示多机器人满足协同编队要求和避障要求，即在雷达检测数据的安全范围内，各机器人保持编队要求抵达目标位置。在满足约束的基础上获取最优策略完成协同编队与避障任务并抵达目标位置。算法基于投影奖励机制的多机器人协同编队与避障模型Initialize formation parameters and memory buffer MInitialize the actor network and critic network with random parametersfor the number of total-epochs doInitial the environmen

35、t/初始化for the number of total-steps doget the observation state stand predicted state e st/获取可观测状态和预测状态select an action according to the current policy/决策get the next observation state st+1and calculate rtby Equation(6)/据可观测状态计算奖赏Store(st,at,e st,rt,st+1)in M/存储数据until dropped or reaching total-steps

36、Sample minibatch of(st,at,e st,rt,st+1)from MUpdate V and C3仿真实验与结果分析本文基于 ROS 建立不同环境，进行仿真实验。网络模型采用 Pytorch29实现，处理器为 IntelrXeon(R)Silver 4214R CPU2.40 GHz 48，显卡为 llvmpipe(LLVM 12.0.0,256 bits)/llvmpipe(LLVM 12.0.0,256 bits)，RAM 大小是 31.0 GB。3.1单机器人仿真实验3.1.1评价指标和对比实验模型训练参数如表 1 所示，为了验证 PRMFO 方法的优越性，将所提模

37、型与基础 SAC 网络算法进行对比。在环境配置相同的情况下，通过平均回报值、成功率、时间 3 个指标进行实验对比。1）平均回报值当前训练回合内的平均奖赏值，即累积奖赏值/回合数；2）成功率将相同训练时间的模型置于仿真环境中测试其在相同步数下成功到达目标位置的次数。本文在当前环境中测试机器人 100 回合内到达目标位置的次数，以成功次数/回合数表示成功率；182应用科学学报第42卷表 1 训练参数Table 1 Training parameters参数名称参数值策略网络学习率4103价值网络学习率4103批量大小128网络更新的回放池大小104回合最大步数300熵温度系数23）时间在 100

38、回合内，机器人平均每次到达目标位置所用的步数。所用步数越少，耗费时间就越短，效率也就越高。使用 Gazebo 创建 10 m10 m 多障碍物环境，如图 6 所示。其中长方体和圆柱体为随机分布的障碍物，移动机器人模型为 Turtlebot3 系列移动机器人。机器人初始位置为中心位置(0,0)，雷达安全距离设置为 0.2 m。为了增强模型的泛化能力，提高机器人对外界环境的感知能力，在当前环境的非障碍物区域随机初始化目标位置，机器人到达该目标位置后无需返回初始位置，即规划路径至下一目标位置。图 6 仿真场景图Figure 6 Simulation scenery diagram机器人根据指定参数进

39、行训练，训练过程中平均回报值如图 7 所示。训练初期机器人通过与环境交互收集信息，动作选择随机性较高，平均回报值存在一定的波动，模型达到一定训练次数后，平均回报值不断上升且上升幅度逐渐缩小直至趋于稳定。由图 7 可以看出：初期 PRMFO 算法较 SAC 算法的每轮平均回报值波动较小，处于稳步上升的状态，且上升速度较快。为了进一步验证 PRMFO 算法的优越性，在每回合内平均回报值的基础上取每步的平均回报值进行比较，如图 8 所示，PRMFO 算法呈现出稳步上升的趋势，在训练步数达到 1 200时，平均每步回报值位于 2.0 附近。而基础 SAC 算法初期稳定性较差，且最终收敛于 1.0 附近

40、。因此从每回合的平均回报值与平均每步的回报值指标看，PRMFO 算法均取得更优的效果。两种算法的实验结果对比如表 2 所示，由实验数据可知 PRMFO 算法在平均回报值、成功率以及时间指标上均优于 SAC 算法。第1期葛星，等：基于投影奖励机制的多机器人协同编队与避障18380060040020000200300500100400?/?600SACPRMF图 7 每回合内平均回报值Figure 7 Averaged returns within each epoch2.01.51.00.500200400?6008001 000 1 200SACPRMF图 8 每步平均回报值Figure 8

41、Averaged returns within each step表 2 实验结果对比Table 2 Comparison of experimental results算法平均回报值成功率/%(600 epochs)成功率/%(1 000 epochs)步数PRMFO8509010078SAC59583100853.1.2泛化性分析将 PRMFO 模型置于图 6 仿真环境中，随机初始化目标位置，使用 Rviz 工具绘制路径规划的轨迹图。图 9 为路径规划俯视图，机器人初始位置为(0,0)，目标位置为(4,0)，机器人自主决策到达该目标位置后，在(4,0)随机初始化目标位置为(3,4)，进而到

42、达该目标位置。机器人可以在当前环境内到达任意非障碍物位置。在验证当前方法可行性的基础上对其泛化能力进行测试。改变当前环境，构建仿真环境如图 10 所示。将在图 6 仿真环境中训练好的模型迁移到当前环境中，测试该模型的泛化能力。为了进一步验证当前方法在其他复杂环境下的泛化能力，将机器人置于如图 10 所示仿真184应用科学学报第42卷环境 Env1 中，机器人需在狭窄空间中穿过障碍物抵达目标位置。机器人的初始位置为(0,0)，目标位置为(5,0)，两点之间的路径规划效果如图 11 所示。(0,0)(3,4)(4,0)图 9 路径规划图Figure 9 Path planning diagram图

43、 10 环境仿真图Figure 10 Environment simulation diagram(0,0)(5,0)图 11 在狭窄环境中的路径规划图Figure 11 Path planning diagram in narrow environment为了进一步验证在无障碍物环境 Env2 中的导航能力，机器人的初始位置为(0,0)，目标位置为(3,4)，两点之间的路径规划如图 12 所示。由此可见 PRMFO 在多障碍物、狭窄空间以及无障碍物环境中都具备很好的路径规划能力，验证了该模型的泛化能力。对比在狭窄环境中 PRMFO 模型与基础 SAC 模型的效果，如表 3 所示，PRMFO

44、模型到达目标位置及避障能力均优于基础 SAC。第1期葛星，等：基于投影奖励机制的多机器人协同编队与避障185(0,0)(3,4)图 12 在无障碍物环境中的路径规划图Figure 12 Path planning diagram in accessible environment表 3 泛化实验结果对比Table 3 Comparison of generalization experimental results算法Env1 平均回报值Env1 步数Env2 平均回报值Env2 步数PRMFO1351066980SAC12412242893.2多机器人协同编队仿真实验多机器人协同编队与避障任

45、务需要综合考虑机器人间的约束问题与各机器人自身的避障问题。根据多机器人同质动力学原则，各机器人可共享网络参数训练。在保证安全的前提下形成编队，即在多机器人协同编队与避障任务过程中允许部分机器人优先考虑躲避障碍物任务，多机器人系统灵活性较高。以“一”字型编队为例，在无障碍物环境中设定编队参数 f0=(4,0),f1=(0,1)，其中f0=(4,0)为目标位置，f1=(0,1)为两机器人相对位置关系，移动轨迹如图 13 所示，其中红色线代表机器人 F0，蓝色线代表机器人 F1。F0初始位置为(0,0)，F1初始位置为(0,1)，可见两机器人保持稳定的编队参数并到达了目标位置。00.250.500.

46、751.001.251.50Y/mX/m00.672.002.673.334.001.33F1F0图 13“一”字型编队机器人移动轨迹Figure 13 Robot movement trajectory with“one-line”formation186应用科学学报第42卷在以“一”字型编队抵达目标位置的过程中产生的误差如图 14 所示。实际运动过程中两机器人间的相对位置与目标编队参数的距离差在(0.02,0.04)范围内，且在运动初期与目标编队参数几乎完全相符。由于 PRMFO 具备指引机器人到达目标位置的能力，因此在多机器人中表现出较高的编队精准度。0.040.030.020.0100

47、.01?/mt/s05001 000 1 500 2 0003 0002 500图 14“一”字型编队误差Figure 14“One-line”formation error在无障碍物环境中测试三角形编队，以 F0、F1、F2为例，设置编队参数为 f0=(3,2),f1=(1,1),f2=(1,1)。如图 15 所示，f0=(3,2)为目标位置，f1=(1,1),f2=(1,1)为机器人间的相对位置关系。机器人移动轨迹如图 15 所示，其中红色线代表机器人 F0，蓝色线代表机器人 F1，黑色线代表机器人 F2。F0初始位置为(0,0)，F1初始位置为(1,1)，F2初始位置为(1,1)，可见

48、3 个机器人保持编队到达目标位置。1.000.330.331.001.672.333.00Y/mX/m1.00 0.330.331.001.672.333.00F1F0F2图 15 三角形编队机器人移动轨迹Figure 15 Robot movement trajectory with triangle formation在以三角形编队抵达目标位置的过程中产生的编队误差如图 16 所示。实际运动过程中以F0为三角形顶点为例，F1、F2分别与 F0之间的相对位置关系与目标编队参数之间的距离差分别处于(0.04,0.04)和(0.06,0.05)范围内。因此 PRMFO 在三角形队形中也具备较高的

49、编队精度。为了验证模型在有障碍物环境中的协同效果，设置编队参数 f0=(4,2)，f1=(0,1)，其中 f0=(4,2)为目标位置，f1=(0,1)为两机器人间相对位置关系。将 F0与 F1两机器人置于图 6 仿真仿真环境中，两机器人移动轨迹如图 17 所示，红色线为 F0，蓝色线为 F1。在(1,1.5)附近区域，为了躲避障碍物，队形发生了变化。机器人通过障碍物后，依据编队要求抵达目标位置，完成多机器人协同编队与避障任务。第1期葛星，等：基于投影奖励机制的多机器人协同编队与避障1870.040.0200.020.040.0605001 000 1 500 2 000 2 500 3 000

50、t/sF2F1?/m图 16 三角形编队误差Figure 16 Triangle formation error2.001.501.000.5000.501.004.003.332.672.001.330.670Y/mX/mF1F0图 17 有障碍物环境多机器人移动轨迹Figure 17 Robot movement trajectory withobstacle environment因此该模型在有障碍物环境与无障碍物环境中均具备一定的多机器人协同编队与避障能力，且各机器人自主决策，实现了去中心化编队，提高了多机器人系统的鲁棒性。4结语深度强化学习方法与跟随领航法相结合应用于多机器人协同编队

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于投影奖励机制机器人协同编队

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。