基于投影奖励机制的多机器人协同编队与避障.pdf
《基于投影奖励机制的多机器人协同编队与避障.pdf》由会员分享,可在线阅读,更多相关《基于投影奖励机制的多机器人协同编队与避障.pdf(15页珍藏版)》请在咨信网上搜索。
1、第42卷 第1期2024年1月应用科学学报JOURNAL OF APPLIED SCIENCESElectronics and Information EngineeringVol.42 No.1Jan.2024DOI:10.3969/j.issn.0255-8297.2024.01.014基于投影奖励机制的多机器人协同编队与避障葛星1,2,秦丽1,2,沙1,21.华中农业大学 信息学院,湖北 武汉 4300702.湖北省农业大数据工程技术研究中心,湖北 武汉 430070摘摘摘要要要:针对多机器人协同编队任务中过度中心化、系统鲁棒性低、编队稳定性较差等问题,提出了基于投影奖励机制的多机器人协
2、同编队与避障(projected reward for multi-robotformation and obstacle avoidance,PRMFO)模型,实现了多机器人基于统一状态表征方法的去中心化决策过程。设计了一种多机器人统一状态表征方法,实现了机器人与外界环境交互信息处理的一致性;基于统一状态表征设计了基于投影的奖励机制,从距离和方向两个维度将奖励过程矢量化,丰富机器人的决策依据;为了解决多机器人系统中过度中心化问题,设置了自主决策层,融合统一状态表征与投影奖励机制的软演员评论家(soft actor-critic,SAC)算法,实现了多机器人协同编队与避障任务。在机器人操作系统
3、(robot operating system,ROS)环境下进行仿真实验,实验数据表明 PRMFO 模型在单机器人平均回报值、成功率以及时间等指标上分别提高 42%、8%、9%,基于 PRMFO 模型的多机器人编队误差控制在00.06 范围内,实现了较高精度的多机器人编队。关键词:深度强化学习;多机器人协同;编队与避障;投影奖励中图分类号:TP273文章编号:0255-8297(2024)01-0174-15Projected Reward for Multi-robot Formation andObstacle AvoidanceGE Xing1,2,QIN Li1,2,SHA Ying
4、1,21.College of Informatics,Huazhong Agricultural University,Wuhan 430070,Hubei,China2.Hubei Engineering Technology Research Center of Agricultural Big Data,Wuhan 430070,Hubei,ChinaAbstract:To address issues of excessive centralization,low system robustness,and forma-tion instability in multi-robot
5、formation tasks,this paper introduces the projected rewardfor multi-robot formation and obstacle avoidance(PRMFO)approach.PRMFO achievesdecentralized decision-making for multi-robot using a unified state representation method,ensuring consistency in processing information regarding interactions betw
6、een robots andthe external environment.The projected reward mechanism,based on this unified staterepresentation,enhances the decision-making foundation by vectorizing rewards in both收稿日期:2023-06-29基金项目:国家自然科学基金(No.62272188);国家社会科学基金一般项目(No.19BSH022);中央高校基本科研业务费项目(No.2662022XXYJ001,No.2662022JC004,No
7、.2662021JC008,No.2662023XXPY005)资助通信作者:秦丽,研究方向为智能机器人、人工智能。E-mail:第1期葛星,等:基于投影奖励机制的多机器人协同编队与避障175distance and direction dimensions.To mitigate excessive centralization,an autonomousdecision layer is established by integrating the soft actor-critic(SAC)algorithm with uni-form state representation and
8、the projected reward mechanism.Simulation results in therobot operating system(ROS)environment demonstrate that PRMFO enhances average re-turn,success rate,and time metrics by 42%,8%,and 9%,respectively.Moreover,PRMFOkeeps the multi-robot formation error within the range of 0 to 0.06,achieving a hig
9、h levelof accuracy.Keywords:deep reinforcement learning,cooperative multi-robot,formation and obstacleavoidance,projected reward将简单机器人组成模块化的多机器人系统以探索未知环境,并将其应用于重复性、危险性领域已成为研究热点1。其中多机器人的协同编队与避障任务是完成各项任务的基础2。根据通信方式的不同,传统的多机器人编队方式可以分为集中式和分布式两种3。集中式架构依靠主控单元获取所有机器人的状态信息后发布运动指令。文献 4 在集中式体系结构中引入图结构,将机器人看作图
10、中的顶点,通过边的关系运算得出多机系统中所有机器人的位置信息。集中架构形成的编队稳定性较好,但对主控单元的依赖性太强,一旦主控单元出错,则多机编队会溃散。另外集中式方式要求主控单元具备较高的计算力,若计算力不足也会出现编队系统效率低下的问题。因此文献 5 提出了一种新的分布式体系结构。在分布式体系结构下,编队系统内各机器人间可互相通信,共享邻居机器人的速度和位置信息,并基于此来决定自身的策略选择。分布式结构不受主控单元的影响,且对各机器人的计算力要求不高。但由于机器人的位置变化较快,各机器人因受通信延迟的影响而无法及时接收到其他机器人的位置信息,容易造成编队混乱。为此研究人员提出了分层体系结构
11、6,设置主控单元负责统筹全局信息,各机器人通过互相通信和主控单元信息共同确定自身运动。基于以上 3 种通信方式衍生出多种控制方法,如跟随领航法7、虚拟结构法8、基于行为法9、人工势场法10、遗传算法11等。随着强化学习12和深度学习13的不断发展,深度强化学习技术在多机器人领域应用越来越广泛。从分布式体系结构出发,文献 14 实现了基于深度强化学习多机器人协同避碰策略,但由于深度强化学习需要处理大量数据,对机器人的配置要求较高,因此大多适用于大型机器人。综合考虑机器人性能及成本等因素,分层式体系结构更为适用。相较于传统方法,基于分层式的深度强化学习方法提高了机器人感知外界环境的能力15,仿真环
12、境下训练的模型可以迁移到其他多种未知环境,且具备更强的适应性与可探索性。多机器人中包含自身位置、速度、传感器、其他机器人以及障碍物等多种信息,当深度强化学习技术应用于该任务时,如何从多机器人系统中提取有效信息来定义当前的状态就成了基础。在状态定义的基础上设计高效的奖赏机制,实现状态与动作之间的映射关系是深度强化学习的关键16。聚焦于此,文献 17 将深度强化学习方法与跟随领航方法相结合,利用机器人与目标位置的距离实现状态与动作之间的映射,但由于编队设置了中心点作为基准,对其中的跟随机器人和领航机器人的状态定义进行了区分,仅领航者使用深度强化学习方法完成自身决策,而跟随者依赖于领航者的决策采用了
13、传统的速度控制方法,因此编队系统中心化程度较高,鲁棒性较低。基于深度强化学习实现多机器人协同编队与避障任务中各机器人策略选择的关键问题在于:1)状态表征是深度强化学习方法的基础,多机器人系统内包含位置、速度、传感器等多种状态信息,且处于动态变化中,如何精确定义各机器人当前状态是首先要面临的问题;2)如何设计更为高效的奖励机制,准确定义状态与动作之间的映射关系;3)如何通过深度强化学习方法实现多机器人系统内各机器人自主决策,实现去中心化的多机器人系统。176应用科学学报第42卷针对以上问题,本文提出了一种基于投影奖励机制的多机器人协同编队与避障(projectedreward for multi
14、-robot formation and obstacle avoidance,PRMFO)模型。设计了统一状态表征方法,将机器人状态分为可观测状态和预测状态;在统一状态表征基础上设计矢量化的投影奖励机制判断当前动作的优劣;最后通过自主决策层为各机器人独立决策提供方法,并基于机器人操作系统(robot operating system,ROS)进行仿真实验,结果表明 PRMFO 方法在单机器人平均回报值、成功率以及时间指标上分别提高 42%、8%、9%,多机器人编队误差控制于 00.06 范围内,实现了较高精度的多机器人编队。1理论基础当深度强化学习技术应用于多机器人系统时,首先要解决的是以适
15、当的数据形式表征当前环境状态,例如机器人自身状态、多机器人编队信息、机器人与障碍物以及机器人间的碰撞信息等。根据各机器人间有无信息交互,状态表征方法有所不同。在无信息交互的情况下,文献 18 从图像角度出发,获取多机器人系统所处环境的图像,得到栅格化的环境状态,其中每格代表一个像素点,用像素信息作为当前价值评估的状态表征。此种表征方法虽较精准,但图像处理维度过高,计算量太大。文献 19 针对该问题,将每个机器人的状态信息分为自身的状态信息和其他信息,其他信息包括环境信息和多机器人系统中其他机器人信息,将其中的不变特征按一定顺序提取,再根据值函数选择最优动作指引其到达目标位置,避免每个机器人与环
16、境中障碍物或其他机器人发生碰撞。为了进一步将其他机器人与环境中障碍物统一化处理,文献 14 提出传感器级分散式碰撞策略,通过机载传感器获取原始数据,将传感器数据和其他机器人位置信息统一定义为障碍物信息,并将其映射为无碰撞的动作指令,从而学习到最优策略。为了减少各机器人的计算压力,文献 20 开发了一个完全分散的避碰框架,每个机器人的导航策略均以自身机载传感器收集的测距数据作为输入,输出相应的速度命令,而在编队系统内不进行任何通信。以上无信息交互的深度强化学习方法大多采用图像信息或机器人传感器信息来表征当前机器人状态或环境状态,在避障方面效果较好,但由于机器人间缺少交互,协同能力较差。为了增强多
17、机器人系统的协同能力,文献 21 通过增加机器人间的信息交互,将编队系统内除自身外其他机器人看作动态障碍物,各机器人发送自身位置和速度,并将其作为状态信息,采用速度障碍法预测碰撞区域,进而选择最优动作,完成路径规划。此种方法加强了机器人间的信息交流,达到了协同避碰的效果,但在移动过程中仍将其他机器人看作障碍物,并未涉及路径规划过程中的协同编队任务。为此,文献 22 引入跟随领航法形成协同编队,同时采用深度强化学习的方法融合传感器数据进行编队避障,但针对领航者和跟随者的表征方法进行了区分,且跟随者完全依赖于领航者的策略选择,若领航者发生碰撞或计算错误,则编队失败。因此如何统筹处理多机器人系统内各
18、机器人信息、传感器信息以及环境信息并准确定义机器人当前状态亟待解决。奖赏函数实现了状态与动作之间的映射,是指导机器人学习的关键。在状态定义的基础上,制定高效的奖赏机制是关键。早期研究主要设置离散化奖励指导机器人躲避障碍物并抵达目标位置。文献 23 根据机器人与障碍物的距离范围给予负奖励值,使得机器人具备避障能力。文献 24 通过设定不同状态下的奖赏值,鼓励其不断完成目标任务。此种方法实现起来简单有效,但对于距离范围的设定和给定奖励数值的大小较为敏感且缺乏相应的规则。为了解决上述问题,文献 25 直接将机器人与障碍物的距离设置为奖励值,形成连续化奖励。为了进一步扩大机器人执行动作的奖惩差距,文献
19、 26 引入奖励参数,优化连续性奖惩第1期葛星,等:基于投影奖励机制的多机器人协同编队与避障177函数,鼓励机器人更接近目标位置,并使其躲避环境中的障碍物。以上基于距离的方法较为直观,但不足在于:该方法的表现效果与环境大小和机器人动作的距离大小息息相关;奖赏参数的设定同样缺乏相应的规则。2PRMFO 模型PRMFO 模型框架如图 1 所示,包括以下 3 部分:统一状态表征、投影奖励机制和自主决策层。在当前多机器人系统内编队信息、各机器人位置信息、速度信息以及雷达信息的基础上,统一状态表征将各机器人状态分为可观测状态和预测状态;投影奖励机制根据机器人实际状态变化与预测状态变化之间的差异衡量当前动
20、作的效果;最后通过自主决策层各机器人判断自身状态下的最优动作,完成决策过程,从而实现多机器人自主决策的协同编队任务。?st+1rtstatst图 1 PRMFO 模型框架图Figure 1 Framework of PRMFO在多机器人协同任务中,若将所有机器人的状态组合成状态向量会使深度强化学习的过程计算量过大,且收敛速度过慢27。为了实现多机器人与复杂环境交互过程的一致性,PRMFO 设计了统一的状态表征方法,将机器人状态分为可观测状态和预测状态,其中可观测状态包括 t 和 t+1 时刻各机器人自身状态与目标状态的相对关系、各机器人速度信息以及雷达信息;预测状态为 t 时刻预估机器人 t+
21、1 时刻与目标状态之间的相对关系、速度信息。可观测状态和预测状态统筹处理机器人自身信息、环境信息、编队信息以及雷达信息,为多机器人系统提供了统一的状态度量。为了进一步加大各状态下不同动作的奖惩力度,为状态动作之间的映射关系提供更为准确的衡量方法,PRMFO 在统一状态表征方法的基础上,设计了投影奖励机制,将传统基于标量的奖励过程矢量化。具体实现过程是:将机器人动作前后实际状态变化的表征向量投影到预估机器人状态变化的表征向量上,得到的投影向量用以衡量当前动作实际产生的作用效果与预期产生的变化之间的差距。因此投影奖励机制旨在将机器人实际状态变化与预估状态变化向量化,进而为函数奖励机制提供了矢量化方
22、法。为了解决多机器人协同编队中的过度中心化问题,设计了自主决策层。自主决策层融合了统一状态表征与投影奖励机制,以软演员评论家(soft actor-critic,SAC)算法为基线方法,实现编队系统内各机器人独立决策,从而实现去中心化的多机器人协同编队。178应用科学学报第42卷2.1统一状态表征现有的跟随领航者方法与深度强化学习相结合的方法应用于编队协同的编队任务时,仅领航者采用深度强化学习方法进行目标导航,跟随者采用速度控制方法与领航者保持相对位置关系22。使用此种方法的主要原因在于,若跟随者机器人参与目标导航任务,则需将各机器人的状态与动作组合起来拼接为状态向量与动作向量,维度过高,训练
23、效率低下。为此,本文提出适用于多机器人系统中各机器人的统一状态表征方法,实现各机器人针对自身状态的自主策略选择。采用单元机器人 turtlebot3 系统,结构如图 2 所示。机器人在二维平面中运动。机器人顶部中心位置设置激光雷达扫描仪,扫描半径为 0.15 m,3.50 m,扫描范围为 360。机器人在 t时刻的位置信息用 pposition(t)=xt,yt 来表示,机器人在 t 时刻的速度表示为 vt=v,w,其中 v 表示线速度,表示角速度。因此机器人的速度向量 vt可以表征为vx=v cos,vy=v sin,=(1)式中:vx为机器人在该时刻 X 轴方向的速度大小;vy为机器人在该
24、时刻 Y 轴方向的速度大小;为机器人在该时刻的角速度大小。XxtytVtY03.5 m图 2 机器人模型图Figure 2 Robot model diagramPRMFO 将状态分为可观测状态和预测状态。设编队参数Fformation=(f0,f1,f2,fn),其中 f0=(x0,y0)为目标位置;fi=(xi,yi),i 1,n)为多机器人协同编队内部的相对位置关系;n 为机器人数目。将多机器人系统中各机器人的状态表征统一化,具体表示为s(t)=(xt,yt,dt,vt)(2)式中:s R364,由两维的坐标(xt,yt)、360 维的激光雷达数据 dt、两维的速度信息vt=(vxt,v
25、yt)组成。其中(xt,yt)表示 t 时刻机器人与目标状态的相对坐标关系,设置 t为各机器人发送以上信息的频率。同时,预测状态表示为 e s(t)=(pxposition(t),pyposition(t),vpt),e st R4,其中(pxposition(t),pyposition(t)表示依据最佳速度预估下一时刻机器人与目标状态之间的相对位置关系,(pxposition(t),pyposition(t)与(xt,yt)之间的关系可表征为(pxposition(t),pyposition(t)=(xt,yt)+vpt t,vpt表示预估的最优速度。上述基于相对位置关系的表征方法,将多机器
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 投影 奖励 机制 机器人 协同 编队
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。