多功能移动机器人分层路径规划研究.pdf
《多功能移动机器人分层路径规划研究.pdf》由会员分享,可在线阅读,更多相关《多功能移动机器人分层路径规划研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、投稿网址:2023 年 第23 卷 第24 期2023,23(24):10394-08科 学 技 术 与 工 程Science Technology and EngineeringISSN 16711815CN 114688/T收稿日期:2022-11-06修订日期:2023-05-31基金项目:国家自然科学基金(51775388)第一作者:匡军(1998),男,汉族,湖北武汉人,硕士研究生。研究方向:智能驾驶。E-mail:1648673593 。通信作者:燕怒(1970),男,汉族,湖北荆州人,博士,教授。研究方向:机械动力学。E-mail:yannu 。引用格式:匡军,朱盈盈,万仁卓,等
2、.多功能移动机器人分层路径规划研究J.科学技术与工程,2023,23(24):10394-10401.Kuang Jun,Zhu Yingying,Wan Renzhuo,et al.Layered motion planning of multifunctional mobile robotJ.Science Technology and Engi-neering,2023,23(24):10394-10401.多功能移动机器人分层路径规划研究匡军1,朱盈盈1,万仁卓2,韩冬桂1,燕怒1(1.武汉纺织大学机械工程与自动化学院,武汉 430200;2.武汉纺织大学电子与电气工程学院,武汉 43
3、0200;)摘 要 现有移动机器人规划算法生成轨迹目标单一,无法满足多样化的任务需求,为此,提出一种多指标维度反馈的路径规划策略。基于强化学习在线决策机制,寻求多条抵达目标的无碰撞路径;进而根据路径性能特征建立价值评估体系,动态更新机器人运动节点间的动作代价值,并且在不同权重配比下进行了仿真测试。结果表明:该算法能根据需求针对性提高全局路径相关性能,并结合全局路径信息,反馈控制局部运动决策,从而使得移动机器人能够在相同环境中解算出不同满足期望的运动决策。关键词 路径规划;移动机器人;强化学习;多维度中图法分类号 TP242;文献标志码 ALayered Motion Planning of M
4、ultifunctional Mobile RobotKUANG Jun1,ZHU Ying-ying1,WAN Ren-zhuo2,HAN Dong-gui1,YAN Nu1(1.School of Mechanical Engineering and Automation,Wuhan Textile University,Wuhan 430200,China;2.School of Electronic and Electrical Engineering,Wuhan Textile University,Wuhan 430200,China)Abstract Aiming at the
5、single trajectory target generated by the existing planning algorithm,which cannot meet the diversified taskrequirements of mobile robots,a motion planning strategy for multi-dimensional information feedback was proposed.Based on the rein-forcement learning online decision-making mechanism,multiple
6、collision-free paths to reach the goal were sought.According to the pathperformance characteristics,a value evaluation system was established to dynamically update the generation value between the nodes of therobot motion state.Simulation tests were carried out under different weight ratios.The resu
7、lts show that the proposed algorithm can im-prove the performance of global path correlation according to requirements and control local path decisions in combination with global pathinformation feedback,so that mobile robots can solve different motion decisions that meet expectations in the same en
8、vironment.Keywords path planning;mobile robot;reinforcement learning;multi-dimensional 近年来,随着机器人技术的发展,移动机器人在各领域得到了广泛的应用1。路径规划是移动机器人实现自主运动的关键技术,也是机器人运动研究人员必须解决的问题之一2-3。但随着机器人应用场景日趋复杂,考虑单一目标生成最优路径的传统规划算法,已无法使移动机器人适应多元化的任务场景4。Sung 等5基于强化学习算法,以移动机器人在多种传统算法作用下生成路径作为输出,搭建神经网络,使移动机器人在未知环境中有所参考,做出相应的运动决策。Le
9、i 等6根据机器人当前环境和下一步决策,构造奖惩机制来动态更新运动节点间的动作代价值,使其在动态环境中找寻目标有自己的优势。杨桂华等7、Luo 等8提出分布式智能仿生蚁群算法,通过全局路径信息更新节点间动作代价值的方式,使移动机器人趋于做出全局路径更优的运动决策。在此基础上,文献 9-10 提出了MAX-MINant 系统(MMAS),限制了信息素允许值的上下界,使得生成路径平滑。然而,强化学习的在线学习机制的盲目性,导致全局路径性能难以保证,而蚁群算法以路径长度单指标计算信息素的方式又较为局限,使得机器人难以求解出满足多样任务需求的全局路径11。为此,结合强化学习算法在线决策能力和蚁群算法全
10、局信息素反馈机制,通过设置不同指标评估权重,从长度、总转动角度、附近障碍个数等多维度评估全局路径集合的方式,解决现有规划算法普适性不强的问题。最后根据任务场景需投稿网址:求,筛选出满足规划要求的最优路径,使机器人能在不同的任务场景下,有较好的适应能力。该规划方法为机器人全局路径规划问题提供了新的解决方向。1 运动规划策略路径规划是指在特定区域内找到一条从初始点到指定目标点的轨迹。通常该区域会包含多个障碍物,使得机器人在找寻目标中有多条轨迹选择,因此路径规划的关键是使机器人自主求解的轨迹满足任务的需求。为了较好地评估路径规划算法的优劣,通常研究对象为运动状态离散化的移动机器人,并且实验场景为栅格
11、地图,网格结构如图 1所示,规定机器人只能从前、后、左、右、左前、左后、右前、右后 8 个方位全向移动,通过数字索引的方式,选择 1 8 节点中其一,进行下一节点位姿变更,并且不能出现越格行为。移动机器人根据当前节点间的动作代价值,以相应的规划方式进入下一节点。路径规划算法的本质是通过不同的更新代价值的方式,以达到不同的规划效果。介绍一种新的代价值更新方式,并对该方法的性能进行数学分析。该方法由两层规划器组成,具体如下。第一层规划器基于强化学习算法,通过移动机器人当前节点和下一节点状态构造奖惩函数,在线更新节点间动作代价值。由于强化学习存在盲目性,本规划器根据地图复杂程度设置多次路径找寻任务,
12、得到多条全局路径集合,并且每次搜寻后,清空节点间的动作代价值,防止路径间形成干扰。第二层规划器根据机器人全局路径需求和自身结构特征建立价值评估模型,多指标评估第一层规划器生成的全局路径集合,得到路径对应的评估1 8 为节点图 1 网格结构地图Fig.1 Map of the network structure值,从而反馈更新节点间动作代价值,并赋予不同的指标权重,生成与指标权重对应的路径,最后根据任务需求,筛选出最优的全局路径。流程如图 2所示。图 2 运动规划流程图Fig.2 Movement planning flowchart1.1 第一层规划器在此层规划器中设置避障程序,模型如图3 所
13、示,机器人根据不同环境变更运动决策,以出现障碍为例,对比机器人在两种环境中不同的运动路径,图 3(a)图 3(d)表示机器人两种路径下该运动节点状态和周边环境。图 3 中,机器人位姿由绿色圆圈表示,初始点用蓝色方块标记,随着方块颜色由深入浅,表示距离初始点位距离越远,并且可通过机器人周边颜色状态分辨机器人当前位姿的周边环境,以决策下一运动节点。当面对状态 2 中,地图出现由黑色方块表示的障碍时,原有选择进入节点1 的动作代价值,将由惩罚函数变更,并根据更新后的代价值重新进行选择,使得机器人由运动决策 1 变更至运动决策2,达到规避避障的效果。593012023,23(24)匡军,等:多功能移动
14、机器人分层路径规划研究投稿网址:图 3 避障算法模型Fig.3 Obstacle avoidance algorithm model 在机器人运动场景中,网格中每个节点与相邻8 个节点以离散、拓扑的结构连接,建立强化学习模型,机器人位姿状态由 Q(s,a)表示,其中,s 为机器人所处的节点位置,a 为当前节点与相邻 8 个动作节点,由 8 个对应动作代价值组成的列表,如式(1)所示。a=a1a2a3a4a5a6a7a8(1)机器人在线运动决策过程中,代价值 a 会根据下一节点状态反馈更新,更新公式为Q(st,at)=Lreward-Q(st,at)(2)式(2)中:L 为学习率;reward为
15、更新奖励;t 为当前状态时刻;st为 t 时刻下节点位置;at为该时刻下此节点位置与相邻节点间的代价值。根据相应运动下一节点状态,reward将得到不同的奖励赋值,赋值规则可表示为reward=1,p=gdQst+1,argmax(at+1),p g-1,p=o(3)式(3)中:p 为机器人当前位置;o 为障碍物位置;g为目标位置;此时 Q 函数寻找下一状态节点最大的动作代价值;d 为奖励衰变比例,随着迭代次数的增加,获得的奖励值降低。1.2 第二层规划器全局路径通常由节点个数(number of nodes,NS)、路径长度(path length,PL)、总转弯角度(turn-ing an
16、gle,TA,单位:rad)、转动次数(number of rota-tions,NT)和附近障碍物总个数(number of obstacles,NO)5 种指标评判,其中机器人运动转弯角度和附近图 4 运动角度和障碍个数计算方式Fig.4 Calculation method of movementangles and obstacles障碍物个数计算方式如图 4 所示。图4 中,移动机器人从 t-1 时刻移动到 t+1 时刻。上一时刻机器人状态、当前时刻机器人状态和下一时刻机器人状态分别用 st-1、st和 st+1表示。对应时间 t 的转弯角为 t,索引节点周围 8 个方向方格中障碍物
17、个数用以统计附近障碍物总个数,如 st、st+1附近障碍物个数为2,状态 st-1附近障碍物个数为1。以此建立评估模型,如图 5 所示。图 5 中,W1、W2、W3为指标权重,并且保证权重和为 1。将对第一层规划器生成的路径集合中每条路径进行评估,根据机器人移动任务需求,对 5 种评估指标 NS、PL、TA、NT、NO在路径集合中的排名,赋予相应的奖励值,奖励值由 10、8、6、4 共4 个等级组69301科 学 技 术 与 工 程Science Technology and Engineering2023,23(24)投稿网址:图 5 路径价值评估模型Fig.5 Path value ass
18、essment model成。例如,机器人任务需求趋向于寻找最短路径时,则该路径,在 PL指标路径长度排名越小,赋予奖励值越大。为了减少计算量,NS与 PL因素对全局路径质量影响程度类似,统一由权重 W1控制,NT与TA由权重 W2控制,NO影响相差较大,单独用 W3控制。路径评估值计算公式为EV=W1(RNS+K1RPL)+W2RNO+W3(RNT+K2RTA)(4)式(4)中:RNS、RPL、RNO、RNT、RTA为对应评估指标的奖励值大小;K1、K2为比例积分,通常设置为 1。R 为奖励得分,奖励机制为R=10,Rank1(0 25%)8,Rank2(25%50%)6,Rank3(50%
19、75%)4,Rank4(75%100%)(5)式(5)中:Ranki(i=1,2,3,4)为该路径在第一层全局路径集合中此指标的排名,指标数据从小到大排名。根据机器人功能需求设置相应的得分赋值,如当需要移动机器人在路径较短的情况下抵达目标时,可将奖励得分赋值为排名越小得分越高。不同的赋值对机器人运动决策影响不同,导致生成全局路径效果不同。传统的蚁群算法以路径真实数据计算信息素浓度,而本评估模型通过排名机制,可以保证信息素浓度在一定数值跨度区域内,以提高路径评估效率并降低计算量。根据所有路径评估值,反馈更新节点间代价值,更新规则为Q(st,at)=Ni=1EViN(6)式(6)中:N 为此节点做
20、出该运动决策的路径总数;i为路径集合中单条路径的索引;EVi为对应 i 路径的价值评估值。由贪心取法选择代价值最大的决策方式进入下一节点,直至到达目标状态完成路径搜寻。进而设置不同的指标权重,得到随权重变化的路径集合,筛选满足任务条件的全局最优路径,赋予机器人指令执行运动决策。2 多功能需求的路径规划应用为使移动机器人实现不同功能,经常要求机器人做出不同的路径规划。通过仿真设置地图场景,着重探讨此规划方法在人为需求下,如何控制全局路径评估指标权重从而得到相应的路径。仿真环境如下:Windows10 64 位;AMD Ryzen 5 3600 6-CoreProcessor;主频 3.60 GH
21、z;运行内存 16 GB;仿真软件:PyCharm。2.1 地图环境的搭建目前路径规划算法地图环境通常为栅格网络地图,为保证算法路径生成可视性,地图环境网格设置为 10 10 个方格组成,单格尺寸大小为 20 20,并由左到右作为 x 轴,从下至上作为 y 轴进行标号,形成栅格地图。如图 6 所示,机器人无法移动到黑色状态节点,设置起始点为(2,9),终止目标点为(10,1)。黑色方格表示障碍图 6 仿真地图Fig.6 Simulation map2.2 指标权重对于生成路径的影响主要探讨路径评估指标权重对于生成全局路径的影响,分别介绍 PL、TA和 NO3 个指标权重发生变化时生成的路径,并
22、且为了避免偶然性,每个权重数据取重复 10 次实验的平均值,依据功能需求,设计 3 组实验场景。2.2.1 场景一第 1 组实验场景希望移动机器人能够寻求路径较短情况下达到目标点完成物品运输任务12。依793012023,23(24)匡军,等:多功能移动机器人分层路径规划研究投稿网址:据第二层规划器计算方式,PL指标排名和 TA指标排名越小得分越高,且不发生碰撞的情况下靠近障碍物抵达目标,则 NO指标排名越大得分越高。赋予指标不同的奖励得分如表 1 所示。将 PL指标权重 W1递增,NO指标权重 W2与 TA指标权重 W3递减的方式进行实验分析。由此得到路径长度随 W1变化曲线如图 7 所示。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多功能 移动 机器人 分层 路径 规划 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。