基于改进DDPG算法的无人艇自适应控制.pdf
《基于改进DDPG算法的无人艇自适应控制.pdf》由会员分享,可在线阅读,更多相关《基于改进DDPG算法的无人艇自适应控制.pdf(8页珍藏版)》请在咨信网上搜索。
1、本文网址:http:/www.ship- DDPG 算法的无人艇自适应控制 J.中国舰船研究,2024,19(1):137144.SONG L F,XU C Y,HAO L,et al.Adaptive control of unmanned surface vehicle based on improved DDPG algorithmJ.Chinese Journal of Ship Research,2024,19(1):137144(in Chinese).基于改进 DDPG 算法的无人艇自适应控制扫码阅读全文宋利飞1,2,许传毅1,2,郝乐1,2,郭荣1,2,柴威*1,21 武汉理工
2、大学 高性能船舶技术教育部重点实验室,湖北 武汉 4300632 武汉理工大学 船海与能源动力工程学院,湖北 武汉 430063摘 要:目的目的针对水面无人艇(USV)在干扰条件下航行稳定性差的问题,提出一种基于深度强化学习(DRL)算法的智能参数整定方法,以实现对 USV 在干扰情况下的有效控制。方法方法首先,建立 USV 动力学模型,结合视线(LOS)法和 PID 控制器对 USV 进行航向控制;其次,引入 DRL 理论,设计智能体环境状态、动作和奖励函数在线调整 PID 参数;然后,针对深度确定性策略梯度(DDPG)算法收敛速度慢和训练时容易出现局部最优的情况,提出改进 DDPG 算法,
3、将原经验池分离为成功经验池和失败经验池;最后,设计自适应批次采样函数,优化经验池回放结构。结果结果仿真实验表明,所改进的算法迅速收敛。同时,在训练后期条件下,基于改进 DDPG 算法控制器的横向误差和航向角偏差均显著减小,可更快地贴合期望路径后保持更稳定的路径跟踪。结论结论改进后的 DDPG 算法显著降低了训练时间成本,不仅增强了智能体训练后期的稳态性能,还提高了路径跟踪精度。关键词:无人艇;深度强化学习;智能控制;轨迹跟踪;参数整定中图分类号:U664.82;TP242.6文献标志码:ADOI:10.19693/j.issn.1673-3185.03122 Adaptive control
4、of unmanned surface vehiclebased on improved DDPG algorithmSONG Lifei1,2,XU Chuanyi1,2,HAO Le1,2,GUO Rong1,2,CHAI Wei*1,21 Key Laboratory of High Performance Ship Technology of Ministry of Education,Wuhan University of Technology,Wuhan 430063,China2 School of Naval Architecture,Ocean and Energy Powe
5、r Engineering,Wuhan University of Technology,Wuhan 430063,ChinaAbstract:ObjectiveIn order to tackle the issue of the poor navigation stability of unmanned surfacevehicles(USVs)under interference conditions,an intelligent control parameter adjustment strategy based onthe deep reinforcement learning(D
6、RL)method is proposed.MethodA dynamic model of a USV combin-ing the line-of-sight(LOS)method and PID navigation controller is established to conduct its navigation con-trol tasks.In view of the time-varying characteristics of PID parameters for course control under interferenceconditions,the DRL the
7、ory is introduced.The environmental state,action and reward functions of the intelli-gent agent are designed to adjust the PID parameters online.An improved deep deterministic policy gradient(DDPG)algorithm is proposed to increase the convergence speed and address the issue of the occurrence oflocal
8、 optima during the training process.Specifically,the original experience pool is separated into successand failure experience pools,and an adaptive sampling mechanism is designed to optimize the experience poolplayback structure.ResultsThe simulation results show that the improved algorithm converge
9、s rapidlywith a slightly improved average return in the later stages of training.Under interference conditions,the later-al errors and heading angle deviations of the controller based on the improved DDPG algorithm are reducedsignificantly.Path tracking can be maintained more steadily after fitting
10、the desired path faster.ConclusionThe improved algorithm greatly reduces the cost of training time,enhances the steady-state performance of theagent in the later stages of training and achieves more accurate path tracking.Key words:USV;deep reinforcement learning;intelligent control;trajectory track
11、ing;parameter setting收稿日期:20221011 修回日期:20221111 网络首发时间:20230606 17:46基金项目:国家自然科学基金资助项目(52201379);中央高校基本科研业务费专项资金资助项目(3120622898)作者简介:宋利飞,男,1989 年生,博士,副教授。研究方向:智能船舶。E-mail:许传毅,男,1999 年生,硕士生。研究方向:无人艇路径跟踪。E-mail:柴威,男,1988 年生,博士,教授。研究方向:船舶安全性与可靠性。E-mail:*通信作者:柴威 第 19 卷 第 1 期中 国 舰 船 研 究Vol.19 No.12024 年
12、 2 月Chinese Journal of Ship ResearchFeb.2024 0 引言水面无人艇(unmanned surface vehicle,USV),是海洋环境中无人系统的重要组成部分,在军事、民用和科研等方面具有举足轻重的地位1-3。路径跟踪技术是保证 USV 航行质量的基础。近年来,随着人工智能技术的不断发展,深度强化学习(deep reinforcement learning,DRL)技术得到了广泛应用。强化学习(reinforcement learning,RL)是指智能体与环境不断互动,并根据奖励逐渐学习最优策略的过程4-7。借助神经网络强大的特征提取和函数拟合能
13、力,DRL 成为机器学习领域的研究热点。目前,DRL 方法也被用于 USV 的控制策略研究。例如,李宝安8基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法训练神经网络实现了 USV 的运动控制,相比传统的比例积分微分(proportional integral deriv-ative,PID)控制算法,其在稳定性以及抗干扰能力上具有一定优势,但仿真验证仅限于跟踪期望舵角曲线,在风浪干扰的情况下未给出验证结果。Deng 等9使用 RL 方法实现了 USV 的最佳控制行为,并与传统 PID 算法相比较,验证了该 RL 算法的可行性。Zha
14、o 等10设计了一种改进的深度 Q网络(deep Q-network,DQN)结构,将决策网络输出为 USV 的控制律,降低了路径跟踪系统的复杂度,并通过数值仿真验证了所提方法具有可用性和通用性。祝亢等11将 DRL 技术与引导系统结合,使 USV 获得所需的航向命令,并将训练完成的控制器与 BP-PID 控制器进行对比研究,该系统具有偏航误差小、舵角变化频率小等优点。Zhao等12通过具有随机制动的改进 DRL 解决了欠驱动 USV 形成的路径跟踪问题,验证了 RL 方法在USV 编队控制的优越性。目前,将 RL 应用到 USV 航向 PID 控制领域的研究较少。PID 控制算法作为经典控制
15、算法,具有结构简单、可靠性高和操作方便等优点,在USV 领域得到了广泛应用。但固定参数的 PID控制器控制精度差且超调量大,而 PID 参数整定又是一个复杂的过程,实际应用依赖于人工经验。针对 USV 航向控制 PID 参数自整定的研究主要集中于采用群体智能算法或自适应等方式,以目标函数最优为参数优化目标,例如蚁群算法、遗传算法、模糊算法等。这些算法在一定程度上解决了控制参数的寻优问题,但是在未知环境下实时性较差,且存在计算量大、难以适应干扰改变等问题。苑光明等13提出了一种利用具有变异特征的蚁群算法优化 PID 参数来进行 USV航向控制的方法,其具有航向控制超调量小、跟踪速度快等优点,但未
16、考虑风浪干扰对控制器影响。Zhang 等14针对未知时变环境扰动和船舶航向控制参数不确定性的非线性控制问题,设计了一种自适应自调节 PID 方案,解决了控制参数整定难、设计复杂的问题,很好地抵抗了时变干扰。Liao 等15设计了一种改进的自适应模糊 PID控制方法,解决了 USV 受机动性、扰动大等因素影响的控制问题,通过实验验证了所提方法的有效性和可行性。基于以上分析,运用 DRL 方法解决 PID 参数整定问题具有重大意义。本文将提出一种改进DDPG 的 USV 智能参数控制方法,针对模型状态、动作、奖励等方面进行设计,以及考虑 DDPG算法累计误差大、训练速度慢的问题,提出一种分离优先经
17、验回放的经验池改进算法,以提升数据的采样效率。此外,还设计自适应采样批次函数,使智能体能够根据自身训练程度将相应批次大小的数据输入智能体评价网络。最后,在干扰情况下,将本文所提方法与经过 DDPG 算法训练后的智能参数器、文献 16 自适应 PID 控制器进行仿真对比,以验证改进后的 DDPG 智能参数器跟踪效果。1 USV 运动模型本文中对 USV 建立水平面三自由度运动模型,如图 1 所示。xo0Oyy0 x0rvuU图 1USV 操纵运动坐标系Fig.1 USV manipulation motion coordinate system u,v,r图 1 中,分别为 USV 运动的 3
18、个自由度上的速度,U 为 u 和 v 的合速度,为 USV 艏向角。由受力分析可以得到 USV 在水平面上的如下运动方程:m(uvrxGr2)=Xm(v+ur+xGr2)=YIz r+mxG(v+ur)=N(1)xGIzX,Y和N式中:m 为 USV 实际质量;为 USV 重心左、右中线上的纵向坐标;为惯性矩;分别为 USV3 个自由度的所受的力和力矩分量。138“无人船艇自主性技术”专辑第 19 卷USV 在两坐标系的变换关系如下式所示:ucosvsin=Xusin+vcos=Yr=(2)X,Y 式中:代表位置导数;代表方位角导数。d作用在 USV 上的水动力和力矩不仅与其自身几何形状有关,
19、还与其运动特性和流体特性有关。为了进一步简化问题,考虑操舵时间短暂,本文忽略操作过程中推进器转速和舵角的导数因素的作用,则水动力关系式可表示为:X(u,v,r,u,v,r,d)=XY(u,v,r,u,v,r,d)=YN(u,v,r,u,v,r,d)=N(3)将上式在平衡状态附近作泰勒展开,忽略三阶以上的高阶项,并考虑其综合影响,可得到(mX u)u=X(mY v)v+(mxGY r)r=Y(mxGN v)v+(IzN r)r=N(4)上述公式的水动力系数及参数详见文献 11。2 自适应航行控制器设计d=k arctan(ye/)视线(LOS)制导法17在 USV 航向控制领域发挥着重要作用。本
20、文定义如下:OXY 为惯性坐标系,OdXdYd为载体坐标系;USV 的 x 和 y 轴速度 u 及 v、角速度 r、航向角、USV 与目标航线横向距离 ye、目标航线的倾斜角度 k、前视距离、USV 舵角 d。如图 2 所示,LOS 制导原理是设定一个当前前视目标点(xd,yd)和上一路径点(x0,y0),并 有 一 定 的 前 视 距 离,则 期 望 航 向 角,航向角与目标航线倾角的偏差为 epsi。通过不断地计算航向偏差,LOS 法可计算下一时刻 USV 的期望舵角值,从而不断地实时调整航向。LOS 制导法极大程度上简化了控制器输出,降低了控制器设计的复杂程度。(xd,yd)(x0,y0
21、)(x,y)XYOkXdOdYdyed图 2LOS 原理示意图Fig.2 Schematic diagram of LOS algorithm 在航向控制领域,针对 PID 控制器的积分饱和现象,本文使用 PD 控制 USV 航向舵角。控制器的输出为 USV 的舵角,即d=kpepsi+kdepsi_dot(5)其中,epsi=d,epsi_dot=(epsiepsi)/tepsiepsi_dot式中:为上一时刻航向角偏差;为航向偏差变化率。d本文方法总流程说明如下:首先,由 LOS 法确定期望航向,将 USV 状态信息存入经验池;然后,经神经网络训练由 Actor 网络输出 PD 参数;再经
22、控制器计算得到下一步的舵角;最后,由模型得到 USV 新的航向角及其他状态信息。本文总体控制结构如图 3 所示。经验池成功经验池失败经验池自适应批次采样Actor 网络PID 控制器期望航向角 d航向角 延迟更新KdKp舵角 d图 3基于 DRL 的 USV 控制框图Fig.3 Block diagram of USV control based on DRL 3 基于 DRL 的智能参数调整p(s1)p(st+1|st,at)r(st,at)statrtRt=rt+1+rt+2+2rt+3+RL 是机器学习的一个重要分支,它主要研究的是智能体如何在环境中采取行动,以最大化其对环境的累积奖励。
23、在这个过程中,智能体与环境不断地交互,通过尝试不同的行为并观察结果,来学习如何采取最优的行动。马尔科夫决策过程(Markov decision process,MDP)是 DL 中的一个基本概念,一个 MDP 中由状态空间 S、动作决策空间 A、初始状态的分布以及转移模型和奖励函数组成。在每个时间步内智能体收到一个状态,并做出动作,获得奖励。智能体的行为策略描述为,其是将状态映射到动作的概率分布。RL 的目标是找到一个最优策略,使某一状态的回报最大化,即累计回报值(其中 为折扣因子)。动作价值函数广泛的应用在 RL 算法中,动作价值函数如式(6)所示。通过计算期望值,可以评估在给定状态下执行某
24、一动作的预期回报。Q(st,at)=Esit,aitRt|st,at(6)第 1 期宋利飞等:基于改进 DDPG 算法的无人艇自适应控制139(s|a)Q(s,a|c)acDDPG 算法是一种 ActorCritic 的 DRL 方法。策略函数和动作价值函数是深度神经网络(deep neural networks,DNN),其中和为参数,并采用随机梯度下方法更新参数。c cc1NiBc(yiQ(si,ai|c)2a aa1NiBaiQ(si,ai|c)a(si|a)(7)cayi式中:和为学习率;N 为随机采样样本的数量;B 代表经验池;为动作价值估计,并由下式确定:yi=ri+Q(si+1,
25、(si+1|a)|c)(8)ac式中:和是两个目标网络的参数。在 DDPG算法中引入目标网络来稳定训练,通过下式更新学习参数:c=(1)c+ca=(1)a+a(9)式中,为目标网络的更新速率。DDPG 算法的工作结构如图 4 所示。算法执行过程如下:1)由 Actor 网 络 生 成 一 组 动 作 at,并 加 入OrnsteinUhlenbeck(OU)噪声;st+1(st,at,r,st+1)2)智能体根据当前动作将下一状态输入到奖励函数中,将存入经验池;st,st+1(st,at,r,st+1)3)从经验回放缓冲区抽取 n 个样本,分别将输 入 到 Actor 网 络,将输 入 到Cr
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 DDPG 算法 无人 自适应 控制
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。