海上布防任务中无人艇对可疑目标的驱逐方法研究.pdf
《海上布防任务中无人艇对可疑目标的驱逐方法研究.pdf》由会员分享,可在线阅读,更多相关《海上布防任务中无人艇对可疑目标的驱逐方法研究.pdf(10页珍藏版)》请在咨信网上搜索。
1、第6卷 第4期2023年8月无人系统技术Unmanned Systems TechnologyVol.6 No.4August 2023海上布防任务中无人艇对可疑目标的驱逐方法研究鲁宇琦,魏长赟*(河海大学机电工程学院,常州213022)摘要:海上无人船在海洋运输、环境调查、情报搜集等领域得到了日益广泛的应用。目前针对海上无人船的研究主要集中在目标跟踪、追逐避碰等问题,但布防任务中的驱逐任务有着更高要求,既要驱逐可疑船只远离保护目标,又要能够预测可疑船只运动意图,从而提前进行拦截,这给无人船的自主决策带来了挑战。针对上述问题,提出了对抗环境下海上无人船对可疑目标的驱逐方法。建立了基于深度强化学
2、习的策略梯度优化算法框架;设计了意图预测模型及封堵策略,实现无人船的提前拦截,并证明了该策略的最优性;提出基于专家经验的矫正纠偏策略,降低了智能体早期的盲目探索时间,加快智能体的训练速度,并证明了专家动作序列的单值性;搭建了基于gym的仿真环境,并在仿真环境中验证了方法的有效性。研究结果表明,提出的驱逐方法能够使无人船在速度不占优势的情况下仍能完成对可疑目标的驱逐,为海上无人船在对抗性环境中执行复杂任务提供了一种技术参考。关键词:海上无人船;深度强化学习;对抗性环境;策略梯度算法;意图预测;封堵策略;专家经验中图分类号:TP273+.2 文献标识码:A 文章编号:2096-5915(2023)
3、04-051-10DOI:10.19942/j.issn.2096-5915.2023.04.37Expulsion of Suspicious Target by Unmanned Surface Vessels for Maritime Deployment MissionsLU Yuqi,WEI Changyun*(College of Mechanical and Electrical Engineering,Hohai University,Changzhou 213022,China)Abstract:Unmanned surface vessels(USVs)have been
4、widely used in the fields of marine transportation,environment survey and information collection.The current research on USVs mainly focuses on target tracking and collision avoidance,and there are higher requirements for the eviction task in the deployment task.The 收稿日期:2023-02-24;修回日期:2023-04-20基金
5、项目:国家自然科学基金(61703138);中央高校基本科研业务费项目(B200202224)作者简介:鲁宇琦,硕士研究生。通讯作者:魏长赟,博士,副教授。引用格式:鲁宇琦,魏长赟.海上布防任务中无人艇对可疑目标的驱逐方法研究 J.无人系统技术,2023,6(4):51-60.Lu Y Q,Wei C Y.Expulsion of Suspicious Target by Unmanned Surface Vessels forMaritime Deployment Missions J.Unmanned Systems Technology,2023,6(4):51-60.第 6 卷无人系统
6、技术USVs are required to not only expel suspicious targets away from a protection area,but also to predict the motion intention of the suspicious targets so as to intercept them in advance,which brings challenges to the autonomous decision making of USVs.To address this problem,we present an approach
7、of deployment and expulsion of suspicious targets by USV in adversarial environments,and establish a DRL based framework for strategy gradient optimization.In order for the USV to intercept earlier by predicting the intention of suspicious targets,we design an intention prediction model and blocking
8、 strategy,and also prove the optimality of this strategy.A correction strategy based on expert experience is proposed to accelerate the training speed of the agents,and the single-valuedness of the expert action sequence has also been proved.A simulation environment is built based on gym,and the eff
9、ectiveness of the method was verified in the simulation environment.The results show that the proposed expulsion method can enable the USV to complete the expulsion of suspicious targets without speed advantage,and it provides a technical reference for USVs to perform complex tasks in adversarial en
10、vironments.Key words:Unmanned Surface Vessel;Deep Reinforcement Learning;Adversarial Environment;Strategy Gradient Algorithm;Intention Prediction;Blocking Strategy;Expert Experience1 引 言 海上无人船(Unmanned Surface Vessel,USV)作为一种海洋无人智能运载平台,具有使用灵活、泛用性好、可执行危险任务等显著特点,其在各种海洋作业中的运用愈加广泛,比如特别依赖长期连续性数据的海洋环境监测,U
11、SV因其长期性和持久性在海洋环境监测方面发挥越来越重要的作用1;再比如航母护航舰队,航母进行远洋作业时需要护航舰队执行任务,但远洋作业未知且危险,USV即可替代人类执行危险任务,在海上风电场巡逻、岛屿警戒、反雷反潜艇等军事领域也有USV的应用。因此对USV行动方法的研究受到国内外学者的广泛关注。对USV行动方式最基础的研究则是对其航行规划和导航的研究。全局路径规划能够解决路径到达和路径覆盖两个问题。传统的全局路径规划方法有A*算法、D*算法、遗传算法2-3、蚁群算法4、粒子群寻优算法5等。Chen等6提出了一种改进的蚁群优化算法,通过一种新的信息素更新规则,提高了传统蚁群算法的收敛性,减少局部
12、最优的问题,并且与人工势场法相结合,使得USV能够在动态环境下获得最优的路径规划,但是该算法是基于网格图的设计,实用性较低。全局路径规划适用于静态环境的路径规划,其实用性较小,更有实用价值的是局部路径规划。局部路径规划方法有基于启发式算法的路径规划、人工势场法7-8、深度强化学习相关算法等。Shao等9提出了一种用于规划无人机编队的改进粒子群算法。通过引入一种基于混沌的映射方法来改善粒子群的初始分布,然后将速度和最大速度系数设计为自适应线性变系数,用以适应优化过程,提高了解的最优性,此外还加入了将不重要的粒子替换为重要的粒子的突变策略,加快了算法的收敛。学者们对路径规划进行了大量研究,但是在对
13、抗性的驱逐方法方面研究较少10。无论是航母护航,还是反雷反潜艇等军事作业,需要驱逐的对象并不是静态和低智能的。Lee等11构建了一种多潜艇防御追击的目标分配和路径规划框架,提出使用PNG定律进行目标分配,利用Dubins路径处理防御追击时的避障问题,其防御追击的目标会主动入侵,但是该环境中入侵者的入侵路径是固定的,并不会对护卫潜艇的逼近作出反应。因此构建一种动态强对抗的环境,其中的可疑目标移动速度快、转向灵敏、综合性能比USV更好,并且会主动、不间断地对布防目标进行进攻,同时会对USV的防御动作做出反馈;在这样的强对抗背景下对USV进行训练,并实现在动态环境中USV对可疑目标精准快速驱逐的算法
14、,对于具体的海上布防任务来说具有重要意义。52第 4 期鲁宇琦等:海上布防任务中无人艇对可疑目标的驱逐方法研究对此本文提出一种基于深度强化学习(Deep Reinforcement Learning,DRL)的布防驱逐算法,并引入改进人工势场法智能化可疑目标的进攻路径,使其进攻性更强且更难以被驱逐,提高了算法的实用性。同时搭建了策略梯度算法学习模型,并在gym中构建仿真环境进行训练,成功验证了驱逐方法的可行性。2 问题描述 海上布防任务,是指利用海上军事力量,对某个有价值的目标比如航母、岛屿等进行分布防御,封锁控制。在确定布防目标后,对封锁范围内的任何可疑目标进行驱逐是布防任务非常重要的一环。
15、虽然USV集群协作可以更有效地执行任务12,但是USV海上集群决策是极其具有挑战性的13。原因有以下几点:一是因为集中式决策需要一个汇总信息的中央处理器,同时与每个USV进行信息交互,而海上通信极易受到环境干扰,存在较高延迟,信息滞后效应会极大影响决策;二是因为集群决策寻找全局最优解,但是联合行动时状态空间及动作空间成指数增长,难以找到最优解,且该解扩展性差无法转移至其他类似环境。因此本文以深度强化学习模型为基础,提出了USV集群驱逐任务模型,USV配有雷达,能够以自身为中心探测可疑目标位置,并将其坐标进行转化处理,通过策略学习实现对可疑目标的驱逐作业。具体模型如图1所示。图中中心点为布防目标
16、,以布防目标为中心,半径为R的圆形区域为驱逐域,m个可疑目标(红色锥形目标)随机在驱逐域外一点生成并进行进攻,分别记为(T1,T2,Tm),相对应有m个USV(蓝色船),对应记为(G1,G2,Gm)从布防目标点出发进行驱逐作业。USV的通信范围用半径为RG的绿色圆圈表示,由于海上通信条件受限,USV无法与范围之外的友军进行信息交互,同时 USV 可以对正前半径为Ra、角度为a的扇形区域攻击,其攻击范围的大小决定了 USV 接近可疑目标时,可疑目标的逃逸距离dflee。防守船的最终目标为将可疑目标成功驱逐出驱逐域。将每个可疑目标与布防目标之间的距离定义为(D1,D2,Dm),则 该模型任务目标可
17、以定义为i (1,m),Di R(1)可疑目标遵循人工势场法快速逼近布防目标,其中布防目标对其有引力生成引力场,USV对其有斥力生成斥力场,综合势力场得到梯度下降最快的方向,这使得可疑目标每时每刻都能以最快的方向逼近布防目标,同时保证了可疑目标不会被 USV 贴近。此外,USV 对其产生的斥力也是USV能够将可疑目标驱逐出驱逐域的原动力。但是在此设置下,若存在多个USV,每个USV都会对可疑目标产生斥力,将会极大影响可疑目标对布防目标的进攻,同时对USV的学习产生严重干扰,这将导致USV无法学习到好的驱逐策略,因此本文主要研究单个可疑目标及与其对应USV的驱逐任务,而USV之间的通信则在本文中
18、不过多考虑。对于每个可疑目标Ti及其对应的USVGi,其驱逐模型如图2所示。图中为USVGi的艏向角,USV在水面运动速度不可突变,因此USV运动过程是艏向角连续变化的过程,需要尽快指向可疑目标以快速逼近驱逐目标。为可疑目标相对USV的方位角,与相对USV的距离共同构成可疑目标的极坐标位置信息,其计算公式为图1USV集群驱逐任务模型Fig.1Expulsion model of Swarm USV53第 6 卷无人系统技术 =x2+y2=arctan()y/x(2)式中,(x,y)为可疑目标在USV以自身为原点的笛卡尔坐标系中的二维坐标值。三者共同构成了驱逐任务模型的状态信息St(,)。USV
19、的动作则由布防驱逐算法根据状态信息训练得出,以保证能够以最优的策略实现驱逐,具体算法模型将在后续进一步介绍。3 可疑目标驱逐方法 传统的驱逐对抗设计中只考虑了如何让USV学会逼近可疑目标,将接触或是接近到一定距离设置为成功条件,同时对于可疑目标的运动设置是极其简单的。但对实际的布防任务而言,可疑目标是迅速并且智能的,如图2所示,如果USV只是不断逼近可疑目标,可疑目标会在USV接近时主动进行回避,尤其是当可疑目标移动更快时,更易绕开USV的拦截与驱逐。因此需要对传统的跟踪追逐算法进行改进以实现对可疑目标的驱逐。3.1基于DRL的驱逐方法框架DRL是一种将深度学习(Deep Learning,D
20、L)整 合 信 息 的 能 力 和 强 化 学 习(Reinforcement Learning,RL)决策能力相结合的方法。随着深度强化学习在围棋中的突破,证明了深度强化学习能够解决现实问题,使其在更多无人智能领域获得关注。马尔科夫决策过程(Markov Decision Process,MDP)是强化学习的理论基础。智能体获得当前环境的状态值st,然后选择一个动作值at,环境状态转移至下一状态st+1,同时环境会给出一个收益rt+1。此后不断重复上述过程直到终局状态。DRL的算法已经提出了很多种,深度Q学习网络(Deep Q-learning Net,DQN)14解决了当状态空间过于复杂和
21、高维时穷举不可实现的问题,并在Atari2600游戏中有着不俗的成绩;随后针对DQN只能在离散空间中使用的缺陷,提出的深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)15使DRL成功在连续环境中得到应用,并在Atari2600游戏中完胜DQN;还有诸如 异 步 优 势 演 员 评 论 家 网 络(Asynchronous Advantage Actor-Critic,A3C)16-17、近似策略梯度优化(Proximal Policy Optimization,PPO)18等算法均在不同方面进行了优化,也取得了较好的成果。鉴于本文难题的特
22、点,选择将能够解决连续控制性问题的DDPG算法作为基础算法;针对本文对抗性环境中的奖励稀疏(Sparse Reward,SR)19问题设计了其奖励函数;针对跟踪追逐算法将可疑目标当前位置作为目标点导致USV容易被绕开的问题,提出了一种意图预测及封堵策略;针对DDPG在训练开始时需要大量试错迭代学习的冷启动(Cold Start,CS)问题,设计了一种专家经验矫正纠偏策略对模型进行预训练,加快训练速度。整体算法框架如图3所示。3.2驱逐任务的奖励函数传统跟踪追逐任务的奖励函数设计多为步进惩罚加上成功的奖励值,步进惩罚用于督促智能体选取更快的路径、更少的步数完成任务,成功的奖励值则用于智能体不断更
23、新学习。但是对于本文的对抗性驱逐环境,可疑目标的运动规则是固定的人工势场法,它会遵循势场梯度以最快的路径逼近布防目标,当USV靠近时会根据势场变化迅速远离USV。并且在环境设计中可疑目标是灵活的(速度、方向可以突变),这保证了它永远不会被USV追上。而USV在学习过程中完全随机探索,其能成功将可疑目标驱逐出驱逐域的概率是极低的。这将直接导致SR问题,图2单个可疑目标及与其对应USV的驱逐任务模型Fig.2Expulsion model of UAV for a single suspicious target54第 4 期鲁宇琦等:海上布防任务中无人艇对可疑目标的驱逐方法研究USV将学习缓慢甚
24、至无法学习。因此为了加快智能体的训练,设计奖励函数,并稠化奖励值,在训练过程中给予USV更多的奖励,利于其学习,为此,将奖励函数定义为r=a r+b rT+c rGT(3)式中,r为总奖励,r为夹角奖励,rT为可疑目标位置奖励,rGT为驱逐距离奖励。a,b,c为每个奖励的权重,符合a+b+c=1。夹角奖励r与有关,定义为USV艏向角与可疑目标相对USV方位角差值的绝对值。在 USV 运动过程中,希望尽量小,这意味着USV运动的方向是指向可疑目标,会不断逼近可疑目标的位置,便于驱逐任务的执行。因此,越小则r越大。可疑目标位置奖励rT与可疑目标相对布防目标距离dT的变化有关。在USV运动过程中,希
25、望dT越来越大,这意味着可疑目标在远离布防目标,当dT R时则驱逐成功,因此dT增大则rT为正,dT减小则rT为负。但是考虑到在环境运行初期,USV还未接近可疑目标,此时可疑目标并不会因USV的接近而进行避让,因此dT在此时是单调减小的,这将导致在初期的位置奖励rT是不合理的,并不能有效反映USV此刻动作的好坏。因此对rT加入一个约束,当dGT dflee时,b 0,其中dGT为USV相对可疑目标的距离。驱逐距离奖励rGT与USV相对可疑目标的距离的变化有关。在USV运动过程中,希望尽快接近可疑目标,因此dGT减小则rGT为正,dGT增大则rGT为负。与rT相反,在环境运行中后期,由于USV与
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海上 布防 任务 无人 可疑 目标 驱逐 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。