基于最近双经验SAC算法的无人分队控制研究.pdf
《基于最近双经验SAC算法的无人分队控制研究.pdf》由会员分享,可在线阅读,更多相关《基于最近双经验SAC算法的无人分队控制研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、收稿日期:2022-10-06修回日期:2022-12-14作者简介:李海川(1997),男,山西太原人,硕士研究生。研究方向:系统工程。通信作者:阳周明(1982),男,广西桂林人,正高级工程师。研究方向:指挥控制系统、通信网络系统。*摘要:针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于 SAC算法,提出最近双经验回放 SAC 算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明,改进后的 SAC 算法相比传统 SAC 算法,提升了学习效率与稳定性,降低了策略网络误差,使无人分队能有更高的任务成
2、功率。关键词:深度强化学习;SAC 算法;最近双经验池回放;无人分队行为决策中图分类号:TJ812文献标识码:ADOI:10.3969/j.issn.1002-0640.2023.06.011引用格式:李海川,阳周明,王洋,等.基于最近双经验 SAC 算法的无人分队控制研究 J.火力与指挥控制,2023,48(6):70-75.基于最近双经验 SAC 算法的无人分队控制研究李海川,阳周明*,王洋,崔新悦,王娜(北方自动控制技术研究所,太原030006)Research on the Control of Unmanned Detachment Based onthe Recent Double
3、 Empirical SAC AlgorithmLI Haichuan,YANG Zhouming*,WANG Yang,CUI Xinyue,WANG Na(North Automatic Control Technology Institute,Taiyuan 030006,China)Abstract:For the control of unmanned detachment,how to make behavioral decision-making tobetter complete tasks is a research focus of the unmanned driving
4、.Based on the SAC algorithm,the SACalgorithm model of recently double experience playback is proposed.This model mainly starts from twoaspects:one is to replace random sampling with recent empirical sampling;The second is to use doubleexperience pool instead of single experience pool.The experimenta
5、l results show that compared with thetraditional SAC algorithm,the improved SAC algorithm improves the learning efficiency and stability,reduces the policy network error,and enables the unmanned detachment to have a higher missionsuccess rate.Key words:deep reinforcement learning;soft actor-critic a
6、lgorithm(SAC algorithm);dual experiencereplay playback;unmanned squad behavior decision-makingCitation format:LI H C,YANG Z M,WANG Y,et al.Research on the control of unmanneddetachment based on the recent double empirical SAC algorithm J.Fire Control&Command Control,2023,48(6):70-75.0引言随着现代科技的飞速发展,越
7、来越多的人工智能技术被引入军事领域中解决复杂问题1。在军事作战过程中,后勤保障是很重要的一环。在补给运输的过程中,驾驶员需要高度集中并长时间行驶,对长效作战精力消耗很大。因此,无人驾驶可以减轻驾驶员负担,无人分队运输补给能避免人们主观失误,大大提升运输效率。近年来,随着深度强化学习(deep reinforcement learning,DRL)的出现,作为一文章编号:1002-0640(2023)06-0070-06Vol.48,No.6Jun,2023火 力 与 指 挥 控 制Fire Control&Command Control第 48 卷第 6 期2023 年 6 月70(总第 48
8、-)种兼顾强化学习与深度学习优点的学习方式,在游戏2、棋类3、无人驾驶4、路径规划5、行为决策6、自然语言处理7、金融交易8、云计算9等方面都有着广泛应用。本文针对 SAC 算法10中经验池以等概率采样,忽视训练过程中最近经验的重要性,单一经验池没有考虑不同条件下经验状态存在差异,造成收敛速度慢、稳定性不高的问题,在采样阶段提出最近双经验回放改进,一方面给予最近经验较大的采样权重,另一方面用两个不同的经验池分别存储计划状态分布和策略状态分布的经验,提高了经验学习速率,加快了收敛速度。改进后的 SAC 算法应用在无人分队控制方面,可以有效提高任务成功率。1深度强化学习1.1强化学习强化学习(re
9、inforcement learning,RL)通过自身与环境交互,从环境中获得奖励并根据奖励不断调整其行为以达到最优策略。通常采用马尔科夫决策过程(Markov decision process,MDP)进行建模,通过五元组(S,A,P,R,酌)来表示。在五元组中,S 为状态集,A 为一组动作,P 为状态转移概率,R 为奖励函数,酌 为阻尼系数11。强化学习算法主要有以下 3 类:Actor 法,Critic法和 Actor-Critic 法12。Actor 法直接进行学习以获得最优决策;Critic 法根据当前状态,选择期望最大的动作来学习最优策略;Actor-Critic 法分两部分,A
10、ctor 与环境交互后生成策略,Critic 评估 Actor 的行为并指导其下一步动作。1.2深度强化学习框架深度强化学习13通过学习获得最优的目标策略,利用强化学习对神经网络产生动作与环境交互的信息进行决策。深度强化学习框架如图 1 所示,主要由环境、经验回放和深度强化学习网络 3 部分组成。1.2.1环境DRL 的任务通过环境实现表征,环境由五元组中的 P 和 R 构成,即状态转移概率和奖励函数是环境的核心,其流程是当前状态由状态转移概率决定进入下一状态,由奖励函数对状态进行奖励反馈,因此,任务的实体表现即为奖励,任务分数为每一步的奖励之和。1.2.2经验回放经验回放又称为 off-po
11、licy 方法,主体训练思路是以经验池中的经验为基准,反复训练,提高样本利用率,这样做的好处是对比在线更新训练速度有明显提升。经验回放分两步进行:第 1 步是通过选择手段在经验池中存储经验或丢弃经验,第 2 步是通过采样对经验池中的经验进行选择。1.2.3深度强化学习网络深度强化学习网络由在线网络、目标网络和优化器 3 部分构成。3 部分互有联系又相互影响,其中在线网络就是执行网络,通过行为策略与环境的交互产生经验,是优化器进行函数计算的基础;目标函数主要用于对目标值的估计,通过学习获得目标策略作为算法的稳定输出,并实时更新结果;优化器就是以在线网络的经验和目标网络的更新结果为基础,计算损失函
12、数,实现网络权重的更新。1.3SAC 算法软行动者-评论家算法(soft actor-critic,SAC)是基于最大熵强化学习框架的离线强化学习算法,算法流程如图 2 所示。图 2SAC 算法网络结构图Fig.2SAC algorithm network structure diagramSAC 算法的策略要同时满足累计期望与熵的最大化,即:J(仔)=Tt=0移E(st,at)籽仔r(st,at)+琢H(仔(|st)(1)其中,琢 决定熵相对于奖励的重要性,以控制策略的随机性。H 表示策略 仔 的熵,策略 仔 的熵由下式确定图 1深度强化学习框架Fig.1Deep reinforcement
13、 learning framework李海川等:基于最近双经验 SAC 算法的无人分队控制研究711025(总第 48-)火 力 与 指 挥 控 制2023 年第 6 期例如,在第 m 次更新时(1m臆M)经验 i 的采样概率为:P(i)=孜m+1-imj=i-1移孜j+1-i,mi-1(9)其中,孜 作为超参数,决定了最近数据的重要程度。当 孜=1 时,所有经验的采样概率相等;当 孜1 时,最近数据采样概率增大。当 孜 较小时,过去经验占比下降,更容易遗忘过去经验,以提高学习速率,实现快速收敛;当 孜 较大时,过去经验占比提升,在训练过程中收敛速度下降但不容易陷入局部最优。随机经验回放依赖于
14、采样的经验服从预期,最近经验回放不再按原有经验池分布采样,最近经验的多次回放容易陷入局部最优解,对目标网络造成过拟合。因此,为校正误差,需要在更新梯度时引入重要性采样:棕i=(1N/P(i)t(10)其中,N 为经验池容量,1/N 为随机采样概率,t 为校正程度。当 t=0 时,所有经验的重要性采样都是 1。2.2最近双经验池回放由于最近单经验池训练后存在局部最优的问题,提出最近双经验池回放(recently dual replaybuffer,RDRB),其框架如图 4 所示。图 4最近双经验池回放框架Fig.4Recently dual experience pool playback f
15、ramework在经验保留环节,采用计划经验池 Dfull与策略经验池 Dpolicy共同存储经验。其中,计划经验池存储全部经验,策略经验池存储动作和目标策略一致的H(仔(|st)=-log(|st)(2)SAC 算法策略迭代主要分为策略评估与策略改进两部分。在策略评估阶段,对固定策略 仔,softQ-value 可由 Bellman backup 算子迭代计算:仔Q(st,at)=r(st,at)+Est+1pV(st+1)(3)其中,V(st)函数为:V(st)=EatQ(st,at)-log(at|st)(4)通过 Qk+1=仔Qk进行无数次迭代即可获得收敛到 仔 的 soft Q-va
16、lue 函数。在策略改进阶段,SAC算法输出与 Q 函数同概率分布的策略函数:仔new(at|st)exp(Q仔old(st,at)(5)在实际操作中,为方便处理策略,采用 KL 散度去投影新的策略:仔new=argminDKL(仔(|st)|exp(Q仔old(st,)Z仔old(st)(6)其中,Z仔old(st)是 Q 值归一化分布函数。对所有的(st,at)S伊A 满足 Q仔new(st,at)Q仔old(st,at)以保证每次更新的策略基于旧的策略。此外,SAC 算法引入重参数的技巧,在训练过程中,soft Q-value 函数的更新梯度为:赞兹JQ(兹)=兹Q兹(st,at)(Q兹
17、(st,at)-r(st,at)-酌V鬃(st+1)策略网络的更新梯度为:赞准J仔(准)=准log仔(at|st)+(atlog仔准(at|st)-atQ(st,at)准f准(沂t;st)2基于最近双经验回放的 SAC 算法2.1最近经验回放为了加快收敛速度,提高学习效率,使用最近经验回放(recently replay buffer,RRB)14采样策略代替随机采样,将最近数据的重要程度作为采样准则。相比于随机采样,最近采样中增加了最近经验的权重,在采样时最近经验更容易被选中,有效加速对策略的学习,提高了算法收敛性。最近经验回放框架如图 3 所示。(7)(8)图 3最近经验回放框架Fig.3
18、Recent experience playback framework721026(总第 48-)经验;在经验采样环节,双方都使用最近采样,按拟定比例共同采取 n 个经验,学习并更新策略网络。2.3奖励函数深度强化学习的训练过程本质上是智能体与环境交互,在交互后得到反馈并根据反馈调整动作,逐步让奖励达到最大的过程。在这个过程中,动作的学习主要是通过奖励函数引导,因此,根据不同任务设计不同的奖励函数有助于提高算法性能。本文基于无人分队是否达到目标任务点、车辆之间距离、面对突发问题处理、行车能量消耗与车辆静止惩罚 4 个方面的信息来设计奖励函数。1)任务重点是无人分队是否到达目标任务点与车辆间距
19、离,对此其对应的奖励函数如下:rdest=100,到达目标任务点0,未到达目标任务点(11)rdistance=-100,dbetween20扇墒设设设设设设缮设设设设设设(12)其中,当两车之间距离在 10 m20 m 内,符合跟车要求,奖励函数以二次方式表示;当距离过小或过大时会有碰撞或跟丢情况,因此,需要有相应的惩罚机制。2)行车过程中能量消耗与车辆静止的奖励函数设计如下:renergy=E(13)rstatic=|v(t)-vlim(t)|vlim(t)(14)其中,能量消耗的惩罚采用能量消耗值 E,但是若只有能量消耗,会出现车辆静止的错误情况。为防止这类问题,需要设置奖励让行驶有所收
20、益,其中,v(t)是当前速度;vlim(t)为限制速度,此奖励函数可以让车辆更符合设定的限制速度。3)面对突发问题时,车辆开始减速,若为障碍物则以运动停止作为处理方式,若为上坡则减速到限定速度作为处理方式,采用另一个独立经验池,其奖励函数设计如下:rdest=-vnow(t)-vlast(t)驻t,减速期间100,遇障碍物运动停止100,遇上坡到达限定速度扇墒设设设设设设设缮设设设设设设设(15)其中,运动停止说明合理处理突发问题,在减速期间以加速度为奖励函数,vnow(t)是当前状态速度,vlast(t)为上一时刻速度,减速加速度越快奖励越高。2.4算法流程基于最近双经验回放的 SAC 算法
21、如算法 1 所示。其输入主要包括各类网络参数、训练步数、经验池容量以及采样经验数量,输出以目标策略为主。算法首先获得初始状态,在第 1 行进入环境。在算法 35 行,根据当前策略和噪声叠加,选择动作,获得下一状态和奖励。在算法第 68 行,将经验加入到经验池中,其中,经验池 Dfull存储所有的经验,经验池 Dpolicy存储符合执行策略的经验。在算法第 1012 行,根据采样比例进行采样,根据最近经验进行经验选择,并计算重要性采样以用于后续梯度更新。在算法第 13 行进行经验过滤,与当前策略相距过大的经验将被滤去。在算法第 1416 行计算累积梯度。在算法第 1720 行更新网络参数。3实验
22、及结果本次实验环境基于 OpenAI Gym,通过设置不同奖励使无人分队达到终点完成任务,分别使用传统SAC 算法、SAC 算法结合最近经验回放和最近双经验回放进行比较。3.1实验环境在 OpenAI Gym 中搭建环境如下页图 5 所示,其中,两辆无人车作为分队进行运输任务,运输路算法 1:基于最近双经验回放的 SAC 算法输入:随机初始化参数向量 V-Critic 网络 鬃,目标网络参数鬃軍,价值网络参数 兹,策略网络参数 准,神经网络学习率 酌,训练步数 T,经验池容量 N,批量采样经验数 n输出:目标策略1:获得初始化状态 s02:for step_t in T:3:观察环境获得状态
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 最近 经验 SAC 算法 无人 分队 控制 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。