基于最优向量基线的参数探索策略梯度算法.pdf
《基于最优向量基线的参数探索策略梯度算法.pdf》由会员分享,可在线阅读,更多相关《基于最优向量基线的参数探索策略梯度算法.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 38 卷 第 4 期 2023 年 8 月 天津科技大学学报 Journal of Tianjin University of Science&Technology Vol.38 No.4 Aug.2023 收稿日期:2022-11-04;修回日期:2023-02-02 基金项目:国家自然科学基金项目(61976156);天津市企业科技特派员项目(20YDTPJC00560)作者简介:赵婷婷(1986),女(蒙古族),内蒙古赤峰人,副教授, 基于最优向量基线的参数探索策略梯度算法 赵婷婷,李 坤,刘展硕,陈亚瑞,王 嫄,杨巨成(天津科技大学人工智能学院,天津 300457)摘 要:策略梯度
2、算法是深度强化学习领域中广泛使用的一类无模型强化学习方法,在实际应用中取得了突破性进展。策略梯度算法一直受到梯度估计方差大的困扰,基于参数探索的策略梯度算法(policy gradients with parameter-based exploration,PGPE)从根本上缓解了该问题。通过最优基线技术的引入,策略梯度估计的方差进一步减小。然而,现有最优基线技术只使用标量值作为基线,忽略了策略梯度各维度之间的差异。针对此问题,本文提出一种向量基线概念并推导 PGPE 算法的最优向量基线表示,在理论上证明了引入最优向量基线的 PGPE 算法可以得到更小的梯度估计方差,并且实验验证了此算法的有效
3、性。关键词:深度强化学习;策略梯度;梯度估计;方差 中图分类号:TP391 文献标志码:A 文章编号:1672-6510(2023)04-0069-07 Policy Gradients with Parameter-Based Exploration Based on Optimal Vector Baseline ZHAO Tingting,LI Kun,LIU Zhanshuo,CHEN Yarui,WANG Yuan,YANG Jucheng(College of Artificial Intelligence,Tianjin University of Science&Technol
4、ogy,Tianjin 300457,China)Abstract:Policy gradient methods are a kind of widely used model-free reinforcement learning methods in the field of deep reinforcement learning,which have made breakthrough in practical applications.However,policy gradient methods have been plagued by the large variance of
5、gradient estimation.Policy gradients with parameter-based exploration(PGPE)hasalleviated this problem fundamentally.By introducing the optimal baseline technique,the variance of policy gradient estima-tion has been further reduced.However,the existing optimal baseline techniques only use scalar valu
6、es as baselines,ignoring the differences between the dimensions of the policy gradient.Therefore,in this article we propose a concept of vector base-line and derive the optimal vector baseline representation for PGPE.We theoretically proved that the PGPE with the optimal vector baseline could obtain
7、 a smaller gradient estimation variance.Moreover,the effectiveness of the proposed PGPE based on the optimal vector baseline was verified by experiments.Key words:deep reinforcement learning;policy gradients;gradient estimation;variance 强化学习是机器学习领域的一个重要分支,智能体通过与未知环境交互找到一种最优策略,使累积回报最大化1。随着深度神经网络的引入,深
8、度强化学习在游戏2-3、机器人控制4-5等领域都取得了巨大 成功。无模型强化学习是强化学习领域中灵活的框架,它无须对环境进行建模,直接学习决策策略。根据策略学习方式的不同,策略学习方法分为基于值函数的学习方法6和基于策略的学习方法7。基于值函数的学习方法通过值函数对动作进行评估并选择最佳动作,它可以有效处理离散动作空间问题8,但此类方法难以找到与动作相关的最大值函数来改进策略,因此无法处理连续动作空间问题。基于值函数的学习方法具有局限性,基于策略的学习方法则直接对策略DOI:10.13364/j.issn.1672-6510.20220246 70 天津科技大学学报 第 38 卷 第 4 期
9、进行建模,利用参数化的函数表示策略,通过寻找最优参数确定最优策略,已广泛用于解决具有连续状态、动作空间的复杂决策强化学习任务9。基于演员-评论家(actor-critic,AC)架构10在基于策略的学习方法中引入了价值函数,兼备基于策略的学习方法和基于值函数方法两方面的优势,其中 Actor(演员)扮演策略这一角色,用于控制智能体生成动作,而Critic(评论家)则根据值函数评估智能体动作的好坏并指导 Actor 对策略进行改进。此类方法可以有效解决包括离散动作空间和连续动作空间在内的各种决策问题。策略梯度方法是基于策略的学习方法中最实用、最易于实现的一种算法11-14,它通过使用当前策略与环
10、境交互得到的数据进行策略梯度估计,迭代更新策略参数,如传统策略梯度方法(REINFORCE)11、自然策略梯度方法(NPG)12等。REINFORCE 算法作为经典的策略梯度方法,在物理控制任务中表现突出,然而策略的随机性使得 REINFORCE 算法在估计梯度时具有较大的方差,导致收敛速度较慢15-16。NPG算法12通过使用 KL 散度测量当前策略下路径分布与更新策略下路径分布的距离,使策略参数在得到最大程度的改变时,策略更新前后的路径分布只发生微小的改变,从而保证策略更新过程相对稳定。为了减轻策略的随机性对策略梯度估计方差的影响,基于参数探索的策略梯度(policy gradients
11、with parameter-based exploration,PGPE)算法15通过使用确定性策略函数,将探索引入策略参数的方式大幅度减少了决策过程中的随机扰动,即从策略参数的先验概率分布中抽取策略参数,然后确定性地选择动作,从而提高策略梯度估计的稳定性,从根本上解决了REINFORCE 算法中梯度估计方差大的问题。然而,PGPE 算法依然需要大量样本才能保证策略梯度估计的稳定性及策略收敛速度。随机梯度下降的收敛速度主要取决于随机梯度的方差17,较低的策略梯度估计方差会有较高的采样效率。因此,长期以来 人们一直在研究减少策略梯度估计方差的各种方 法18-20。AC 算法和 加权回归估计21
12、使用基于抽样回归和函数近似器的估计代替高方差蒙特卡洛回归,有效地降低了策略梯度估计的方差。另外,统计学中的控制变量方法在不引入偏差的情况下可有效减少蒙特卡洛方法的估计量的方差,被广泛应用于策略梯度算法中,是减小梯度估计方差的代表性方法22。基于此,研究人员在策略梯度算法领域中通过基线函数构造控制变量。基线函数是在计算策略梯度时从收益估计中减去的函数,在实践中常通过减去移动平均基线减小策略梯度估计的方差。然而,研究23表明移动平均基线在梯度估计方差约减中并不是最优的。为了进一步减小梯度估计的方差,研究者提出了最优基线技术16,24-26。但是,现有的最优基线技术只使 用标量值作为基线,忽略了策略
13、梯度各维度之间的 差异。在深度强化学习领域,深度确定性策略梯度(DDPG)方法13将 DQN(deep Q-learning)算法27中的经验回放机制和目标网络应用在策略搜索方法中,增加了算法的稳定性。DDPG 算法13需要对网络模型进行大规模的训练才能收敛,且交互环境中存在的环境噪声在一定程度上也会影响策略性能。在梯度更新时,策略梯度方法很难确定每步的更新步长,步长太小容易使算法陷入局部最优且收敛速度慢,步长过大会导致最终找不到最优策略。信赖域策略优化算法(TRPO)14通过引入 KL 散度定义的信赖域约束强制限定新旧策略之间的差异,选取合适的步长,避免因步长偏大或偏小导致的问题。然而,TR
14、PO 算 法14将 KL 约束独立出来的做法会导致计算过程复杂度提高。OpenAI 对 TRPO 算法的目标函数进行改进,提出了近端策略优化(PPO)算法25,该算法直接使用上下界常量对策略更新幅度进行裁剪,降低计算复杂度。此外,PPO 算法25还可以在一次采样后多次更新策略参数,从而提高样本利用率。控制变量法多用于蒙特卡洛模拟22,28和金融29等领域,旨在减少蒙特卡洛方法中的梯度估计方差且不会引入偏差。大量相关研究利用基线构造控制变量,理论上最佳标量值状态相关基线是策略函数梯度的平方范数加权的 Q 值23-24,30,用来评估动作的价值。依赖于状态的基线函数易于实现且被证实非常有效,然而由
15、此产生的策略梯度仍然可能具有高方差尤其是在高维环境中。动作相关基线31-34可以更好地与原始策略梯度估计器相关联,通过使用更精细的控制变量可以进一步减少由梯度估计中动作的随机性而导致的方差。最近,有研究者通过利用时间结构将动作相关基线扩展为轨迹相关基线进一步减小了 方差35。综上所述,以上相关工作对于控制变量的研究主要集中在标量值基线函数上。本文以高维空间为背景,从控制变量对梯度估计方差的影响的角度出发,将标量基线函数扩展到向量空间中,进一步探索减小 2023 年 8 月 赵婷婷,等:基于最优向量基线的参数探索策略梯度算法 71 策略梯度估计的方差,稳定策略更新。以 PGPE 算法为基础,推导
16、了其对应的最优向量基线表示并且在理论上证明了引入最优向量基线的 PGPE 算法可以得到更小的策略梯度估计的方差。通过实验验证本文所提出的基于最优向量基线的 PGPE 算法与传统的最优标量基线相比,可以进一步减小梯度估计的方差,其梯度更新更加稳定。1 强化学习建模 强化学习任务通常可以描述成马尔可夫决策过程,用1(,)TS A P P r 表示,其中:S是环境状态集合,A是智能体可执行的动作集合,(|,)TP ss a是采取动作a时从当前状态s到下一状态 s的状态转移概率密度,1()P s是初始状态的概率,()r,s a s是通过采取动作a从s过渡到 s的即时奖励,01 是未来奖励的折扣因子。令
17、(|,)p a s 表示为带有参数 的随机策略,其代表在给定状态s下采取动作 a 的条件概率密度。假设1122(,)TTh=?s a sasa是长度为T的路径,路径h的累积回报定义为 111()(,)TtttttR hr+=s a s(1)目标函数即累积回报的期望可以表示为关于参数 的函数,即 ()(|)()dJp hR hh=(2)其中,111(|)()(|,)(|,)Tttttttp hppp+=sss aas表示在给定模型参数 的条件下,每条路径h出现的概率。强化学习的目标是找到最优策略参数*,从而最大化期望回报()J,即 *:argmax()J=(3)策略梯度方法使用梯度下降法更新参数
18、。传统策略梯度算法的策略梯度估计方差大的根本原因在于策略的随机性,它在每个时间步上都要随机采取一个动作,使得策略梯度估计的方差很大16。2 PGPE及其最优标量基线 PGPE 算法的提出有效地解决了策略梯度估计方差大这一问题。PGPE 算法摒弃了策略中不必要的随机性,采用确定性策略:T()=as,其中()s是基函数向量。PGPE 算法的随机性来自策略参数,策略参数 采用先验高斯分布,其由超参数 控制:(,)=,其中 为均值向量,为标准差向量。的每一维度的分布表示为 22()1(|)exp22=iiiiiip(4)由此可见,在 PGPE 算法中,不考虑环境中状态转移带来的随机扰动下,每条路径h的
19、产生仅由一个采样的策略参数 所决定。在 PGPE 框架下,基于超参数 的目标函数()J 定义为 ()(|)(|)()d dJp hpR hh=(5)通过寻找最优超参数*,从而最大化目标函数,即 *:argmax()J=(6)PGPE 算法通过梯度下降法更新超参数,其梯度表示为 ()(|)(|)logJp hp=(|)()d dpR hh (7)由于(|)p h 未知,通过收集样本,利用经验平均值估计上述策略梯度。样本收集过程如下:首先根据策略参数的分布(|)p 采样N个策略参数 1Nnn=,然后利用策略参数生成对应的N条路径样本 1Nnnh=,将每次收集的样本记为1(,)Nnnnh=。PGPE
20、 算法中策略梯度的经验估计为 11()log(|)()NnnnJpR hN=(8)引入基线后的 PGPE 算法的梯度估计表示为 11()log(|)()=NbnnnJpR hbN(9)那么,使 PGPE 算法的梯度估计方差最小化的最优基线可定义为 *argmaxVar()bbbJ=(10)对应的策略梯度估计器表示为 log(|)()pR hb=g (11)对于多维向量的方差,将其定义为协方差矩阵的迹,即矩阵中主对角线上所有元素之和,用 tr 表示,那么d维策略梯度估计器g的方差为 1V tr Var Var=djjggg 221djjjE gE g=(12)72 天津科技大学学报 第 38 卷
21、 第 4 期 因此,通过最小化V g,可以得到 PGPE 算法的最优标量基线24为 2*2()log(|)log(|)E R hpbEp=(13)3 本文算法 传统最优基线都是标量基线,没有考虑到梯度向量每个维度之间的差异,这实质上是给梯度向量的每个维度分配了一个相同的控制变量。如果将基线函数空间扩展为向量值函数,为梯度向量的每一个维度分配一个单独的基线,梯度估计的方差可以得到进一步的减小。命题 1 给定一个实值函数类:F S?,其中,bF,dFc,jc为c的第j维表示,最优标量基线表示为 *argminV=bb Fbg(14)最优向量基线表示为 *argminV=dFcccg(15)则具有最
22、优向量基线、最优标量基线的策略梯度估计量的方差满足关系 *VVbcgg(16)证 明:jc和b属 于 相 同 的 实 值 函 数 类,*(,)b bb=?c可以看作dFc的一种特殊情况,可以得到*VVV=bccggg。基于上述命题36,现将 PGPE 算法的基线函数空间扩展为向量值函数,并给出 PGPE 算法的最优向量基线。定理 1 设最优向量值基线函数表示为 ()*12(),(),()dccc=?c(17)其中d为梯度的维度。PGPE 算法的策略梯度估计第j 维对应的最优基线表示为 2(|),(|)*2(|),(|)log(|)()()log(|)h p hpjjh p hpjEpR hcE
23、p=(18)证明:设向量基线表示为 ()12()(),(),()dccc=?c(19)则引入向量基线()c 的 PGPE 算法的策略梯度估计表示为 1212(,.,)dcccdggg=cg(20)其中:()log(|)()()jcjjjgpR hc=,1,jd=?。以上为梯度向量的每一维度分配单独的基线函数()jc,即为整个梯度分配向量基线()c,对应的梯度向量第j维的方差为 ()22Var=jjjcccjjjgEgE g(21)其中式(21)中只有第一项与()jc 相关,而第二项与()jc 无 关,所 以 最 小 化Varjcjg等 同 于 最 小 化()2jcjEg,即 2()()argm
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 最优 向量 基线 参数 探索 策略 梯度 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。