分销赏收藏举报申诉 / 7

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于最优向量基线的参数探索策略梯度算法.pdf

基于最优向量基线的参数探索策略梯度算法.pdf

上传人：自信****多点

文档编号：641762

上传时间：2024-01-22

格式：PDF

页数：7

大小：861.21KB

《基于最优向量基线的参数探索策略梯度算法.pdf》由会员分享，可在线阅读，更多相关《基于最优向量基线的参数探索策略梯度算法.pdf（7页珍藏版）》请在咨信网上搜索。

1、第 38 卷第 4 期 2023 年 8 月天津科技大学学报 Journal of Tianjin University of Science&Technology Vol.38 No.4 Aug.2023 收稿日期：2022-11-04；修回日期：2023-02-02 基金项目：国家自然科学基金项目(61976156)；天津市企业科技特派员项目(20YDTPJC00560)作者简介：赵婷婷（1986），女(蒙古族)，内蒙古赤峰人，副教授，基于最优向量基线的参数探索策略梯度算法赵婷婷，李坤，刘展硕，陈亚瑞，王嫄，杨巨成(天津科技大学人工智能学院，天津 300457)摘要：策略梯度

2、算法是深度强化学习领域中广泛使用的一类无模型强化学习方法，在实际应用中取得了突破性进展。策略梯度算法一直受到梯度估计方差大的困扰，基于参数探索的策略梯度算法(policy gradients with parameter-based exploration，PGPE)从根本上缓解了该问题。通过最优基线技术的引入，策略梯度估计的方差进一步减小。然而，现有最优基线技术只使用标量值作为基线，忽略了策略梯度各维度之间的差异。针对此问题，本文提出一种向量基线概念并推导 PGPE 算法的最优向量基线表示，在理论上证明了引入最优向量基线的 PGPE 算法可以得到更小的梯度估计方差，并且实验验证了此算法的有效

3、性。关键词：深度强化学习；策略梯度；梯度估计；方差中图分类号：TP391 文献标志码：A 文章编号：1672-6510(2023)04-0069-07 Policy Gradients with Parameter-Based Exploration Based on Optimal Vector Baseline ZHAO Tingting，LI Kun，LIU Zhanshuo，CHEN Yarui，WANG Yuan，YANG Jucheng(College of Artificial Intelligence，Tianjin University of Science&Technol

4、ogy，Tianjin 300457，China)Abstract：Policy gradient methods are a kind of widely used model-free reinforcement learning methods in the field of deep reinforcement learning，which have made breakthrough in practical applications.However，policy gradient methods have been plagued by the large variance of

5、gradient estimation.Policy gradients with parameter-based exploration(PGPE)hasalleviated this problem fundamentally.By introducing the optimal baseline technique，the variance of policy gradient estima-tion has been further reduced.However，the existing optimal baseline techniques only use scalar valu

6、es as baselines，ignoring the differences between the dimensions of the policy gradient.Therefore，in this article we propose a concept of vector base-line and derive the optimal vector baseline representation for PGPE.We theoretically proved that the PGPE with the optimal vector baseline could obtain

7、 a smaller gradient estimation variance.Moreover，the effectiveness of the proposed PGPE based on the optimal vector baseline was verified by experiments.Key words：deep reinforcement learning；policy gradients；gradient estimation；variance 强化学习是机器学习领域的一个重要分支，智能体通过与未知环境交互找到一种最优策略，使累积回报最大化1。随着深度神经网络的引入，深

8、度强化学习在游戏2-3、机器人控制4-5等领域都取得了巨大成功。无模型强化学习是强化学习领域中灵活的框架，它无须对环境进行建模，直接学习决策策略。根据策略学习方式的不同，策略学习方法分为基于值函数的学习方法6和基于策略的学习方法7。基于值函数的学习方法通过值函数对动作进行评估并选择最佳动作，它可以有效处理离散动作空间问题8，但此类方法难以找到与动作相关的最大值函数来改进策略，因此无法处理连续动作空间问题。基于值函数的学习方法具有局限性，基于策略的学习方法则直接对策略DOI:10.13364/j.issn.1672-6510.20220246 70 天津科技大学学报第 38 卷第 4 期

9、进行建模，利用参数化的函数表示策略，通过寻找最优参数确定最优策略，已广泛用于解决具有连续状态、动作空间的复杂决策强化学习任务9。基于演员-评论家(actor-critic，AC)架构10在基于策略的学习方法中引入了价值函数，兼备基于策略的学习方法和基于值函数方法两方面的优势，其中 Actor(演员)扮演策略这一角色，用于控制智能体生成动作，而Critic(评论家)则根据值函数评估智能体动作的好坏并指导 Actor 对策略进行改进。此类方法可以有效解决包括离散动作空间和连续动作空间在内的各种决策问题。策略梯度方法是基于策略的学习方法中最实用、最易于实现的一种算法11-14，它通过使用当前策略与环

10、境交互得到的数据进行策略梯度估计，迭代更新策略参数，如传统策略梯度方法(REINFORCE)11、自然策略梯度方法(NPG)12等。REINFORCE 算法作为经典的策略梯度方法，在物理控制任务中表现突出，然而策略的随机性使得 REINFORCE 算法在估计梯度时具有较大的方差，导致收敛速度较慢15-16。NPG算法12通过使用 KL 散度测量当前策略下路径分布与更新策略下路径分布的距离，使策略参数在得到最大程度的改变时，策略更新前后的路径分布只发生微小的改变，从而保证策略更新过程相对稳定。为了减轻策略的随机性对策略梯度估计方差的影响，基于参数探索的策略梯度(policy gradients

11、with parameter-based exploration，PGPE)算法15通过使用确定性策略函数，将探索引入策略参数的方式大幅度减少了决策过程中的随机扰动，即从策略参数的先验概率分布中抽取策略参数，然后确定性地选择动作，从而提高策略梯度估计的稳定性，从根本上解决了REINFORCE 算法中梯度估计方差大的问题。然而，PGPE 算法依然需要大量样本才能保证策略梯度估计的稳定性及策略收敛速度。随机梯度下降的收敛速度主要取决于随机梯度的方差17，较低的策略梯度估计方差会有较高的采样效率。因此，长期以来人们一直在研究减少策略梯度估计方差的各种方法18-20。AC 算法和加权回归估计21

12、使用基于抽样回归和函数近似器的估计代替高方差蒙特卡洛回归，有效地降低了策略梯度估计的方差。另外，统计学中的控制变量方法在不引入偏差的情况下可有效减少蒙特卡洛方法的估计量的方差，被广泛应用于策略梯度算法中，是减小梯度估计方差的代表性方法22。基于此，研究人员在策略梯度算法领域中通过基线函数构造控制变量。基线函数是在计算策略梯度时从收益估计中减去的函数，在实践中常通过减去移动平均基线减小策略梯度估计的方差。然而，研究23表明移动平均基线在梯度估计方差约减中并不是最优的。为了进一步减小梯度估计的方差，研究者提出了最优基线技术16,24-26。但是，现有的最优基线技术只使用标量值作为基线，忽略了策略

13、梯度各维度之间的差异。在深度强化学习领域，深度确定性策略梯度(DDPG)方法13将 DQN(deep Q-learning)算法27中的经验回放机制和目标网络应用在策略搜索方法中，增加了算法的稳定性。DDPG 算法13需要对网络模型进行大规模的训练才能收敛，且交互环境中存在的环境噪声在一定程度上也会影响策略性能。在梯度更新时，策略梯度方法很难确定每步的更新步长，步长太小容易使算法陷入局部最优且收敛速度慢，步长过大会导致最终找不到最优策略。信赖域策略优化算法(TRPO)14通过引入 KL 散度定义的信赖域约束强制限定新旧策略之间的差异，选取合适的步长，避免因步长偏大或偏小导致的问题。然而，TR

14、PO 算法14将 KL 约束独立出来的做法会导致计算过程复杂度提高。OpenAI 对 TRPO 算法的目标函数进行改进，提出了近端策略优化(PPO)算法25，该算法直接使用上下界常量对策略更新幅度进行裁剪，降低计算复杂度。此外，PPO 算法25还可以在一次采样后多次更新策略参数，从而提高样本利用率。控制变量法多用于蒙特卡洛模拟22,28和金融29等领域，旨在减少蒙特卡洛方法中的梯度估计方差且不会引入偏差。大量相关研究利用基线构造控制变量，理论上最佳标量值状态相关基线是策略函数梯度的平方范数加权的 Q 值23-24,30，用来评估动作的价值。依赖于状态的基线函数易于实现且被证实非常有效，然而由

15、此产生的策略梯度仍然可能具有高方差尤其是在高维环境中。动作相关基线31-34可以更好地与原始策略梯度估计器相关联，通过使用更精细的控制变量可以进一步减少由梯度估计中动作的随机性而导致的方差。最近，有研究者通过利用时间结构将动作相关基线扩展为轨迹相关基线进一步减小了方差35。综上所述，以上相关工作对于控制变量的研究主要集中在标量值基线函数上。本文以高维空间为背景，从控制变量对梯度估计方差的影响的角度出发，将标量基线函数扩展到向量空间中，进一步探索减小 2023 年 8 月赵婷婷，等：基于最优向量基线的参数探索策略梯度算法 71 策略梯度估计的方差，稳定策略更新。以 PGPE 算法为基础，推导

16、了其对应的最优向量基线表示并且在理论上证明了引入最优向量基线的 PGPE 算法可以得到更小的策略梯度估计的方差。通过实验验证本文所提出的基于最优向量基线的 PGPE 算法与传统的最优标量基线相比，可以进一步减小梯度估计的方差，其梯度更新更加稳定。1 强化学习建模强化学习任务通常可以描述成马尔可夫决策过程，用1(,)TS A P P r 表示，其中：S是环境状态集合，A是智能体可执行的动作集合，(|,)TP ss a是采取动作a时从当前状态s到下一状态 s的状态转移概率密度，1()P s是初始状态的概率，()r,s a s是通过采取动作a从s过渡到 s的即时奖励，01 是未来奖励的折扣因子。令

17、(|,)p a s 表示为带有参数的随机策略，其代表在给定状态s下采取动作 a 的条件概率密度。假设1122(,)TTh=?s a sasa是长度为T的路径，路径h的累积回报定义为 111()(,)TtttttR hr+=s a s(1)目标函数即累积回报的期望可以表示为关于参数的函数，即 ()(|)()dJp hR hh=(2)其中，111(|)()(|,)(|,)Tttttttp hppp+=sss aas表示在给定模型参数的条件下，每条路径h出现的概率。强化学习的目标是找到最优策略参数*，从而最大化期望回报()J，即 *:argmax()J=(3)策略梯度方法使用梯度下降法更新参数

18、。传统策略梯度算法的策略梯度估计方差大的根本原因在于策略的随机性，它在每个时间步上都要随机采取一个动作，使得策略梯度估计的方差很大16。2 PGPE及其最优标量基线 PGPE 算法的提出有效地解决了策略梯度估计方差大这一问题。PGPE 算法摒弃了策略中不必要的随机性，采用确定性策略：T()=as，其中()s是基函数向量。PGPE 算法的随机性来自策略参数，策略参数采用先验高斯分布，其由超参数控制：(,)=，其中为均值向量，为标准差向量。的每一维度的分布表示为 22()1(|)exp22=iiiiiip(4)由此可见，在 PGPE 算法中，不考虑环境中状态转移带来的随机扰动下，每条路径h的

20、算法中策略梯度的经验估计为 11()log(|)()NnnnJpR hN=(8)引入基线后的 PGPE 算法的梯度估计表示为 11()log(|)()=NbnnnJpR hbN(9)那么，使 PGPE 算法的梯度估计方差最小化的最优基线可定义为 *argmaxVar()bbbJ=(10)对应的策略梯度估计器表示为 log(|)()pR hb=g (11)对于多维向量的方差，将其定义为协方差矩阵的迹，即矩阵中主对角线上所有元素之和，用 tr 表示，那么d维策略梯度估计器g的方差为 1V tr Var Var=djjggg 221djjjE gE g=(12)72 天津科技大学学报第 38 卷

21、第 4 期因此，通过最小化V g，可以得到 PGPE 算法的最优标量基线24为 2*2()log(|)log(|)E R hpbEp=(13)3 本文算法传统最优基线都是标量基线，没有考虑到梯度向量每个维度之间的差异，这实质上是给梯度向量的每个维度分配了一个相同的控制变量。如果将基线函数空间扩展为向量值函数，为梯度向量的每一个维度分配一个单独的基线，梯度估计的方差可以得到进一步的减小。命题 1 给定一个实值函数类:F S?，其中，bF，dFc，jc为c的第j维表示，最优标量基线表示为 *argminV=bb Fbg(14)最优向量基线表示为 *argminV=dFcccg(15)则具有最

22、优向量基线、最优标量基线的策略梯度估计量的方差满足关系 *VVbcgg(16)证明：jc和b属于相同的实值函数类，*(,)b bb=?c可以看作dFc的一种特殊情况，可以得到*VVV=bccggg。基于上述命题36，现将 PGPE 算法的基线函数空间扩展为向量值函数，并给出 PGPE 算法的最优向量基线。定理 1 设最优向量值基线函数表示为 ()*12(),(),()dccc=?c(17)其中d为梯度的维度。PGPE 算法的策略梯度估计第j 维对应的最优基线表示为 2(|),(|)*2(|),(|)log(|)()()log(|)h p hpjjh p hpjEpR hcE

23、p=(18)证明：设向量基线表示为 ()12()(),(),()dccc=?c(19)则引入向量基线()c 的 PGPE 算法的策略梯度估计表示为 1212(,.,)dcccdggg=cg(20)其中：()log(|)()()jcjjjgpR hc=，1,jd=?。以上为梯度向量的每一维度分配单独的基线函数()jc，即为整个梯度分配向量基线()c，对应的梯度向量第j维的方差为 ()22Var=jjjcccjjjgEgE g(21)其中式(21)中只有第一项与()jc 相关，而第二项与()jc 无关，所以最小化Varjcjg等同于最小化()2jcjEg，即 2()()argm

24、inVarargmin()jjjjccjjccgE g=(22)()()222log(|)()()=jcjjjEgEpR hc (23)使方差最小的解*()jc 应满足如下条件：2*()0()jcjjE gc=(24)()22log(|)()()0=jjEpR hc ()2(|),(|)*2(|),(|)log(|)()log(|)h p hpjjh p hpjEpR hcEp=由此得到 PGPE 算法的策略梯度估计第j维对应的最优基线表示。4 实验结果与分析为了验证本文方法的有效性，以 OpenAIGym 环境中的 Pendulum-v0 环境为算法验证任务，其示意图如图 1 所示。该环境

25、包括一个钟摆，钟摆以随机位置开始，学习目标是令钟摆向上摆动，使其尽可能长时间保持直立。状态空间S是三维连续的，由钟摆的角的正弦值、余弦值及角速度?组成。动作空间A是一维并且连续的，对应于控制钟摆转动的电机力矩。本实验将从具体参数下梯度估计的方差和偏差、参数更新过程中方差的变化以及所学策略的性能探索本文算法有效性。具体对比算法：(1)PGPE：没有 2023 年 8 月赵婷婷，等：基于最优向量基线的参数探索策略梯度算法 73 任何基线的 PGPE 算法15；(2)PGPE-OB：基于最优标量基线的 PGPE 算法24；(3)PGPE-VOB：本文基于最优向量基线的 PGPE 算法。图 1 Pe

26、ndulum-v0任务示意图 Fig.1 Schematic diagram of Pendulum-v0 4.1 方差和偏差对算法 PGPE、PGPE-OB、PGPE-VOB 在具体参数下梯度估计的方差和偏差37进行对比。为保证实验的公平性，以上所有算法均采用相同的参数设置。高斯分布的初始均值均设置为0.3=，初始标准差均设置为0.5=，路径的最大长度设置为200T=，奖励折扣因子0.9=，路径样本的数量设置为250N=。为了计算梯度估计的偏差，利用 600 条路径样本估计的梯度视为真实梯度。通过 80 次实验计算得到在参数0.3=及0.5=时梯度估计的方差和偏差结果见表 1。表 1 3种

27、对比算法关于(0.3，0.5)的梯度估计的方差和偏差 Tab.1 Variance and bias of gradient estimation of (0.3，0.5)for three comparison algorithms 方差偏差算法 0.3=0.5=0.3=0.5=PGPE 3.5730.272 6.8250.235-0.1590.064-0.3640.056 PGPE-OB 0.5910.126 1.0180.103 0.0760.038 0.1280.031 PGPE-VOB 0.4850.094 0.8740.106-0.0590.028 0.1030.034 实验结

28、果表明，PGPE-VOB 算法关于均值和标准差的梯度估计方差均小于 PGPE-OB 算法和原始的 PGPE 算法，且引入向量基线不会增加偏差。4.2 参数更新过程中的方差在此实验中，路径的最大长度设置为100T=，路径样本的数量设置为10N=，参数的迭代次数为 50次。若标准差参数在策略更新过程中变为负值，则将其设置为 0.05。通过 100 次运行得到的策略梯度值进行方差(对数标度)的计算，重复上述实验 10次，观察 10 次实验中关于均值参数的梯度估计的方差平均值，结果如图 2 所示。图 2 参数更新过程中的关于参数的策略梯度估计的方差 Fig.2 Variance of policy

29、gradient estimation with respectto parameter during parameter update 由图 2 可知，引入向量基线有效减小了参数更新过程中梯度估计的方差。因此，基于向量基线的PGPE 算法在参数更新稳定性方面比其他算法更有优势。4.3 策略性能为保证公平性，本次实验中的初始均值和方差均设为一致，策略参数在高斯分布中随机选取，每次实验迭代次数为 600 次，每次迭代采样 250 条路径样本进行策略梯度的计算更新，计算 10 次实验的平均累积回报，实验结果如图 3 所示。图 3 策略参数迭代过程中的平均累积回报 Fig.3Average cum

30、ulative return over the iteration of the policy parameters 由图 3 可知：PGPE-VOB 算法在第 200 次迭代后就开始收敛并取得了较好的效果，而 PGPE-OB 算法在大约 300 次迭代后开始收敛，且所得平均累积回报总体低于 PGPE-VOB 算法。原始 PGPE 算法在迭代第 400 次后开始收敛，所得累积回报总体上低于以上两种方法。实验结果表明 PGPE-VOB 算法比原始 74 天津科技大学学报第 38 卷第 4 期 PGPE 算法和 PGPE-OB 算法具有更好的性能，收敛速度更快。综上所述，实验表明最优向量基线的

31、引入进一步减小了策略梯度估计的方差，策略梯度的更新更加稳定，收敛速度更快且具有更好的性能。5 结语策略梯度估计方差大是策略梯度算法领域中的共性问题，本文以减小策略梯度估计方差为研究目标，提出了最优向量基线概念并通过理论推导得到了PGPE 算法的最优向量基线表示。通过实验证明，基于最优向量基线的 PGPE 算法具有更小的策略梯度估计方差并取得了最优性能。在未来研究中会将最优向量基线应用在高维复杂任务中进一步验证其有效性。参考文献：1 SUTTON R S，BARTO A G.Reinforcement learning：an introductionM.2nd ed.Cambridge：MI

32、T Press，1998.2 RAJESWARAN A，MORDATCH I，KUMAR V.A game theoretic framework for model based reinforcement learningEB/OL.2022-10-30.http:/arxiv.org/abs/2004.07804.3 李茹杨，彭慧民，李仁刚，等.强化学习算法与应用综述J.计算机系统应用，2020，29(12)：13-25.4 IBARZ J，TAN J，FINN C，et al.How to train your robot with deep reinforcement learning

33、：lessons we have learnedJ.The international journal of robotics research，2021，40(4/5)：698-721.5 万里鹏，兰旭光，张翰博，等.深度强化学习理论及其应用综述J.模式识别与人工智能，2019，32(1)：67-81.6 刘全，翟建伟，章宗长，等.深度强化学习综述J.计算机学报，2018，41(1)：1-27.7 刘建伟，高峰，罗雄麟.基于值函数和策略梯度的深度强化学习综述J.计算机学报，2019，42(6)：1406-1438.8 TEAZURO G.TD-Gammon，a self-teaching b

34、ackgam-mon program，achieves master-level playJ.Neural computation，1994，6(2)：215-219.9 NG A Y，JORDAN M I.PEGASUS：a policy search method for large MDPs and POMDPsEB/OL.2022-10-30.http:/arxiv.org/abs/1301.3878.10 KONDA V，TSITSIKLIS J.Actor-critic algorithmsJ.Advances in neural information processing sy

35、stems，1999，12：1008-1014.11 RONALD J，WILLIAMS.Simple statistical gradient-following algorithms for connectionist reinforcement learningJ.Machine learning，1992，8(3)：229-256.12 KAKADE S M.A natural policy gradientJ.Advances in neural information processing systems，2001，14：1531-1538.13 LILLICRAP T P，HUN

36、T J J，PRITZEL A，et al.Continu-ous control with deep reinforcement learningEB/OL.2022-10-30.http:/arxiv.org/abs/1509.02971v1.14 SCHULMAN J，LEVINE S，MORITZ P，et al.Trust region policy optimizationJ.Computer science，2015，6(4)：1889-1897.15 SEHNKE F，OSENDORFER C，RCKSTIE T，et al.Parameter-exploring policy

37、 gradientsJ.Neural net-works，2010，23(4)：551-559.16 PETERS J，SCHAAL S.Policy gradient methods for roboticsC/IEEE.2006 IEEE/RSJ International Con-ference on Intelligent Robots and Systems.New York：IEEE，2006：2219-2225.17 GHADIMI S，LAN G，ZHANG H.Mini-batch stochastic approximation methods for nonconvex

38、stochastic com-posite optimizationJ.Mathematical programming，2016，155(1)：267-305.18 THOMAS P.Bias in natural actor-critic algorithmsC/PMLR.International Conference on Machine Learning.New York：PMLR，2014：441-448.19 SILVER D，LEVER G，HEESS N，et al.Deterministic policy gradient algorithmsC/PMLR.Internat

39、ional Conference on Machine Learning.New York：PMLR，2014：387-395.20 SCHULMAN J，MORITZ P，LEVINE S，et al.High-dimensional continuous control using generalized advan-tage estimationEB/OL.2022-10-30.https:/arxiv.org/pdf/1506.02438.pdf.21 TESAURO G.Temporal difference learning and TD-GammonJ.Communication

40、s of the ACM，1995，38(3)：58-68.22 RUBINSTEIN R Y，MARCUS R.Efficiency of multi-variate control variates in monte Carlo simulationJ.Operations research，1985，33(3)：661-677.23 GREENSMITH E，BARTLETT P L，BAXTER J.Vari-2023 年 8 月赵婷婷，等：基于最优向量基线的参数探索策略梯度算法 75 ance reduction techniques for gradient estimates

41、in re-inforcement learningJ.Journal of machine learning re-search，2004，5(9)：14711530.24 ZHAO T，HACHIYA H，NIU G，et al.Analysis and im-provement of policy gradient estimationJ.Neural net-works，2012，26：118-129.25 SCHULMAN J，WOLSKI F，DHARIWAL P，et al.Proximal policy optimization algorithmsEB/OL.2022-10-

42、30.http:/arxiv.org/pdf/1707.06347.26 MNIH V，BADIA A P，MIRZA M，et al.Asynchronous methods for deep reinforcement learningC/PMLR.International Conference on Machine Learning.New York：PMLR，2016：1928-1937.27 MNIH V，KAVUKCUOGLU K，SILVER D，et al.Play-ing Atari with deep reinforcement learningEB/OL.2022-12

43、-23.http:/arxiv.org/abs/1312.5602v1.28 GLYNN P W，SZECHTMAN R.Some new perspectives on the method of control variatesM/NIEDDERRE-ITER H，SHIUE P J.Monte Carlo and Quasi-Monte Carlo methods in scientific computing.Berlin：Springer，2002：27-49.29 GLASSERMAN P.Monte Carlo methods in financial engineeringM.

44、Berlin：Springer，2004.30 WEAVER L，TAO N.The optimal reward baseline for gradient-based reinforcement learningEB/OL.2022-10-30.http:/arxiv.org/abs/1301.2315.31 GU S，LILLICRAP T，GHAHRAMANI Z，et al.Q-prop：sample-efficient policy gradient with an off-policy criticEB/OL.2022-10-30.http:/arxiv.org/pdf/1611

45、.02247.32 LIU H，FENG Y，MAO Y，et al.Action-dependent con-trol variates for policy optimization via steins iden-tityEB/OL.2022-10-30.http:/arxiv.org/abs/1710.11198v4.33 GRATHWOHL W，CHO D，WU Y，et al.Backpropaga-tion through the void：optimizing control variates for black-box gradient estimationEB/OL.202

46、2-10-30.http:/arxiv.org/abs/1711.00123v3.34 WU C，RAJESWARAN A，DUAN Y，et al.Variance reduction for policy gradient with action-dependent fac-torized baselinesEB/OL.2022-10-30.http:/arxiv.org/abs/1803.07246v1.35 CHENG C A，YAN X，BOOTS B.Trajectory-wise con-trol variates for variance reduction in policy

47、 gradient methodsEB/OL.2022-10-30.http:/arxiv.org/abs/1908.03263v1.36 ZHONG Y，ZHOU Y，PENG J.Coordinate-wise control variates for deep policy gradientsEB/OL.2022-10-30.https:/arxiv.org/abs/2107.04987v1.37 ZHAO T，HACHIYA H，TANGKARATT V，et al.Effi-cient sample reuse in policy gradients with parameter-based explorationJ.Neural computation，2013，25(6)：1512-1547.责任编辑：郎婧

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于最优向量基线参数探索策略梯度算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。