基于分层强化学习的机械臂复杂操作技能学习方法.pdf
《基于分层强化学习的机械臂复杂操作技能学习方法.pdf》由会员分享,可在线阅读,更多相关《基于分层强化学习的机械臂复杂操作技能学习方法.pdf(9页珍藏版)》请在咨信网上搜索。
1、现代电子技术Modern Electronics Technique2023年10月1日第46卷第19期Oct.2023Vol.46 No.190 引 言随着社会老龄化的加剧与机器人技术的发展,机器人逐渐应用于家庭服务场景,通过抓取与放置等操作辅助老年人完成一些日常任务1。伴随人工智能技术的发展,近年来机器人操作技能学习成为了家庭服务机器人领域的研究热点之一2。根据训练数据来源的不同,机器人操作技能学习可分为模仿学习和强化学习两种方法。模仿学习是一种直接通过观测人类行为并对其进行表征与学习,进而获取人类复杂技能的仿生学习方式。与传统编程方法相比,它避免了为特定场景和特定任务设计繁琐的代码,无需
2、显式编程。模仿学习主要分为基于概率建模(以高斯混合模型、隐马尔可夫模型为代表)和动态系统(以动态运动基元为代表)两类不同方法。文献3通过高斯混合模型对专家演示轨迹进行编码,使机器人学会了移动象棋、水桶等操作技能;文献4提出了基于隐马尔科夫模型的舞步估计方法,训练得到舞伴机器人与人类共舞的技能策略;文献5提出了一种基于动态运动基元的操作技能学习框架,采用混合/运基于分层强化学习的机械臂复杂操作技能学习方法孟子晗,高 翔,刘元归,马陈昊(南京邮电大学 自动化学院 人工智能学院,江苏 南京 210023)摘 要:在面对复杂任务时,传统强化学习方法存在状态空间庞大、奖励函数稀疏等问题,导致机械臂不能学
3、习到复杂的操作技能。针对上述问题,提出一种基于分层强化学习的机械臂复杂操作技能学习方法。首先,底层运用基于Beta过程的自回归隐马尔可夫模型,将复杂操作任务分解为多个简单的子任务;其次,对每个子任务运用SAC算法进行技能学习,得到每个子任务的最优策略;最后,根据底层得到的子任务最优策略,上层通过基于最大熵目标的改进强化学习算法学习复杂操作技能。实验结果表明,所提方法能有效实现机械臂复杂操作技能的学习、再现与泛化,并在性能上优于其他传统强化学习算法。关键词:机械臂;复杂操作任务;分层强化学习;子目标;自回归隐马尔可夫模型;SAC算法中图分类号:TN9934;TP181 文献标识码:A 文章编号:
4、1004373X(2023)19011609Complex manipulation skill learning approach based on hierarchical reinforcement learning for robot manipulatorMENG Zihan,GAO Xiang,LIU Yuangui,MA Chenhao(College of Automation&College of Artificial Intelligence,Nanjing University of Posts and Telecomunications,Nanjing 210023,C
5、hina)Abstract:The traditional reinforcement learning methods face challenges such as large state space and sparse reward functions when dealing with complex tasks,which hinders the learning of complex manipulation skills for robot manipulator.Therefore,a complex manipulation skill learning approach
6、based on hierarchical reinforcement learning for robot manipulator is proposed.Firstly,the autoregressive hidden Markov model(HMM)based on Beta process is used for the lowlevel to decompose complex manipulation tasks into several simple subtasks.Secondly,the SAC(soft actor critic)algorithm is used t
7、o learn skills and obtain the optimal strategy for each subtask.Finally,on the basis of the optimal strategy obtained at the low level,an improved reinforcement learning algorithm based on maximum entropy objective is utilized at the highlevel to learn complex manipulation skills.Experimental result
8、s demonstrate that the proposed method can effectively achieve learning,reproduction and generalization of complex manipulation skills for robot manipulator,and outperform other traditional reinforcement learning algorithms in terms of the performance.Keywords:robot manipulator;complex manipulation
9、task;hierarchical reinforcement learning;subobjective;autoregressive HMM;SAC algorithmDOI:10.16652/j.issn.1004373x.2023.19.022引用格式:孟子晗,高翔,刘元归,等.基于分层强化学习的机械臂复杂操作技能学习方法J.现代电子技术,2023,46(19):116124.收稿日期:20230522 修回日期:20230613基金项目:江苏省自然科学基金项目(BK20210599);江苏省博士后科研资助项目(2019K030)116116第19期动控制方法,通过准确跟踪与再现位置/
10、力,成功学习到了桌面清理技能;文献6通过K最邻近分类算法识别抓取点,并结合动态运动基元学习抓取轨迹,在多自由度机械臂上完成了对特定物体的拟人抓取。强化学习是一种智能体与环境交互并产生反馈的学习方式,其与深度学习的结合,使得强化学习能够快速适应高维、状态与动作空间连续的机器人操作技能学习问题。文献7提出了深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,使机器人在MuJoCo仿真环境中学会了抓取操作技能,DDPG采用确定性策略,样本效率高,但超参数不稳定。文献8运用近端策略优化(Proximal Policy Optimization,PP
11、O)算法学习了双臂机器人的操作技能轨迹,PPO采用随机策略,超参数稳定但样本效率低。结合上述两种方法的优点,文献9通过改进SAC(Soft Actor Critic)算法实现了多种任务的机器人操作技能学习,具有稳定的超参数和样本效率。面对家庭环境中复杂的操作任务,传统强化学习方法由于其庞大的状态空间、稀疏的奖励函数,导致机械臂无法直接学习复杂的操作技能。为解决此问题,文献10提出了一种统一的分层强化学习框架(Universal Option Framework,UOF),该框架可并行训练上、下层策略,提高了学习效率,但复杂任务分解需手动且需要一种目标生成机制;文献11提出了一种分层的机器人复杂
12、操作技能学习方法,在运用专家演示和增强好奇心机制学习子任务策略的基础上,上层根据任务目标选择底层子策略,实现了多物体推动、抓取、放置等操作任务。文献12采用非参贝叶斯方法对演示轨迹进行分割,并利用Option分层强化学习框架对机器人操作子任务进行了建模。上述分层强化学习方法虽取得了一定的效果,但在实际应用中,大部分任务需协同执行,现有分层强化学习方法因大多按顺序执行子任务,会导致上层在训练时学习效率差,数据利用率低。针对上述分层强化学习方法在机械臂复杂操作技能学习过程中存在的问题,本文提出了一种改进的机械臂复杂操作技能学习框架。首先,将复杂操作任务通过基 于 Beta 过 程 的 自 回 归
13、隐 马 尔 可 夫 模 型(BPARHMM)13分解成多个子任务;其次,底层使用 SAC 算法对所分解的每个子任务进行技能学习,得到子任务的操作技能集合;最后,上层通过基于最大熵目标的强化学习算法,实现复杂操作技能的学习、再现与泛化。1 方 法1.1 基于分层强化学习的机械臂复杂操作技能学习系统为了解决强化学习算法在面对复杂操作任务时难以学到有用策略的问题,本文引入分层强化学习框架。基于分层强化学习的机械臂复杂操作技能学习系统框架如图 1所示。该系统框架分为底层子任务学习和上层复杂任务学习。其中,底层子任务学习主要包括基于 BPARHMM 的复杂任务分解模块与基于 SAC 算法的子任务训练模块
14、。上层复杂任务学习通过最大熵目标的强化学习算法训练得到子任务选择策略,最后通过子任务重构的方式得到新任务复杂技能策略,实现新任务的再现与泛化。图1 基于分层强化学习的机械臂复杂操作技能学习系统框架1.2 基于BPARHMM的复杂任务分解方法传统 HMM 模型的解码需要提前指定分割段数,而现实中复杂操作任务的子技能个数往往是未知的,采用人工指定子技能个数的解决方法往往会导致分割结果出现过拟合或欠拟合的情况,最终导致无法分解出具有实际物理意义的子任务。而 BPARHMM 采用 Beta 过程先验14,以完全贝叶斯方式构建一个潜在的无限隐状态库,并且直接从时间序列数据中推断出适当数量的隐状态,而不需
15、要手动选择。BPARHMM模型如下:|B B0BP(c,B0)(1)XiBeP(B),i=1,2,N (2)|(i)kfiDir(,+(k,j),a f),i=1,2,N;k=1,2,K (3)|z(i)tz(i)t-1(i)z(i)t-1,i=1,2,N;t=1,2,T (4)y(i)t=1rA,z(i)ty(i)t-+e(i)t(z(i)t)Az(i)ty(i)t+e(i)t(z(i)t),i=1,2,N;t=1,2,T(5)公式(1)和公式(2)描述了随机测度B BP()c,B0,定义了一组关于全局共享隐状态集合的权重,其实现由孟子晗,等:基于分层强化学习的机械臂复杂操作技能学习方法11
16、7现代电子技术2023年第46卷B=kkk隐式定义,然后每个时间序列i都与伯努利过程采样Xi BeP()B,i=1,2,N有关,伯努利过程实现X=kfikk隐式定义时间序列i的特征向量fi选择哪一组全局共享的隐状态。公式(3)表示(i)k从时间序列i的状态转移分布,限制时间序列i在其特征向量fi中可用的隐状态之间的转换。公式(4)和公式(5)则描述了具有自回归特性的隐马尔可夫模型。1.3 基于SAC算法的底层子任务学习方法1.3.1 底层子任务学习框架传统强化学习方法大都有一定的局限性。如 PPO作为在线策略算法,采取随机策略,每次更新完策略后必须重新采集新的样本,导致样本效率低下;而 DDP
17、G是离线策略算法,采取确定性策略,样本效率高,但是超参数不稳定,确定性策略无法探索环境。SAC 算法结合了上述两种传统强化学习方法的优点,采取随机策略,引入最大化熵的方法,能增加代理对于 环 境 的 探 索 度。传 统 强 化 学 习 算 法 目 标 策 略()|atst最大化累计期望回报是tE()st,at R()st,at,()st,at表示策略()|atst的轨迹分布状态动作边际函数。而最大熵目标的强化学习累计期望回报则为:J()=t=0E(st,at)R(st,at)+H(|st)(6)式中为正则化系数,决定了熵对奖励的相对重要性,越大,策略的随机性就越强,熵定义为:H(|st)=Ea
18、(|s)-log(a|s)(7)SAC算法的网络结构如图2所示。SAC算法的网络包含了 Actor网络和 Critic网络。Actor网络包含一个策略网络,用来更新策略,策略网络输入当前时刻状态、输出当前时刻动作以及动作分布的熵值,网络结构为五层全连接神经网络,包含一个输入层、三个包含128 个神经元的隐含层和一个包含 2 个神经元的输出层。输出层为每个动作维度生成均值和标准差,采用tanh激活函数将动作归一化到-1,1范围内;Critic网络包含两个网络,分别为主值网络和目标值网络,主值网络用来输出当前状态的价值,目标值网络用来输出下一状态的价值,主值网络和目标值网络又包含了两个结构相同的Q
19、网络Net1和Net2,网络结构均为五层全连接神经网络,包含一个输入层、三个包含 128个神经元的隐含层以及一个输出层。SAC 算法利用两个Q网络减少策略改进中的偏差,选取两个Q函数中的较小值作为均方误差计算的输入值,能够显著加快训练速度。图2 SAC算法网络结构1.3.2 底层子任务学习方法SAC 算法的过程是首先从经验池中采样当前时刻的状态st、动作at、奖励r、下一时刻的状态st+1后,送入策 略 网 络,输 出 下 一 时 刻 的 策 略(st+1)和 熵log(at|st),同时对策略网络参数进行更新,更新方式如下:-J()(8)其中:J()=EstD Eat log(at|st)-
20、Q(st,at)接着将经验池中当前时刻的状态st、动作at、奖励r118第19期输出至主值网络,通过主值网络中的两个Q网络Net1和Net2来计算估计Q值Qt(1)、Qt(2)。然后将策略网络输出的策略和熵通过目标值网络中的两个Q网络 Net1和 Net2 来计算目标Q值Qt+1(1),Qt+1(2),并输出两个目标Q值中的较小值,与主值网络计算的估计Q值作均方误差计算,其目标函数如下:J(Q)=E(at,st)D 12(Q(st,at)-Q(st,at)2(9)同时目标值网络参数通过主值网络参数进行软更新,更新方式如下:i i+(1-)i,i 1,2 (10)最后,主值网络的参数更新方式如下
21、:i i-QJi(Q),i 1,2 (11)1.4 基于最大熵目标强化学习算法的上层复杂任务学习方法1.4.1 上层复杂任务学习框架传统的分层强化学习框架主要关注于顺序划分的任务,但在实际应用中,大部分任务不是顺序划分的,而是需要协同协调。因此对于复杂任务的强化学习,提出一种基于最大熵目标的强化学习算法的上层复杂任务学习框架,如图 3所示。为了介绍该框架,引入了马尔可夫决策过程的概念。图3 上层复杂任务学习框架对于子任务i,其设计的 RL 参数由五元组Mi=表 示;而 复 杂 任 务 的 五 元 组 定 义 为Mmetal=,其中l表示子任务的个数,Ametal=WmetalGml,表 示 向
22、 量 级 联 运 算 符,w1wn=wl Wmetal,表示子任务所占权重,且n=1lwn=1;gml表示所有子目标gm1gmn=gml的级联,子目标gml是一种属性,它代替作为每个子任务五元组的状态元素,子目标包括两种,第一种是从复杂任务中产生的gml,第二种表示用户指定的子目标g0l。需要注意的是,权重和子目标表示的等效动作不再是随机产生,而是训练过程中根据状态信息确定性生成的。在复杂任务的五元组中,状态空间被定义为所有子任务状态空间的联合空间,动作空间被定义为子任务权重Wl和子目标gml的级联,转移概率被定义为在当前状态sl和等效动作wlgml条件下转移到下一时刻状态sl的概率,表示为P
23、metal=P()sl|sl,wlgml。对应地,奖励函数表示在当前状态sl和等效动作wlgml条件下,复杂任务的期望奖励,Rmetal=Rmeta(sl,wlgml),衰减因子定义相同。首先上层复杂技能策略基于当前环境状态st和人工指定的子目标g0l生成子策略权重wn和子目标gml,其中复杂技能策略仅对需要的子任务生成子目标;然后子任务基于上述子目标和状态筛分配的状态s1t,s2t,slt形成子任务新状态,复杂任务策略根据相应子任务新状态产生权重wi,得到子任务选择策略i(|a s,gm)wi(s,go)。子任务选择策略通过子任务重构得到复杂任务的最优策略:meta=1Z(s,go)i=1k
24、i(|a s,gm)wi(s,go)(12)式中:k表示子任务策略个数;i表示子任务i的策略;wi()s,go表示为子任务i在给定状态和子目标下的权重;Z()s,go表示归一化函数。1.4.2 上层复杂任务学习方法对于上层复杂任务学习,采用最大熵目标的强化学习算法进行策略评估和策略改进,将最大熵强化学习目标函数中的标准熵项替换为子任务权重的熵项,目标函数重写为如下形式:J(meta)=t=0E(st,at)k=tk-tE(skP,ak)r(sk,ak)-|H(wk)st,at(13)式 中:H()w表 示 以 权 重w为 参 数 的 分 布 熵;wk=meta()sk;表示策略分布簇。熵项的作
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分层 强化 学习 机械 复杂 操作技能 学习方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。