多智能体强化学习方法综述.pdf
《多智能体强化学习方法综述.pdf》由会员分享,可在线阅读,更多相关《多智能体强化学习方法综述.pdf(15页珍藏版)》请在咨信网上搜索。
1、第3卷第1期2 0 2 4年1月信 息 对 抗 技 术I n f o r m a t i o n C o u n t e r m e a s u r e T e c h n o l o g yV o l.3 N o.1J a n.2 0 2 4引用格式:陈人龙,陈嘉礼,李善琦,等.多智能体强化学习方法综述J.信息对抗技术,2 0 2 4,3(1):1 8-3 2.C HE N R e n l o n g,C HE N J i a l i,L I S h a n q i,e t a l.A s u r v e y o f m u l t i-a g e n t r e i n f o r c e
2、 m e n t l e a r n i n g m e t h o d sJ.I n f o r m a t i o n C o u n t e r m e a s u r e T e c h n o l o g y,2 0 2 4,3(1):1 8-3 2.(i n C h i n e s e)多智能体强化学习方法综述陈人龙1,2,陈嘉礼1,2,李善琦1,2,谭 营1,2,3,4*(1.北京大学机器感知与智能教育部重点实验室,北京 1 0 0 8 7 1;2.北京大学智能学院,北京 1 0 0 8 7 1;3.北京大学人工智能研究院,北京 1 0 0 8 7 1;4.北京大学跨媒体通用人工
3、智能全国重点实验室,北京 1 0 0 8 7 1)摘 要 在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前研究的主要趋势和研究方向。研究趋势包括C T D E范式、具有循环神经单元的智能体和训练技巧。主要研究方向涵盖混合型学习方法、协同与竞争学习、通信与知识共享、适应性与鲁棒性、分层与模块化学习、基于博弈论的方法以及可解释性。未来的研究方向包括解决维度灾难问题、求解大型组合优化问题和分析多智能体强化学习算法的全局收敛性。这些
4、研究方向将推动多智能体强化学习在实际应用中取得更大的突破。关键词 多智能体强化学习;强化学习;多智能体系统;群体协同;维度灾难中图分类号 TN 9 1 5 文章编号 2 0 9 7-1 6 3 X(2 0 2 4)0 1-0 0 1 8-1 5文献标志码 A D O I 1 0.1 2 3 9 9/j.i s s n.2 0 9 7-1 6 3 x.2 0 2 4.0 1.0 0 3A s u r v ey o f m u l t i-age n t r e i n f o r c e m e n t l e a r n i ng m e t h o d sCHE N R e n l o n
5、g1,2,CHE N J i a l i1,2,L I S h a n q i1,2,T AN Y i n g1,2,3,4*(1.K e y L a b o r a t o r y o f M a c h i n e P e r c e p t r o n(MO E),P e k i n g U n i v e r s i t y,B e i j i n g 1 0 0 8 7 1,C h i n a;2.S c h o o l o f I n t e l l i g e n c e S c i e n c e a n d T e c h n o l o g y,P e k i n g U
6、n i v e r s i t y,B e i j i n g 1 0 0 8 7 1,C h i n a;3.I n s t i t u t e f o r A r t i f i c i a l I n t e l l i g e n c e,P e k i n g U n i v e r s i t y,B e i j i n g 1 0 0 8 7 1,C h i n a;4.N a t i o n a l K e y L a b o r a t o r y o f G e n e r a l A r t i f i c i a l I n t e l l i g e n c e,P
7、e k i n g U n i v e r s i t y,B e i j i n g 1 0 0 8 7 1,C h i n a)A b s t r a c t I n r e a l-w o r l d s c e n a r i o s s u c h a s a u t o n o m o u s d r i v i n g a n d t e a m-b a s e d c o o p e r a t i v e g a m e s,m u l t i-a g e n t r e i n f o r c e m e n t l e a r n i n g h a s d e m o
8、n s t r a t e d s i g n i f i c a n t p o t e n t i a l i n t a c k l i n g s e q u e n t i a l d e c i s i o n-m a k i n g p r o b l e m s.H o w e v e r,i t a l s o e n c o u n t e r s c h a l l e n g e s i n c l u d i n g t h e c u r s e o f d i m e n s i o n a l i t y,i n s t a b i l i t y,m u l
9、t i-o b j e c t i v i t y,a n d p a r t i a l o b s e r v a b i l i t y.T h i s a r t i c l e o f f e r s a n o v e r v i e w o f t h e c o n c e p t s a n d m e t h o d s e m p l o y e d i n m u l t i-a g e n t r e i n f o r c e m e n t l e a r n-i n g,p r o v i d i n g a s u mm a r y o f t h e p r
10、 e v a i l i n g t r e n d s a n d r e s e a r c h d i r e c t i o n s i n t h e c u r r e n t s t u d-i e s.T h e i d e n t i f i e d r e s e a r c h t r e n d s c o m p r i s e t h e C T D E p a r a d i g m,a g e n t s e q u i p p e d w i t h r e c u r-r e n t n e u r a l u n i t s,a n d v a r i o
11、 u s t r a i n i n g t e c h n i q u e s.T h e p r i m a r y r e s e a r c h d i r e c t i o n s e n c o m-p a s s h y b r i d l e a r n i n g m e t h o d s,c o o p e r a t i v e a n d c o m p e t i t i v e l e a r n i n g,c o mm u n i c a t i o n a n d k n o w l e d g e s h a r i n g,a d a p t a b
12、i l i t y a n d r o b u s t n e s s,h i e r a r c h i c a l a n d m o d u l a r l e a r n i n g,g a m e t h e o r e t i c a p p r o a c h e s,a n d i n t e r p r e t a b i l i t y.L o o k i n g a h e a d,f u t u r e r e s e a r c h d i r e c t i o n s e n t a i l 收稿日期:2 0 2 3-0 2-2 2 修回日期:2 0 2 3-0
13、5-0 4通信作者:谭营,E-m a i l:y t a n p k u.e d u.c n基金项目:国家重点研发计划项目(2 0 1 8 AAA 0 1 0 2 3 0 1);国家自然科学基金资助项目(6 2 2 5 0 0 3 7,6 2 2 7 6 0 0 8,6 2 0 7 6 0 1 0)第1期陈人龙,等:多智能体强化学习方法综述 a d d r e s s i n g t h e c u r s e o f d i m e n s i o n a l i t y,s o l v i n g l a r g e-s c a l e c o m b i n a t o r i a l
14、o p t i m i z a t i o n p r o b-l e m s,a n d c o n d u c t i n g a n a l y s e s o n t h e g l o b a l c o n v e r g e n c e o f m u l t i-a g e n t r e i n f o r c e m e n t l e a r n-i n g a l g o r i t h m s.P u r s u i n g t h e s e r e s e a r c h d i r e c t i o n s w i l l s i g n i f i c a
15、n t l y c o n t r i b u t e t o f u r t h e r b r e a k t h r o u g h s i n t h e p r a c t i c a l a p p l i c a t i o n o f m u l t i-a g e n t r e i n f o r c e m e n t l e a r n i n g.K e y w o r d s m u l t i-a g e n t r e i n f o r c e m e n t l e a r n i n g;r e i n f o r c e m e n t l e a r
16、n i n g;m u l t i-a g e n t s y s t e m;s w a r m c o l l a b o r a t i o n;c u r s e d i m e n s i o n a l i t y0 引言多智 能 体 强 化 学 习(m u l t i-a g e n t r e i n f o r c e-m e n t l e a r n i n g,MA R L)是近年来发展最快、最为热点的强化学习研究的分支之一。强化学习(r e-i n f o r c e m e n t l e a r n i n g,R L)已经广泛应用于工业制造、机器人控制1、游戏博
17、弈2等领域。在序列决策问题中,强化学习体现出了极高的有效性,特别是随着用于函数拟合的深度神经网络的发展,深度强化学习算法在棋类博弈3、实时战略游戏4、非完美信息博弈5和自动驾驶6等方面取得了极大的进步。强化学习的基本思想是通过最大化智能体(a g e n t)从环境中获得的累计奖赏值,以学习到完成目标的最优策略。然而目前大多数在实际应用中取得优秀效果的强化学习算法通常集中在单智能体(s i n g l e-a g e n t)领域。多智能体 强 化 学 习 则 着 重 解 决 另 一 类 多 智 能 体(m u l t i-a g e n t)在同一环境中进行交互的任务。多智能体任务因其交互的
18、复杂性和与现实任务贴合的紧密性,近年来受到了越来越多的关注。随着多个智能体的引入,智能体间的交互行为也产生了不同模式,这给算法设计提出了更高的要求。多智能体强化学习还面临着新的挑战,包括组合动作空间随智能体数目指数增大的维度灾难问题、智能体动作对其他智能体造成的不稳定性问题、智能体之间目标的差异性问题以及单个智能体的部分可观测性问题,等等。这些挑战也吸引着越来越多的研究者加入到对多智能体强化学习的研究中。本文对多智能体强化学习方法进行了综述,列举了主要挑战及相关研究工作,总结研究趋势并且指出了未来可能的研究方向。1 强化学习理论强化学习的基本交互过程如图1所示,即智能体与环境交互逻辑。在时刻t
19、,环境给出当前时刻的状态st,智能体获取状态st或该状态的一个可观测分量ot,并根据这个输入得到当前时刻的动作at,环境执行智能体给出的动作at,并得到当前动作的奖励值rt以及下一时刻的环境状态st+1。因此,强化学习过程包含了一个基本的假设,即学习的目标可以被较好地解释为最大化一个特定的可累积的奖励值。图1 智能体与环境交互逻辑F i g.1 I n t e r a c t i o n l o g i c b e t w e e n a n g e n t s a n d e n v i r o n m e n t强化学习问题可以通过一个马尔可夫决策过程(M a r k o v d e c
20、i s i o n p r o c e s s,MD P)7来建模。整个MD P可以被描述为一个五元组,即。其中,S为所有环境状态的集合,stS为t时刻的环境状态;A为所有可执行动作的集合,atA为t时刻智能体执行的动作;P表示对所有动作产生状态转移的概率;rR表示环境的奖励;0,1)为折扣系数,用来平衡当前和未来的奖励权重。t时刻智能体与环境交互的操作可被归纳为:智能体接收并处理环境信息st以及rt,产生动作at;环境接收动作at,产生新状态st+1以及当前时刻的动作奖励。在MD P中,一个状态的期望奖励(即从该状态开始直至MD P结束产生的累积奖励的期望)被称为该状态的价值。用函数形式进行
21、表达,则可以记为:V(s)=E rt+rt+1+2rt+2+st=s (1)由价值函数的定义可以得到其递推形式:V(s)=E rt+V st+1 st=s (2)从而得到价值函数的贝尔曼方程(B e l l m a n 91 信 息 对 抗 技 术2 0 2 4年e q u a t i o n):V(s)=r(s)+s Sps s V s (3)由于动作的存在,需要额外定义一个动作价值函数(a c t i o n-v a l u e f u n c t i o n)Q(s,a),以表征对当前状态s执行动作a得到的期望累积奖励。Q(s,a)定义如下:Q(st,at)=Ert+rt+1+2rt+2
22、+|st,at=Ert+Q(st+1,at+1)|st,at(4)求解强化学习问题,通常有基于值函数的强化学习方法(v a l u e-b a s e d R L)、策略梯度的强化学习方法(p o l i c y g r a d i e n t R L)以及将二者结合的“演员-评论家”框架(a c t o r-c r i t i c s t r u c t u r e)。1.1 基于值函数的深度强化学习考虑到每个状态下有多种动作可以选择,基于值函数的强化学习方法考虑在某个状态下的不同动作的价值,并根据这个价值来选择需要执行的动作,使用Q(s,a)来表征。在基于价值的方法中,求解最优策略等价于求
23、解最优的动作价值函数:Q*(s,a)=m a xQ(s,a)(5)最 优 动 作 价 值 函 数 遵 循 贝 尔 曼 最 优 方 程(B e l l m a n o p t i m a l i t y e q u a t i o n)。最优策略可以表示为:*=a r g m a xaA Q*(s,a)(6)Q-L e a r n i n g8提 出 了 一 种 更 新Q值 的 方法,即:Q(st,at)Q(st,at)+(rt+1+m a xaQ(st+1,a)-Q(st,at)(7)然而,在很多实际任务中,状态空间的大小使得记录Q值的方法计算代价太大,会导致维度灾难。常用的解决维度灾难的方法
24、为价值函数近似策略(v a l u e f u n c t i o n a p p r o x i m a t i o n),即引入一个函数Q(s,a)来表示Q值:Q(s,a)=f(s,a,)(8)1.2 策略梯度的强化学习方法基于值函数的Q-L e a r n i n g方法在很多领域取得了成功的应用,但是也具有一定的局限性,主要体现在2个方面:1)对连续动作的处理能力不足。由于需要遍历全部动作,得到具有最大Q值的动作,基于值函数的方法对处理连续动作的任务建模的难度是极大的;2)无法解决随机策略问题,基于值函数的强化学习方法使用了确定性策略。若有些任务的最优策略是(近似)随机策略,基于值函数
25、的方法则无法求解这类任务。S UT TON等9提出了策略梯度(p o l i c y g r a-d i e n t,P G)强化学习算法。与基于值函数的方法不同,策略梯度方法直接对策略进行建模和优化。在该类方法中,策略通常被建模为一个以为参数的函数(a|s)。奖励函数可以被定义为:J()=sSP(s)V(s)=sSP(s)aA(a|s)Q(s,a)(9)式中,P(s)为在采用策略(a|s)情况下马尔可夫 链 的 稳 态 分 布,可 以 表 示 为:P(s)=l i mtP st=ss0,。根据强化学习的定义,需要对式(9)进行优化,然而直接计算其梯度J()是非常困难的。策略梯度方法证明了计算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智能 强化 学习方法 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。