基于异步优势强化学习的交通信号控制策略.pdf
《基于异步优势强化学习的交通信号控制策略.pdf》由会员分享,可在线阅读,更多相关《基于异步优势强化学习的交通信号控制策略.pdf(8页珍藏版)》请在咨信网上搜索。
1、第39卷 第3期2023年 6月Vol.39 No.3Jun.2023交通科学与工程JOURNAL OF TRANSPORT SCIENCE AND ENGINEERINGDOI:10.16544/43-1494/u.20220314001文章编号:1674-599X(2023)03-0110-08引用格式:邓兰,吴义虎.基于异步优势强化学习的交通信号控制策略 J.交通科学与工程,2023,39(3):110-117.Citation:DENG Lan,WU Yihu.Traffic signal control strategy based on asynchronous advantage
2、 actor-critic algorithm J.J.Transp.Sci.Eng.,2023,39(3):110-117.基于异步优势强化学习的交通信号控制策略邓兰,吴义虎(长沙理工大学 交通运输工程学院,湖南 长沙 410114)摘要:为解决交通信号控制中的信号灯配时调度不合理、路口拥堵等问题,提出一种基于行动者-评论家算法的城市智能交通控制算法。该算法是一种基于异步优势的算法,可对交通状态特征进行抽象表征,并以多线程并行实现对交通状态的精确感知。该算法还参考了强化学习算法,能在最短时间内不断迭代优化其内部参数,得到交通信号控制的最优方案。为验证该算法的有效性,采用交通仿真软件SUMO,
3、对该算法和其他3种典型的交通信号控制算法进行模拟仿真,并对仿真结果进行比较和分析。研究结果表明:与这 3类典型算法中效果最好的 Q-learning算法相比,该算法的交叉口车辆平均延误时间减少了14.1%,平均队列长度缩短了13.1%,平均等待时间减少了13.5%。该交通信号控制算法能有效地改善城市道路拥堵,提高道路交叉口的通行效率。关键词:智能交通信号控制;城市交通控制;深度强化学习;异步强化学习中图分类号:U491.5文献标志码:ATraffic signal control strategy based on asynchronous advantage actor-critic alg
4、orithmDENG Lan,WU Yihu(School of Traffic and Transportation Engineering,Changsha University of Science&Technology,Changsha 410114,China)Abstract:In order to solve the problems in traffic signal control,such as unreasonable timing of signal lights and congestion at intersections,we propose an urban i
5、ntelligent traffic control algorithm based on the asynchronous advantage actor-critic(A3C).This algorithm leverages asynchronous advantages to abstract and represent traffic state features,enabling accurate perception of traffic conditions through parallel multithreading.Drawing inspiration from rei
6、nforcement learning techniques,the algorithm iteratively optimizes its internal parameters to obtain the optimal solution for traffic signal control within the shortest possible timeframe.To assess the algorithms effectiveness,we conducted simulated experiments using the traffic simulation software
7、SUMO,comparing its performance with three other commonly used traffic signal control algorithms.The simulation results reveal that compared to the Q-learning algorithm,this algorithm reduces the average delay time of vehicles at intersections by 14.1%,decreases the average queue length by 13.1%,and
8、lowers the average waiting time by 13.5%.This traffic signal control algorithm can effectively alleviate urban road congestion and improve the traffic efficiency of road intersections.Key words:intelligent traffic signal control;urban traffic control;deep reinforcement learning;asynchronous reinforc
9、ement learning随着中国经济的高速发展,中国汽车人均拥有量不断增加,交叉口拥堵也成为城市道路常态,城市路网的通行效率受到了极大的影响。交通拥堵的主要原因是交通信号配时调度不合理,控制效率收稿时间:2022-03-14作者简介:邓兰(1996),女,长沙理工大学硕士生。邓兰,等:基于异步优势强化学习的交通信号控制策略第3期低下。因此,亟须合理、高效的交通信号控制方案,提高城市道路通行效率,减少道路拥堵 1-2。许多学者在设计合理的交通信号控制方面做了大量研究,石冬花等3采用定时控制和感应控制的方法调节交叉口信号。Webster方法是较经典的定时控制方法,其以延误时间最小化为目标函数,
10、确定参数,但该方法无法根据实时变化的交通状态来及时调整原有参数4。ARAGHI 等5-6提出的SCOOT算法能根据实时交通状况,有规律地调整每个行车方向的可通行时间,大幅提高通行效率,但该算法仍无法解决复杂路面上的交通信号控制问题。这是因为该算法只能根据当前的交通状态,从已有的配时方案中选取最合适的,但备选方案可能均不能满足实际道路的需求。姜涛等7在对潮汐特性显著的交叉口设计交通信号控制方案时,将各控制时段的最优车道方案和信号控制组合方案组合起来,得到了通行效果更好的算法。BOWLING8率先将强化学习算法运用到交通信号控制中。MARSETI9发现与固定配时算法相比,Q-learning算法能
11、更好地缓解交通拥堵,但其仿真试验均在静态交通环境下进行,在某些实际道路中效果不佳。THORPE10通过仿真,将SARSA算法得到的配时方案与传统固定配时方案进行了对比,发现SARSA算法的配时方案能更好地改善交通拥堵,但效果不够稳定。LIU等11采用Q-learning算法,对交叉路口的信号灯进行控制,但由于该算法提供的信息有限,不能完全显示车辆状态,导致大量交通信息被忽略。综上所述,为能提出更有效的城市路网的信号灯配时方案,本研究从两个方面入手:在同一时间内,让交通信号灯根据交叉路口各个方向上不同交通流的实时状况,在较短时间内选择最适合的交通信号控制策略;将该算法与其他算法在SUMO开源软件
12、上进行仿真与比较,验证该算法的有效性及可行性。1强化学习算法1.1行动者-评论家算法DEGRIS12将价值迭代和策略迭代两种神经网络迭代算法结合在一起,提出了行动者-评论家(actor-critic,AC)算法。在该算法框架中,行动者(actor)运用策略函数,执行动作,并与环境进行交互、合作;评论家(critic)则运用评价函数,判断行动者动作的优劣,并引导其下一阶段的动作。AC算法的原理如图1所示。该算法虽然可同时迭代两个神经网络,但稳定性不佳。状态s环境价值网络(评论家)策略网络(行动者)动作a优势函数奖励r图1行动者-评论家算法原理Fig.1Actor-critic algorithm
13、 principle1.2优势行动者-评论家算法优 势 行 动 者-评 论 家 算 法(advantage actor-critic,A2C)在AC算法的基础上增加了优势函数,并将其作为判定和选择动作的标准。如果执行动作的评价值高于期望值,则说明该动作优于平均动作,函数正在朝梯度上升方向运动;若执行动作的评价值低于期望值,则说明该函数正在朝梯度下降方向运动。A2C算法的原理如图2所示。由于该算法采取直接更新的策略,其迭代训练速度较为缓慢。动作a价值网络(评论家)策略网络(行动者)环境奖励r状态s对时间差分图2优势行动者-评论家算法网络结构Fig.2Advantage actor critica
14、l algorithm network structure1.3异步优势行动者-评论家算法异步优势行动者-评论家算法(asynchronous advantage actor-critic,A3C)算法是 MNIH13于 2016年提出的。该算法在交通系统中得到了广泛运用,是一种能明显提高道路通行效率的异步强化学习算法14。与 AC 算法和 A2C 算法相比,A3C 算法的最大改变是可以采取异步操作。为能更迅速地收集数据,该算法采取多线程并行交互的方式,进行数据的采集、学习和训练。每个线程可自主采集样本信息,独立地完成数据训练,并获取下一个阶段的参数值,最后,将其异步更新到全局神经网络中。在每
15、一次训练后,算法都会同步全局神经网络的参111第39卷交通科学与工程数,再与环境进行交互,展开新一轮的学习与训练。且各线程采用的神经网络均与全局神经网络保持一致,但每个线程都对应不同的环境,并与之进行交互。因此,每个线程环境的数据均不同,每个线程得到的样本序列也会有差别。这对于策略学习是有价值的,它能让模型在最短的时间内掌握更多的信息和知识。A3C 算法原理模型结构如图 3 所示。在图3中,策略(s)为全局神经网络输出的策略估计值,评论家v(s)为全局神经网络输出的行动评价值。全局网络策略(s)评论家v(s)神经网络输入(s)进程2环境1环境2进程n环境n进程1策略(s)评论家v(s)神经网络
16、输入(s)策略(s)评论家v(s)神经网络输入(s)策略(s)评论家v(s)神经网络输入(s)图3异步优势行动者-评论家算法架构Fig.3Asynchronous advantage actor-critic algorithm model architecture2异步深度强化学习交通控制算法异步深度强化学习算法对在单交叉路口的智能体、状态输入、动作相位和奖励函数进行了定义。1)智能体。智能体是具有自主活动的抽象类实体,如:无人驾驶的车辆、智能冰箱等。其能与周围环境不断地进行交流与合作,直至达到期望目标。在交通信号控制领域中,交通信号智能控制系统(交通信号灯)通过观测交叉路口的交通状况来选择
17、合适的信号控制方案。因此,交通信号灯可作为在该智能系统中强化学习算法的智能体。2)状态输入。交通路口状态信息是交通信号灯选择信号相位的依据。为了更好地掌握交叉路口的实时交通情况,将交叉路口各个方向的每个车道中的车辆停车等待时间w、车辆排队长度l、平均车头时距h、交叉口的车辆延误时间d、交通信号灯相位变化c作为交通状态的输入变量。3)动作相位。相位能影响交通信号灯能否选择出最合适的交通信号控制方案。目前,在大多数交通信号控制算法中,交叉路口的相位顺序是固定的,算法只对相位通行时间进行调整。这些算法不能应对复杂多变的实时交通流。因此,本研究既可以调整各个相位的绿灯时长,又可以根据交通流的实时变化任
18、意切换相位。在交叉路口的车辆的 4个动作相位设置如图5所示,本试验暂不考虑车辆右转这一情况。为避免交通冲突,规定交通信号灯一次只能选择在一个相位a上执行动作,此时,在其余相位方向上的车流均必须在停车线内等待。当a=1时,保持该通行相位;当a=0时,切换到另一相位。当交通信号灯选择相位时,算法会优先考虑最大交通需求方向上的车流,但也要顾及其他方向车流的最长等待时间wmax15。该最长等待时间wmax会因城市道路环境的不同而有所区别。112邓兰,等:基于异步优势强化学习的交通信号控制策略第3期 (a)南北直行 (b)南北左转 (c)东西左转 (d)东西直行图5交通路口车辆动作集合Fig.5Inte
19、rsection vehicle action collection4)奖励函数。对于交通信号控制方案而言,奖励函数可对交通信号灯选择某一相位动作后的交通状况变化情况进行评价,判断该方案是否达到预期通行效果,并最终确定其是否为最优交通信号控制方案。某一交通信号控制方案的奖励值越大,其实际通行效果越好;反之,若某一交通信号控制方案的奖励值越小,其实际通行效果越差。随着迭代时间的延长,交通路口智能控制方案的奖励值影响会逐渐降低。为提高交叉路口的通行效率,奖励函数要考虑交通路口状况的各项评价指标,如:车辆延误时间、队列长度、等待时间等。该交叉路口奖励函数的表达式为:r=k1d+k2q+k3w+k4p
20、 (1)式中:k1、k2、k3、k4为权重系数;d为交叉口在各方向上所有车辆的延迟时间之和;q为该交叉口在各方向上所有车辆队列长度之和;w为交叉口在各方向上所有车辆等待时间之和;p 为不同相位的切换时间 16。在交通控制的异步深度学习强化算法中,智能体(交通信号灯)先根据观察的交叉路口信息,选择符合该地交通状态的动作相位;然后,执行该动作相位,并将道路交通流的变化结果反馈给智能体(交通信号灯);最后,智能体根据反馈结果自适应地调整原有参数。交通智能体(交通信号灯)的强化学习算法的流程如图6所示。回馈跟踪信息信控路口环境交通信号智能体信号控制动作集合交通状态信息图6交通智能体的强化学习算法流程F
21、ig.6Reinforcement learning basic model of traffic signal agent3算法设计与仿真SUMO仿真软件能灵活地定义交通场景,模拟实时交通场景,在交通规划和管理中得到了广泛的应用17。本研究采用SUMO仿真软件中的TraCI接口模块来完成其与Python平台间的交流,根据交叉路口的实时交通信息,选择合适的信号配时方案 18。该算法建立在深度学习框架Tensor Flow的基础上19。3.1算法设计该算法先初始化交通信号灯参数;算法的各线程再从SUMO仿真软件中获得当前其在各自的交通环境中交叉路口的状态信息;然后,将该状态信息传输至各自的神经网
22、络中,根据神经网络输出的反馈结果,从动作相位集合中按照一定的策略,选择其中的一个相位;最后,把当前交叉路口的交通状态信息、动作相位、下一个时间步长的回报值、交通环境状态信息组合为一个4元数组,并以此来更新全局神经网络的参数。当全局神经网络进行更新时,适当放缓更新速率,保证该神经网络学习的稳定性,使全局神经网络的输出值能更贴近目标Q值。选择具有最大的Q值的动作相位,即可得到交通信号控制方案。重复以上操作,直到交通路口的信号灯最终获得最优交通控制策略为止。设 A3C算法公共部分的全局神经网络的策略参数为,价值参数为,共享迭代轮数为N,全局最大迭代次数Nmax,步长为;A3C算法各线程的神经网络的策
23、略参数为,价值参数为,各线程内单次迭代时间序列最大长度为Nlocal,状态特征维度为n,动作集为A,步长为,熵系数为c,折扣因子为,探索率为。113第39卷交通科学与工程算法步骤为:1)输入公共部分A3C全局神经网络参数,;重新分别设定行动者、评论家两个网络梯度:d=0,d=0;2)将全局神经网络中参数同步到各个线程中:=,=;3)令tstart=t,从初始化交通环境中得到交通状态st;4)根据策略(at|st;),选择合适的动作相位at,通过选择好的动作相位a,获得奖励值rt和下一个交通状态;定义当前的交通状态:t t+1,T T+1;5)若st为最后状态,或t-tstart=tlocal,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 异步 优势 强化 学习 交通信号 控制 策略
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。