基于强化学习的城市场景多目标生态驾驶策略.pdf
《基于强化学习的城市场景多目标生态驾驶策略.pdf》由会员分享,可在线阅读,更多相关《基于强化学习的城市场景多目标生态驾驶策略.pdf(12页珍藏版)》请在咨信网上搜索。
1、2023 年(第 45 卷)第 10 期汽车工程Automotive Engineering2023(Vol.45 )No.10基于强化学习的城市场景多目标生态驾驶策略*李捷1,吴晓东1,许敏1,刘永刚2(1.上海交通大学机械与动力工程学院,上海200240;2.重庆大学,机械传动国家重点实验室,重庆400044)摘要 为了提高智能网联汽车在复杂城市交通环境下的乘坐体验,本文提出一种基于深度强化学习的考虑驾驶安全、能耗经济性、舒适性和行驶效率的多目标生态驾驶策略。首先,基于马尔可夫决策过程构造了生态驾驶策略的状态空间、动作空间与多目标奖励函数。其次,设计了跟车安全模型与交通灯安全模型,为生态驾
2、驶策略给出安全速度建议。第三,提出了融合安全约束与塑形函数的复合多目标奖励函数设计方法,保证强化学习智能体训练收敛和优化性能。最后,通过硬件在环实验验证所提方法的有效性。结果表明,所提策略可以在真实的车载控制器中实时应用。与基于智能驾驶员模型的生态驾驶策略相比,所提策略在满足驾驶安全约束的前提下,改善了车辆的能源经济性、乘坐舒适性和出行效率。关键词:智能网联汽车;生态驾驶;深度强化学习;城市交通场景;多目标优化Reinforcement Learning Based Multi-objective Eco-driving Strategy in Urban ScenariosLi Jie1,W
3、u Xiaodong1,Xu Min1&Liu Yonggang21.School of Mechanical Engineering,Shanghai Jiao Tong University,Shanghai200240;2.Chongqing University,State Key Laboratory of Mechanical Transmission,Chongqing400044Abstract To improve the ride experience of connected and automated vehicle in complex urban traffic s
4、cenarios,this paper proposes a deep reinforcement learning based multi-objective eco-driving strategy that considers driving safety,energy economy,ride comfort,and travel efficiency.Firstly,the state space,action space,and multi-objective reward function of the eco-driving strategy are constructed b
5、ased on the Markov decision process.Secondly,the car-following safety model and traffic light safety model are designed to provide safety speed suggestion for the eco-driving strategy.Thirdly,the composite multi-objective reward function design method that integrates safety constraints and shaping f
6、unctions is proposed to ensure training convergence and optimization performance of the deep reinforcement learning agent.Finally,the effectiveness of the proposed method is verified through hardware-in-the-loop experiments.The results show that the proposed strategy can be applied in real-time on t
7、he onboard vehicle control unit.Compared to the eco-driving strategy based on the intelligent driver model,the proposed strategy improves energy economy,ride comfort,and travel efficiency of the vehicle while satisfying the driving safety constraints.Keywords:connected and automated vehicle;eco-driv
8、ing;deep reinforcement learning;urban traffic scenario;multi-objective optimization doi:10.19562/j.chinasae.qcgc.2023.10.002*国家重点研发计划(2018YFB0106000)和国家自然科学基金(52172400)资助。原稿收到日期为 2023 年 02 月 28 日,修改稿收到日期为 2023 年 03 月 28 日。通信作者:吴晓东,副教授,博士,E-mail:。汽车工程2023 年(第 45 卷)第 10 期前言为提高电动汽车(electric vehicle,EV)
9、的经济性,除开发更先进的高效“三电”系统,改善车辆行驶行为以提高车辆经济性的生态驾驶技术也受到了广泛关注。传统的生态驾驶策略是指驾驶员经过科学培训习得的通过控制车辆行驶速度降低油耗的驾驶技 能1。随 着 智 能 网 联 汽 车(connected and automated vehicle,CAV)技术的发展,车辆可以通过V2X(vehicle-to-everything)通信接收周围交通和道路地形信息2。CAV不仅可以降低能源消耗,还可以给乘客提供良好的乘坐体验(如保障驾驶安全,提高舒适性和通行效率)。因此,开发多目标生态驾驶策略来优化CAV的行驶行为是目前的研究热点3-4。已有的生态驾驶策
10、略主要分为基于规则、基于优化和基于学习的3类。典型的基于规则的生态驾驶策略是“脉冲-滑翔”策略5-6。理想情况下,该策略控制车辆匀加速至给定速度,然后保持匀速运行,最后匀减速运动至目的地,从而达到节省燃料消耗的目的。然而,在真实驾驶场景中,由于红绿灯路口的隔断以及其他车辆不确定行为的干扰(例如换道、超车、急停等),自车难以按照理想车速轨迹行驶。尽管该策略具有较好的实时性,但过度简化了交通环境,没有考虑交通环境中的复杂影响因素,难以在城市场景中实际应用。基于优化的生态驾驶策略通常将生态驾驶问题建模为最优控制问题,然后通过动态规划7、非线性规划8、模型预测控制9-10(model predicti
11、ve control,MPC)等方法求解。然而,基于优化的生态驾驶策略需要建立一个能反映复杂的车辆动力系统与多变的城市交通环境特性的非线性模型。而该模型也必然包含多个状态变量。虽然通过对车辆动力系统与交通环境进行精确建模能保证算法的优化效果,但是求解含有复杂非线性模型的最优控制问题需要消耗大量的计算资源,难以在算力有限的车载控制器(vehicle control unit,VCU)中实时应用。深 度 强 化 学 习(deep reinforcement learning,DRL)算法是一种基于数据驱动的机器学习方法,它不需要建立复杂的动力学控制模型,而是仅通过智能体(agent)与环境的交互来
12、学习和优化控制策略。训练好的DRL智能体可以通过深度神经网络(deep neural network,DNN)接收系统状态信息,并快速计算出对应的控制动作11。相比于基于模型的优化控制方法,避免了对复杂动力学控制模型的依赖,可以有效降低控制策略的计算量,实现实时控制12。然而,DRL算法在基于学习的生态驾驶策略上的应用仍存在着多种挑战。与传统RL算法相比,DRL算法依靠DNN来近似最优值函数13,避免了算法在多个状态变量的复杂场景中陷入“维数灾难”。但是,由于函数近似误差的存在,DRL算法也不可避免地引入了控制不稳定性14。因此,仅依赖于DRL算法的生态驾驶策略难以在实际应用中充分保障车速规划
13、的安全性。此外,复杂交通场景下多目标生态驾驶问题的奖励函数设计是一个棘手的问题,直接关系到DRL算法训练能否收敛。奖励函数应能恰当地定义生态驾驶问题的优化目标,并准确地反映交通灯、前车、道路限速等交通影响因素。为了降低算法训练收敛的难度,目前基于DRL的生态驾驶策略的研究大都考虑单一的交通影响因素,与实际交通场景存在较大差异。例如,Liu等15提出基于深度确定性策略梯度法的生态驾驶策略,可以快速求解多个信号灯路口之间的最优车速轨迹。然而该DRL控制器没有考虑安全跟车约束,只适用于单车行驶的理想状况。Bai等16提出了一种结合安全决策规则与DRL的混合生态驾驶策略框架,以改善复杂交通路口的车辆能
14、源效率。然而该混合框架只通过决策管理器选择传统规则策略或DRL策略控制车辆,并未把安全约束融入 DRL算法的设计中。张健等17提出一种基于离线DRL的车辆交叉口生态驾驶控制策略,实现了能耗经济性的提高。然而该方案忽略了DRL算法控制不稳定所带来的安全问题而且也未考虑跟车场景。为了克服当前研究的不足,本文提出了一种新型基于DRL的实时多目标生态驾驶策略,以有效应对复杂交通场景下的驾驶挑战。本研究的贡献如下:针对DRL算法控制稳定性不足的问题,设计了面向实际应用的基于DRL的生态驾驶策略的框架,通过安全速度建议模块实现了对车速规划的安全性保障;而为了使DRL算法考虑多个交通影响因素并促进该多目标生
15、态驾驶策略训练收敛,提出了一种融合安全约束与塑形函数的多目标复合奖励函数设计方案。最后,通过硬件在环(hardware-in-loop,HIL)实验验证了所提控制算法在真实的VCU中实时应用的有效性。17922023(Vol.45)No.10李捷,等:基于强化学习的城市场景多目标生态驾驶策略1问题描述1.1智能网联汽车动力系统结构本文的研究对象为一款基于纯电动平台的CAV。电机、主减速器和差速器依次组装在该车的动力系统中。电机输出转矩与车辆加速度之间的关系可以表示为Ftra=mifdrwheel(fddif)sgn(m)(1)aego=Ftra-mg(frcos +sin )-12CDAv2e
16、gom+Iequi(2)式中:Ftra、m、ifd、fd、dif与rwheel分别为车轮驱动力、电机转矩、主减速比、主减速器效率、差速器效率与车轮半径;aego、m、g、fr、CD、A、vego和Iequi分别为车辆加速度、车辆质量、重力加速度、滚动阻力系数、道路坡度、空气阻力系数、迎风面积、空气密度、自车车速与旋转部件在车轮处的等效转动惯量。针对纯电动CAV而言,控制策略通过控制电机输出的驱动转矩来调节车辆加速度,从而控制车辆实现目标车速。合理规划车辆的行驶速度可以改善车辆的乘坐体验。1.2智能网联场景下的生态驾驶问题如图1所示,当车辆在城市交通场景中行驶时,必须考虑前方红绿灯路口、道路坡度
17、、道路限速、前方车辆等多种交通要素的约束。在智能网联场景中,由于CAV可以通过车载传感器与V2X通信获取实时交通环境信息(例如:前车距离/车速信息、红绿灯时间/相位信息、道路限速信息等)。因此,在智能网联场景下,多目标生态驾驶问题可以表述为:利用获取的交通环境信息,合理规划CAV的目标车速,并在满足安全约束(遵守交通规则,避免碰撞)的前提下,实现电力消耗、乘坐舒适性和出行效率的协同优化。argminJ=i=1N1Pbat(i)+2|aego(i)+3Ts.t.Nred_light 1;Ncollision i En=iTn-irn(sn,an)(5)G P S50?速CAV?传?CAV?图1智
18、能网联场景示意图 1793汽车工程2023 年(第 45 卷)第 10 期式中:期望累积奖励Q(si,ai)也被称为动作价值(或Q值);0,1为折扣因子;T为有限MDP的长度;rn(sn,an)为在状态sn采取动作an后的奖励值;E为状态集合。对于 MDP,式(5)可以转化为如下递归关系:Q(si,ai)=r(si,ai)+Eri,si+1 EQ(si+1,ai+1)(6)DRL算法的任务是找到一个最优的策略,使期望的累积奖励Q(si,ai)最大化。对于本文研究的多目标生态驾驶问题而言,式(3)的目标函数也可被表述为递归形式:J(i+1)=(1Pbat(i)+2|aego(i)+3T)+J(i
19、)=costins(i)+J(i)(7)式中:costins(i)表示考虑电耗、舒适性与行驶效率的瞬时成本。比较式(6)与式(7)可知,当DRL的奖励函数等于负的瞬时成本时,生态驾驶问题的目标函数可以转化为基于MDP的DRL算法的价值函数。reco(si,ai)=-costins=-(1Pbat(i)+2|aego|(i)+3T)=1rele+2rcon+3reff(8)式中:rele=-Pbat为电耗奖励;rcon=-|aego|为舒适度奖励;reff=-T为通行效率奖励。通过与环境交互,DRL 智能体可以迭代更新得到使累积奖励函数Q(si,ai)最大化的最优策略。该最优策略可以直接应用于车
20、辆生态驾驶控制,实现车辆电耗、舒适性和出行效率的协同优化。2.2状态空间与动作空间设计如前文所述,生态驾驶策略需要在满足安全出行的前提下,实现经济性、舒适性和出行效率的协同优化。因此DRL智能体的输入信息应充分反映车辆动力系统状态和交通环境状态。本研究中,DRL智能体的状态输入由如下3部分组成。(1)车辆状态信息:参考车速vref、实际车速vego、电池SOC、电池内阻Rbat、电池开路电压Ubat。(2)前车信息:前车速度vpre、前车加速度apre、两车距离dhead。(3)道路信息和交通灯信息:自车行驶距离dego、道路坡度、下一个交通灯路口距离dlight、交通灯剩余时间trem、交通
21、灯相位。在本文中交通灯剩余时间和交通灯相位被交通灯时间tlight所代替。它可以在降低输入状态维数的同时不丢失交通灯时间/相位信息。tlight(i)=trem(i),相位=绿-Tred-trem(i),相位=黄-trem(i),相位=红(9)式中Tred为红灯相位持续时间(注:在本文中,黄灯相位也被纳入红灯总时间中)。根据上述分析,观测状态向量公式如下:si=vref,vego,SOC,Rbat,Ubat,vpre,apre,dhaed,dego,dlight,tlightT(10)图2基于深度强化学习的生态驾驶策略框架 17942023(Vol.45)No.10李捷,等:基于强化学习的城市
22、场景多目标生态驾驶策略为了合理控制车辆速度变化,本文选取车辆加速度作为DRL智能体的动作变量输出。故DRL智能体给出的自车参考速度可表示为vDRL(i)=vref(i)+aDRL(i)T(11)式中aDRL为DRL算法计算的车辆加速度。车辆加速度被限制为-3,3 m s2,以避免产生不舒适的急加速/减速动作。2.3安全速度建议模块设计安全速度建议模块由跟车安全模型和红绿灯安全模型组成。2.3.1跟车安全模型为避免与前车发生碰撞,车速上限表示为vcf(i)=minvKrauss(i),vlimit(12)式中vKrauss是基于Krauss跟车模型18-19推导的最大安全跟车速度。dhead+v
23、2pre2amax=v2Krauss 2amax+vKrauss(13)式中:amax是最大加速度;dhead=dhead-Dmin;Dmin与分别为最小车头距与驾驶员反应时间。通过引入驾驶员反应时间,使得DRL智能体可以学习类似于人类驾驶员的反应过程,从而提高乘客的接受度。2.3.2交通灯安全模型如果车辆无法在绿色时间内通过交通路口,则车辆应及时停车避免闯红灯。因此,最大安全速度可表示为vtl_max(i)=min 2dlight(i)|amax,vlimit (14)此外,本文还根据红绿灯剩余时间tremain与离红绿灯距离dlight定义了一个阈值速度vtho(i)。vtho(i)=mi
24、ndlight(i)trem(i),vlimit(15)当车辆处于交通灯区域且交通灯为绿色时,避免闯红灯的安全参考速度上限可以表示为vtl(i)=vtl_max(i),vego(i)vtho(i)vlimit,vego(i)vtho(i)(16)当车辆处于交通灯区域且交通灯相位为黄色或红色时,避免闯红灯的安全参考速度上限可以表示为vtl(i)=vtl_max(i),vtho(i)vtl_max(i)vtho(i),vtho(i)vtl_max(i)(17)根据式(12)、式(16)与式(17),基于跟车安全模型与交通灯安全模型的速度建议模块计算的安全速度上限可以表示为vsafe(i)=minc
25、fvcf(i),tlvtl(i),vlimit(18)式中cf与tl为调整速度建议模块安全阈值的比例因子。此外,为了避免DRL智能体规划负参考车速的不合理情况,本文采用安全速度建议模块进行修正。具体而言,当式(11)计算得出参考车速小于0时,安全速度建议模块将把输出的安全参考车速设置为0。因此,经过速度建议模块对DRL智能体规划的高风险参考速度进行监控与修改后,发送给车速跟踪控制器的安全参考车速可以表示为vref(i)=vsafe(i),vsafe(i)vDRL(i)vDRL(i),0 vDRL(i)vsafe(i)0,vDRL(i)0(19)2.4融合安全约束与塑形函数的奖励函数设计为了使
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 强化 学习 城市 场景 多目标 生态 驾驶 策略
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。