基于逆强化学习的混合动力汽车能量管理策略研究.pdf
《基于逆强化学习的混合动力汽车能量管理策略研究.pdf》由会员分享,可在线阅读,更多相关《基于逆强化学习的混合动力汽车能量管理策略研究.pdf(12页珍藏版)》请在咨信网上搜索。
1、2023 年(第 45 卷)第 10 期汽车工程Automotive Engineering2023(Vol.45 )No.10基于逆强化学习的混合动力汽车能量管理策略研究*齐春阳1,宋传学2,宋世欣3,靳立强2,王达3,肖峰1(1.吉林大学,汽车仿真与控制国家重点实验室,长春130022;2.吉林大学汽车工程学院,长春130022;3.吉林大学机械与航空航天工程学院,长春130022)摘要 能量管理策略是混合动力汽车关键技术之一。随着计算能力与硬件设备的不断升级,越来越多的学者逐步开展了基于学习的能量管理策略的研究。在基于强化学习的混合动力汽车能量管理策略研究中,智能体与环境相互作用的导向是
2、由奖励函数决定。然而,目前的奖励函数设计多数是主观决定或者根据经验得来的,很难客观地描述专家的意图,所以在该条件不能保证智能体在给定奖励函数下学习到最优驾驶策略。针对这些问题,本文提出了一种基于逆向强化学习的能量管理策略,通过逆向强化学习的方法获取专家轨迹下的奖励函数权值,并用于指导发动机智能体和电池智能体的行为。之后将修改后的权重重新输入正向强化学习训练。从油耗值、SOC变化曲线、奖励训练过程、动力源转矩等方面,验证该权重值的准确性以及在节油能力方面具有一定的优势。综上所述,该算法的节油效果提高了5%10%。关键词:混合动力汽车;最大熵逆向强化学习;能量管理策略;正向强化学习Research
3、 on Energy Management Strategy for Hybrid Electric Vehicles Based on Inverse Reinforcement LearningQi Chunyang1,Song Chuanxue2,Song Shixin3,Jin Liqiang2,Wang Da3&Xiao Feng11.Jilin University,State Key Laboratory of Automotive Simulation and Control,Changchun130022;2.College of Automotive Engineering
4、,Jilin University,Changchun130022;3.School of Mechanical and Aerospace Engineering,Jilin University,Changchun130022Abstract Energy management strategy is one of the key technologies for hybrid vehicles.With the continuous upgrading of computing power and hardware devices,more and more scholars have
5、gradually carried out research on learning-based energy management strategies.In the study of reinforcement learning-based energy management strategies for hybrid electric vehicles,the orientation of the interaction between the intelligent agent and the environment is determined by the reward functi
6、on.However,most of the current reward function design is subjectively determined or based on experience,which is difficult to objectively describe the experts intention,so in that condition there is no guarantee that the intelligent body will learn the optimal driving strategy for a given reward fun
7、ction.To address these problems,an energy management strategy based on inverse reinforcement learning is proposed in this paper to obtain the reward function weights under the expert trajectory by means of inverse reinforcement learning and use them to guide the behavior of the engine and battery in
8、telligent agents.Then,the modified weights are input again into the positive reinforcement learning training.The fuel consumption value,SOC variation curve,reward training process and power source torque are used to verify the accuracy of the weight value and its advantage in terms of fuel saving ca
9、pability.In summary,the algorithm has improved the fuel saving effect by 5%10%.Keywords:hybrid electric vehicle;maximum entropy reverse reinforcement learning;energy management strategy;positive reinforcement learning doi:10.19562/j.chinasae.qcgc.2023.10.016*国家重点研发计划项目(2021YFB2500704)资助。原稿收到日期为 2023
10、 年 03 月 26 日,修改稿收到日期为 2023 年 05 月 12 日。通信作者:肖峰,副教授,博士,E-mail:。2023(Vol.45)No.10齐春阳,等:基于逆强化学习的混合动力汽车能量管理策略研究前言混合动力汽车的主要目标是提高动力系统的效率和降低燃料消耗。在给定动力系统配置的情况下,影响混合动力汽车油耗的最重要因素是发动机和电气系统之间的功率分配比。能量管理策略(energy management strategy,EMS)是混合动力汽车的关键技术之一,需要在满足电力需求的约束下协调发动机和电气系统之间的功率分配。对于同一车型,同一行驶周期,不同能量管理策略对应的油耗相差2
11、0%1。因此,研究混合动力汽车的能量管理策略具有重要意义。在混合动力汽车能量管理策略的研究过程中,研究者将大部分的控制策略主要分为3类:(1)基于规则;(2)基于优化;(3)基于学习。其中,基于规则又可以分为确定性规则和模糊性规则;基于优化可以分为全局优化和瞬时优化。基于规则的能量管理策略需要制定控制规则来确定不同驱动模式下的能源分布情况2。基于规则的方法优点在于,规则制度很容易开发,并且可以应用在实施控制系统中。但是规则的开发非常需要经验丰富的专家工程师的知识。与基于规则的能量管理策略相比,全局优化算法调整的参数优于确定性规则。近几年,基于学习的方法越来越受到研究者们的关注。其中,强化学习方
12、法能够解决与实时优化方法相关的任务得到了大家的青睐。强化学习智能体根据累计的奖励能够在不同状态下采取适应的行动。重庆理工大学的庞玉涵3提出了一种分层机构的强化学习方法,为能量管理策略提供了新思路。北京理工大学的刘腾4从强化学习算法出发,探索了以强化学习为基础的能量管理策略在最优性、自适应性和学习能力下的优化,并将强化学习算法深入到实时优化过程中,为实时性的强化学习算法提供了思路。重庆大学的唐小林等5提出一种基于深度值网络算法的能量管理策略,实现深度强化学习对发动机与机械式无级变速器的多目标协同控制。Li等6提出了一种利用优先级经验重放机制改进DQN(deep Q-network)模型。Chao
13、ui等7提出了一种基于强化学习的方法,用于平衡具有多个电池的电动汽车电池的荷电状态,该方法可以延长电池寿命并减少电池的频繁维护。另外,强化学习状态之间有很强的相关性,会不同程度影响学习效果。Liu 等8将基于 GPS 得到的行程信息与强化学习算法结合,在状态变量中加入剩余行驶里程,仿真结果显示取得了良好的优化效果。Liu等9提出一种应用数据来驱动的算法,并且成功用于能量管理策略中,实现了良好的节油性能。在基于强化学习的能量管理策略中,强化学习奖励函数设定的问题经常会被忽略。奖励函数通常是主观的和经验的,它不容易客观地描述专家的意图,也不能保证给定的奖励函数会导致最优的驾驶策略。在混合动力能量管
14、理控制策略问题中,奖励函数的不同直接会导致训练方向的改变。直观地说,电池与发动机的参数决定训练的方向是发动机最优油耗还是电池的最优状态,奖励函数的设定掺杂了过多的人为因素。深度强化学习是智能体与环境的不断交互学习的结果,通过不断交互、不断更新策略来最大化累计奖励值。奖励值作为智能体更新策略的关键,设计奖励值时更需要具有客观理论依据,奖励函数的设计关乎到整个训练网络的方向。针对以上问题,本文提出了一种逆强化学习方法,通过反向推导权重参数并校准正向强化学习算法来优化能量管理。逆强化学习算法的目标是构造一个关于状态的奖励函数的特征向量,并通过收集合理的专家呈现轨迹来学习最优奖励函数的权重向量。这种方
15、法能够描述专家策略,克服经验设计的随机性质。1混合动力汽车系统方案混合动力汽车的结构可以理解为能量通路与控制端口之间的连接关系,它也是一个较为复杂的系统,而且具有很强的非线性特性。混合动力汽车的系统具有多变性,它是将多个非线性系统耦合而成的,建立非常精确的数学模型是极其困难的,所以更加需要统一的建模方法。在混合动力汽车构型研发中,较为基本的方法是基于模型的方法。本文中针对某款混联混合动力汽车展开研究,车型的结构如图1所示。行星齿轮机构与驱动电机平行布置,行星齿轮机构行星架通过减振器连接至发动机端,太阳轮连接到发电机MG1,齿圈通过齿轮连接到MG2和输出轴。此外,发动机与减振器之间有一个单向离合
16、器,即便发动机反转时也能及时自锁。当进行能量管理的模拟仿真时,需要依托仿真软件构建整车的动力学模型,还需要从整车各个部件的建模入手分别建模,主要包括电机模型、发动机模型、电池模型、变速器模型、车轮模型、驾驶员模型等,相关部 1955汽车工程2023 年(第 45 卷)第 10 期件的基本参数如表1所示。2逆向强化学习方法奖励函数参数匹配2.1基于强化学习方法的管理策略参数分析在很多基于强化学习的能量管理策略当中,奖励函数的优化准则为在SOC值变化范围相同下,燃油消耗尽可能的低,尽可能延长电池寿命,发动机工作在最优燃油区间。对于强化学习奖励函数还存在实验性的调参,奖励函数的构造通常具备主观经验性
17、,不容易客观地描述专家意图,从而不能保证在给定奖励函数下智能体能学习出最优的驾驶策略。以下,列举了很多优秀的强化学习能量管理策略方法中奖励函数的设定10-23。r=-m f-(SOC)2(1)r=fuel(t)+elec(t)+SOCref-SOC(2)r=-mf(t)+SOC(t)-SOC(t0)(3)r(s,a)=-frate(s,a)+SOC2(4)r=-fuel(t)+SOCref-SOC(t)2(5)r=-frate(s,a)+SOC2(6)r=-fuel(t)+(SOC)2(7)r=fuel(s,a)+SOC2(8)r=-f(SOC(t)m fuel(st,at)(9)r=-(m
18、fuel,ICE+m fuel,)dt+1(10)r=-tt+T(m fuel()+e2SOC()d+1(11)r=f(fuel(t),SOC(t)|SOC0.3,0.8)(12)r=-(m dotfuel+()SOC-SOCref2),SOC 1000 r/min(31)图3逆向强化学习奖励函数权重确定表2逆向强化学习获得奖励参数伪代码算法:逆向强化学习参数标定输入:发动机最优工作点与SOC最优变化范围输出:强化学习多智能体奖励函数参数值1.初始化奖励函数权重,发动机智能体,电池智能体2.计算专家期望3.计算 Ds:循环:Zai,j=kP()sk|si,ai,jexp(r(si)ZskZsi
19、=ai,jZai,j+si SterminalPolicy=Zai,j/ZsiDs=siai,jP(si=sinitial)PolicyP()sk|si,ai,j4.通过梯度更新奖励函数权重:t+1=t+(f-s SDsfs)5.构造奖励函数并将其输入到正强化学习环境中图4电池最佳工作状态图5正则化后的加权系数 1959汽车工程2023 年(第 45 卷)第 10 期式中:Enginerweight代表发动机代理的加权系数;Batteryreweight代表电池代理的加权系数。3.2正向强化学习利用上节中得到的奖励函数参数值,本节从油耗值、SOC变化值以及动力源转矩变化3种典型特征验证该权重值
20、的优越性。将车辆的初始状态设置为:油箱处于最大储油容量的状态和初始SOC值为0.65。本文的训练工况是 CLTC,IM240、FTP75、WVUINTER 和 JN1015。图 6 显示了新建的行驶工况,并将其作为本文的测试工况,表3显示了在终值SOC大致相同的情况下,5个典型驾驶周期和新建工况中强化学习算法和具有更新的权重系数的强化学习算法之间的比较。其中对比值表示逆向强化学习算法对应强化学习基础算法的油耗值减少率。为了更加直观地显示燃油消耗,图7显示出5种典型工况的发动机油耗直方图,并且使用逆向强化学习权重值作为训练方向,从结果看出油耗明显低于其他两种算法。Q学习(Q-learning)算
21、法是提出时间很早的一种异策略的时序差分学习方法;DQN 则是利用神经网络对 Q-learning 中的值函数进行近似,并针对实际问题作出改进的方法;而 DDPG(deep deterministic policy gradient)则可以视为 DQN(deep Q-network)对连续型动作预测的一个扩展。DQN与DDPG都是强化学习的经典算法,本文以这两个算法为基准进行对比。DQN-IRL(deep Q-network-inverse reinforcement learning)表示拥有逆向参数的 DQN 算法,DDPG-IRL(deep deterministic 图6新建工况图表3燃
22、油消耗值对比行驶工况CLTCIM240FTP75WVU-INTERJN1015新建工况方法DQNDDPGDQN-IRLDDPG-IRLDQNDDPGDQN-IRLDDPG-IRLDQNDDPGDQN-IRLDDPG-IRLDQNDDPGDQN-IRLDDPG-IRLDQNDDPGDQN-IRLDDPG-IRLDQNDDPGDQN-IRLDDPG-IRL100 km油耗值(L)/SOC终值4.25/0.5104.36/0.4984.15/0.5054.11/0.5124.03/0.5044.12/0.4963.83/0.5113.78/0.4914.26/0.5054.12/0.5034.08/
23、0.5043.95/0.4984.07/0.5013.98/0.5063.82/0.5073.75/0.5063.85/0.4983.94/0.5033.62/0.5043.59/0.5103.98/0.5014.06/0.5033.81/0.5103.71/0.506对比值2.35%3.21%4.96%8.25%4.23%4.13%6.14%5.78%5.97%8.88%4.27%8.62%图7发动机油耗直方图 19602023(Vol.45)No.10齐春阳,等:基于逆强化学习的混合动力汽车能量管理策略研究policy gradient-inverse reinforcement lear
24、ning)表示拥有逆向参数的DDPG算法。图8显示了5种训练工况的奖励值变化,工况1到工况 5分别是 CLTC、IM240、FTP75、WVUINTER、JN1015。从图中可以看出各个算法都朝着最大奖励值的方向稳步推进,最终达到平滑。另外,图9揭示了在测试工况下,DQN、DQN-IRL、DDPG、DDPG-IRL的SOC值变化曲线,可以看出所有4种算法都处于较低的内阻和较高的电池效率区间,从而也证实了强化学习算法在解决能量管理问题方面的优越性。虚线代表IRL算法,与另外两种经典算法对比,SOC值的波动较小,在同等使用时间下,电池的使用寿命会更长。图10和图11分别显示了以DQN算法为例拥有逆
25、向参数前后的发动机转矩、MG1转矩、MG2转矩变化,可见添加逆向强化学习参数后,发动机起停次数减少,MG1与MG2转矩变化平稳。图8奖励价值趋势图图94种算法的SOC变化曲线图10DQN算法发动机转矩、MG1转矩、MG2转矩对比图11DDPG算法下发动机转矩、MG1转矩、MG2转矩对比 1961汽车工程2023 年(第 45 卷)第 10 期4硬件在环实验验证4.1硬件在环实验台搭建为了评估本文所提出的能量管理策略的实际应用潜力,实施并分析了硬件在环实验。如图 12 所示,实验系统由混合动力模型、驾驶员操作系统、虚拟场景系统、传感器系统、ubuntu RT系统和车辆控制单元组成。虚拟场景系统为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 强化 学习 混合 动力 汽车 能量 管理 策略 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。