分销赏收藏举报申诉 / 12

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于逆强化学习的混合动力汽车能量管理策略研究.pdf

基于逆强化学习的混合动力汽车能量管理策略研究.pdf

上传人：自信****多点

文档编号：2354843

上传时间：2024-05-28

格式：PDF

页数：12

大小：3.90MB

《基于逆强化学习的混合动力汽车能量管理策略研究.pdf》由会员分享，可在线阅读，更多相关《基于逆强化学习的混合动力汽车能量管理策略研究.pdf（12页珍藏版）》请在咨信网上搜索。

1、2023 年（第 45 卷）第 10 期汽车工程Automotive Engineering2023（Vol.45 ）No.10基于逆强化学习的混合动力汽车能量管理策略研究*齐春阳1，宋传学2，宋世欣3，靳立强2，王达3，肖峰1（1.吉林大学，汽车仿真与控制国家重点实验室，长春130022；2.吉林大学汽车工程学院，长春130022；3.吉林大学机械与航空航天工程学院，长春130022）摘要能量管理策略是混合动力汽车关键技术之一。随着计算能力与硬件设备的不断升级，越来越多的学者逐步开展了基于学习的能量管理策略的研究。在基于强化学习的混合动力汽车能量管理策略研究中，智能体与环境相互作用的导向是

2、由奖励函数决定。然而，目前的奖励函数设计多数是主观决定或者根据经验得来的，很难客观地描述专家的意图，所以在该条件不能保证智能体在给定奖励函数下学习到最优驾驶策略。针对这些问题，本文提出了一种基于逆向强化学习的能量管理策略，通过逆向强化学习的方法获取专家轨迹下的奖励函数权值，并用于指导发动机智能体和电池智能体的行为。之后将修改后的权重重新输入正向强化学习训练。从油耗值、SOC变化曲线、奖励训练过程、动力源转矩等方面，验证该权重值的准确性以及在节油能力方面具有一定的优势。综上所述，该算法的节油效果提高了5%10%。关键词：混合动力汽车；最大熵逆向强化学习；能量管理策略；正向强化学习Research

3、 on Energy Management Strategy for Hybrid Electric Vehicles Based on Inverse Reinforcement LearningQi Chunyang1，Song Chuanxue2，Song Shixin3，Jin Liqiang2，Wang Da3&Xiao Feng11.Jilin University，State Key Laboratory of Automotive Simulation and Control，Changchun130022；2.College of Automotive Engineering

4、，Jilin University，Changchun130022；3.School of Mechanical and Aerospace Engineering，Jilin University，Changchun130022Abstract Energy management strategy is one of the key technologies for hybrid vehicles.With the continuous upgrading of computing power and hardware devices，more and more scholars have

5、gradually carried out research on learning-based energy management strategies.In the study of reinforcement learning-based energy management strategies for hybrid electric vehicles，the orientation of the interaction between the intelligent agent and the environment is determined by the reward functi

6、on.However，most of the current reward function design is subjectively determined or based on experience，which is difficult to objectively describe the experts intention，so in that condition there is no guarantee that the intelligent body will learn the optimal driving strategy for a given reward fun

7、ction.To address these problems，an energy management strategy based on inverse reinforcement learning is proposed in this paper to obtain the reward function weights under the expert trajectory by means of inverse reinforcement learning and use them to guide the behavior of the engine and battery in

8、telligent agents.Then，the modified weights are input again into the positive reinforcement learning training.The fuel consumption value，SOC variation curve，reward training process and power source torque are used to verify the accuracy of the weight value and its advantage in terms of fuel saving ca

9、pability.In summary，the algorithm has improved the fuel saving effect by 5%10%.Keywords：hybrid electric vehicle；maximum entropy reverse reinforcement learning；energy management strategy；positive reinforcement learning doi：10.19562/j.chinasae.qcgc.2023.10.016*国家重点研发计划项目（2021YFB2500704）资助。原稿收到日期为 2023

10、年 03 月 26 日，修改稿收到日期为 2023 年 05 月 12 日。通信作者：肖峰，副教授，博士，E-mail：。2023（Vol.45）No.10齐春阳，等：基于逆强化学习的混合动力汽车能量管理策略研究前言混合动力汽车的主要目标是提高动力系统的效率和降低燃料消耗。在给定动力系统配置的情况下，影响混合动力汽车油耗的最重要因素是发动机和电气系统之间的功率分配比。能量管理策略（energy management strategy，EMS）是混合动力汽车的关键技术之一，需要在满足电力需求的约束下协调发动机和电气系统之间的功率分配。对于同一车型，同一行驶周期，不同能量管理策略对应的油耗相差2

11、0%1。因此，研究混合动力汽车的能量管理策略具有重要意义。在混合动力汽车能量管理策略的研究过程中，研究者将大部分的控制策略主要分为3类：（1）基于规则；（2）基于优化；（3）基于学习。其中，基于规则又可以分为确定性规则和模糊性规则；基于优化可以分为全局优化和瞬时优化。基于规则的能量管理策略需要制定控制规则来确定不同驱动模式下的能源分布情况2。基于规则的方法优点在于，规则制度很容易开发，并且可以应用在实施控制系统中。但是规则的开发非常需要经验丰富的专家工程师的知识。与基于规则的能量管理策略相比，全局优化算法调整的参数优于确定性规则。近几年，基于学习的方法越来越受到研究者们的关注。其中，强化学习方

12、法能够解决与实时优化方法相关的任务得到了大家的青睐。强化学习智能体根据累计的奖励能够在不同状态下采取适应的行动。重庆理工大学的庞玉涵3提出了一种分层机构的强化学习方法，为能量管理策略提供了新思路。北京理工大学的刘腾4从强化学习算法出发，探索了以强化学习为基础的能量管理策略在最优性、自适应性和学习能力下的优化，并将强化学习算法深入到实时优化过程中，为实时性的强化学习算法提供了思路。重庆大学的唐小林等5提出一种基于深度值网络算法的能量管理策略，实现深度强化学习对发动机与机械式无级变速器的多目标协同控制。Li等6提出了一种利用优先级经验重放机制改进DQN（deep Q-network）模型。Chao

13、ui等7提出了一种基于强化学习的方法，用于平衡具有多个电池的电动汽车电池的荷电状态，该方法可以延长电池寿命并减少电池的频繁维护。另外，强化学习状态之间有很强的相关性，会不同程度影响学习效果。Liu 等8将基于 GPS 得到的行程信息与强化学习算法结合，在状态变量中加入剩余行驶里程，仿真结果显示取得了良好的优化效果。Liu等9提出一种应用数据来驱动的算法，并且成功用于能量管理策略中，实现了良好的节油性能。在基于强化学习的能量管理策略中，强化学习奖励函数设定的问题经常会被忽略。奖励函数通常是主观的和经验的，它不容易客观地描述专家的意图，也不能保证给定的奖励函数会导致最优的驾驶策略。在混合动力能量管

14、理控制策略问题中，奖励函数的不同直接会导致训练方向的改变。直观地说，电池与发动机的参数决定训练的方向是发动机最优油耗还是电池的最优状态，奖励函数的设定掺杂了过多的人为因素。深度强化学习是智能体与环境的不断交互学习的结果，通过不断交互、不断更新策略来最大化累计奖励值。奖励值作为智能体更新策略的关键，设计奖励值时更需要具有客观理论依据，奖励函数的设计关乎到整个训练网络的方向。针对以上问题，本文提出了一种逆强化学习方法，通过反向推导权重参数并校准正向强化学习算法来优化能量管理。逆强化学习算法的目标是构造一个关于状态的奖励函数的特征向量，并通过收集合理的专家呈现轨迹来学习最优奖励函数的权重向量。这种方

15、法能够描述专家策略，克服经验设计的随机性质。1混合动力汽车系统方案混合动力汽车的结构可以理解为能量通路与控制端口之间的连接关系，它也是一个较为复杂的系统，而且具有很强的非线性特性。混合动力汽车的系统具有多变性，它是将多个非线性系统耦合而成的，建立非常精确的数学模型是极其困难的，所以更加需要统一的建模方法。在混合动力汽车构型研发中，较为基本的方法是基于模型的方法。本文中针对某款混联混合动力汽车展开研究，车型的结构如图1所示。行星齿轮机构与驱动电机平行布置，行星齿轮机构行星架通过减振器连接至发动机端，太阳轮连接到发电机MG1，齿圈通过齿轮连接到MG2和输出轴。此外，发动机与减振器之间有一个单向离合

16、器，即便发动机反转时也能及时自锁。当进行能量管理的模拟仿真时，需要依托仿真软件构建整车的动力学模型，还需要从整车各个部件的建模入手分别建模，主要包括电机模型、发动机模型、电池模型、变速器模型、车轮模型、驾驶员模型等，相关部 1955汽车工程2023 年（第 45 卷）第 10 期件的基本参数如表1所示。2逆向强化学习方法奖励函数参数匹配2.1基于强化学习方法的管理策略参数分析在很多基于强化学习的能量管理策略当中，奖励函数的优化准则为在SOC值变化范围相同下，燃油消耗尽可能的低，尽可能延长电池寿命，发动机工作在最优燃油区间。对于强化学习奖励函数还存在实验性的调参，奖励函数的构造通常具备主观经验性

17、，不容易客观地描述专家意图，从而不能保证在给定奖励函数下智能体能学习出最优的驾驶策略。以下，列举了很多优秀的强化学习能量管理策略方法中奖励函数的设定10-23。r=-m f-(SOC)2（1）r=fuel(t)+elec(t)+SOCref-SOC（2）r=-mf(t)+SOC(t)-SOC(t0)（3）r(s，a)=-frate(s，a)+SOC2（4）r=-fuel(t)+SOCref-SOC(t)2（5）r=-frate(s，a)+SOC2（6）r=-fuel(t)+(SOC)2（7）r=fuel(s，a)+SOC2（8）r=-f(SOC(t)m fuel(st，at)（9）r=-(m

18、fuel，ICE+m fuel，)dt+1（10）r=-tt+T(m fuel()+e2SOC()d+1（11）r=f(fuel(t)，SOC(t)|SOC0.3，0.8)（12）r=-(m dotfuel+()SOC-SOCref2)，SOC 1000 r/min（31）图3逆向强化学习奖励函数权重确定表2逆向强化学习获得奖励参数伪代码算法：逆向强化学习参数标定输入：发动机最优工作点与SOC最优变化范围输出：强化学习多智能体奖励函数参数值1.初始化奖励函数权重，发动机智能体，电池智能体2.计算专家期望3.计算 Ds：循环：Zai，j=kP()sk|si，ai，jexp(r(si)ZskZsi

19、=ai，jZai，j+si SterminalPolicy=Zai，j/ZsiDs=siai，jP(si=sinitial)PolicyP()sk|si，ai，j4.通过梯度更新奖励函数权重：t+1=t+(f-s SDsfs)5.构造奖励函数并将其输入到正强化学习环境中图4电池最佳工作状态图5正则化后的加权系数 1959汽车工程2023 年（第 45 卷）第 10 期式中：Enginerweight代表发动机代理的加权系数；Batteryreweight代表电池代理的加权系数。3.2正向强化学习利用上节中得到的奖励函数参数值，本节从油耗值、SOC变化值以及动力源转矩变化3种典型特征验证该权重值

20、的优越性。将车辆的初始状态设置为：油箱处于最大储油容量的状态和初始SOC值为0.65。本文的训练工况是 CLTC，IM240、FTP75、WVUINTER 和 JN1015。图 6 显示了新建的行驶工况，并将其作为本文的测试工况，表3显示了在终值SOC大致相同的情况下，5个典型驾驶周期和新建工况中强化学习算法和具有更新的权重系数的强化学习算法之间的比较。其中对比值表示逆向强化学习算法对应强化学习基础算法的油耗值减少率。为了更加直观地显示燃油消耗，图7显示出5种典型工况的发动机油耗直方图，并且使用逆向强化学习权重值作为训练方向，从结果看出油耗明显低于其他两种算法。Q学习（Q-learning）算

21、法是提出时间很早的一种异策略的时序差分学习方法；DQN 则是利用神经网络对 Q-learning 中的值函数进行近似，并针对实际问题作出改进的方法；而 DDPG（deep deterministic policy gradient）则可以视为 DQN（deep Q-network）对连续型动作预测的一个扩展。DQN与DDPG都是强化学习的经典算法，本文以这两个算法为基准进行对比。DQN-IRL（deep Q-network-inverse reinforcement learning）表示拥有逆向参数的 DQN 算法，DDPG-IRL（deep deterministic 图6新建工况图表3燃

22、油消耗值对比行驶工况CLTCIM240FTP75WVU-INTERJN1015新建工况方法DQNDDPGDQN-IRLDDPG-IRLDQNDDPGDQN-IRLDDPG-IRLDQNDDPGDQN-IRLDDPG-IRLDQNDDPGDQN-IRLDDPG-IRLDQNDDPGDQN-IRLDDPG-IRLDQNDDPGDQN-IRLDDPG-IRL100 km油耗值（L）/SOC终值4.25/0.5104.36/0.4984.15/0.5054.11/0.5124.03/0.5044.12/0.4963.83/0.5113.78/0.4914.26/0.5054.12/0.5034.08/

23、0.5043.95/0.4984.07/0.5013.98/0.5063.82/0.5073.75/0.5063.85/0.4983.94/0.5033.62/0.5043.59/0.5103.98/0.5014.06/0.5033.81/0.5103.71/0.506对比值2.35%3.21%4.96%8.25%4.23%4.13%6.14%5.78%5.97%8.88%4.27%8.62%图7发动机油耗直方图 19602023（Vol.45）No.10齐春阳，等：基于逆强化学习的混合动力汽车能量管理策略研究policy gradient-inverse reinforcement lear

24、ning）表示拥有逆向参数的DDPG算法。图8显示了5种训练工况的奖励值变化，工况1到工况 5分别是 CLTC、IM240、FTP75、WVUINTER、JN1015。从图中可以看出各个算法都朝着最大奖励值的方向稳步推进，最终达到平滑。另外，图9揭示了在测试工况下，DQN、DQN-IRL、DDPG、DDPG-IRL的SOC值变化曲线，可以看出所有4种算法都处于较低的内阻和较高的电池效率区间，从而也证实了强化学习算法在解决能量管理问题方面的优越性。虚线代表IRL算法，与另外两种经典算法对比，SOC值的波动较小，在同等使用时间下，电池的使用寿命会更长。图10和图11分别显示了以DQN算法为例拥有逆

25、向参数前后的发动机转矩、MG1转矩、MG2转矩变化，可见添加逆向强化学习参数后，发动机起停次数减少，MG1与MG2转矩变化平稳。图8奖励价值趋势图图94种算法的SOC变化曲线图10DQN算法发动机转矩、MG1转矩、MG2转矩对比图11DDPG算法下发动机转矩、MG1转矩、MG2转矩对比 1961汽车工程2023 年（第 45 卷）第 10 期4硬件在环实验验证4.1硬件在环实验台搭建为了评估本文所提出的能量管理策略的实际应用潜力，实施并分析了硬件在环实验。如图 12 所示，实验系统由混合动力模型、驾驶员操作系统、虚拟场景系统、传感器系统、ubuntu RT系统和车辆控制单元组成。虚拟场景系统为

26、驾驶员提供了真实的驾驶环境，使其接近真实的驾驶体验，还可以通过数据交互为驾驶员提供丰富的交通环境信息、道路信息和地理位置信息，以支持交通能量管理策略的研究和测试。在虚拟场景系统中，道路信息和地理位置信息是非常重要的。通过这些信息，驾驶员可以了解自己当前所处的位置和行驶方向，以及周围的道路状况、车流量等信息。此外，交通环境信息也非常重要，例如交通信号灯、车辆速度、行驶方向等信息，这些信息可以为驾驶员提供实时的交通情况，帮助其做出正确的驾驶决策。数据交互也是虚拟场景系统的一个重要特点。通过数据交互，虚拟场景系统可以与其他系统进行信息交换，例如车辆控制系统、交通信号控制系统等，以实现交通能量管理策略

27、的研究和测试。同时，数据交互还可以支持多车协同驾驶和交通模拟等功能，增强虚拟场景系统的实用性和可扩展性。车辆控制系统的主要作用是实施所提出的策略并将控制参数输出到执行。驾驶员的操作信息全部反馈给转向系统，而车速状态信息和机电系统的状态由实时仿真系统提供。集成系统如图13所示。本文的硬件在环平台是课题组自研的硬件设备，其中，下位机是 ubuntu RT系统，上位机是自研的场景系统。ubuntu RT系统采用的是amd Ryzen5 处理器，6700XT显卡。在图13中，将数据检测系统与驾驶员操作系统相结合，驾驶员操作系统显示在驾驶员下方。基于现有配置和技术条件，利用CAN通信技术实现数据交互，实

28、时获取转向盘角度、加速度和制动踏板数据。然后将数据输入车辆控制单元（VCU）。4.2硬件在环数据结果分析为了进一步验证本文逆向强化学习能量管理策略，本节在4.1节构建的硬件在环设备基础之上进行验证实验。图14表示在该硬件在环设备上运行的一段实际工况，表4显示了原始的DQN/DDPG算法与本文算法在HIL硬件在环测试下的油耗对比结果，在初始SOC值与终止SOC值变化大致的前提下，可以看出具有本文权重值的强化学习算法油耗值较低。表4仿真数据与HIL数据在燃油消耗方面的对比行驶工况运行工况方法DQNDDPGDQN-IRLDDPG-IRL100 km油耗值（L）/SOC终值4.62/0.4894.71

29、/0.4824.32/0.5054.26/0.495对比值6.49%9.55%图12硬件在环实验系统构成图13集成系统和驾驶员操作系统图14硬件在环场景中运行的工况 19622023（Vol.45）No.10齐春阳，等：基于逆强化学习的混合动力汽车能量管理策略研究图15和图16显示了电池SOC值在仿真测试与HIL测试中的变化范围，黑线表示在离线仿真情况下的电池 SOC 变化，红色线表示在 HIL 下的电池SOC值变化。从图中可以看出在实时策略下，两种策略都可以保持良好的电量范围，电池的性能和状态也在较佳的状态，电池性能正常，可以提高整体的生态驾驶策略的可靠性和稳定性，确保系统顺畅运行。图17与

30、图18分别显示了DQN算法和DDPG算法与 DQN-IRL 算法和 DDPG-IRL 算法在该硬件在环环境下的发动机转矩、发电机MG1转矩、电动机MG2转矩的变化对比图。蓝色线代表发动机转矩，橙色线代表MG1转矩，灰色线代表MG2转矩。从图中可以看出，具有逆向强化学习参数的算法发动机转矩优化明显，减少了发动机起停。5结论本文对混合动力汽车能量管理策略的奖励值函数展开研究。强化学习的智能体与环境交互的引导方向是由奖励函数决定的。然而，目前的奖励功能设计仍然存在缺陷。逆向强化学习是一种从演示中学习的特殊形式，它试图从提供的例子中估计马尔可夫决策过程的奖励函数。奖励函数通常被认为是对任务最简洁的描述

31、。在简单的应用中，奖励函数可能是已知的，或从系统的性质中很容易推导出来，并应用到学习过程中。在大多数强化学习能量管理策略中，奖励函数的设计具有主观性和经验性，很难图15HIL下DQN算法的SOC值变化图16HIL下DDPG算法的SOC值变化图17HIL下DQN与DQN-IRL转矩对比图18HIL下DDPG与DDPG-IRL转矩对比 1963汽车工程2023 年（第 45 卷）第 10 期客观地描述专家的意图，发动机和电池之间的权衡不可避免地存在主观因素。但是，在给定的奖励函数下，该条件不能保证智能体学习到最优驾驶策略。另外，混合动力汽车环境下的强化学习任务过于复杂，而人为设计的奖励函数过于困难

32、且高度主观和经验。奖励函数设置的不同会导致最优策略的不同。如果没有适当的奖励，强化学习算法很难收敛。针对这些问题，本文提出了一种基于逆向强化学习的能量管理策略，获取专家轨迹下的奖励函数权值，并用于指导发动机智能体和电池智能体的行为。该方法的主要过程是利用逆强化学习得到的权重系数对奖励函数进行修正，并根据最新的奖励函数输入正向强化学习任务。最后，将修正后的权值重新输入到正向强化学习训练中。从油耗值、SOC变化曲线、奖励训练过程以及动力源转矩等方面，表明该算法具有一定的优势。本文的主要成果总结如下：（1）从电池荷电状态的变化值来看，荷电状态的变化区间处于电池效率高、内阻低的区域，燃油消耗处于较低水

33、平；（2）逆向强化学习获取的奖励参数结果是分段式的；（3）在强化学习训练过程中，奖励值稳步向最大方向前进，最终达到平稳状态，训练有效。参考文献 1 MAHAPATRA S，EGEL T，HASSAN R，et al.Model based design for hybrid electric vehicle systems J.Sensors，2020，20.2 李顶根，严索，邱君诚，等.基于规则控制的PHHV能量管理策略研究 J.汽车工程学报，2014，4（2）：116-124.LI D G，YAN S，QIU J C，et al.Rule-based power management st

34、rategy for parallel hydraulic hybrid vehicle J.Chinese Journal of Automotive Engineering，2014，4（2）：116-124.3 庞玉涵.基于分层强化学习的混合动力汽车能量管理策略研究 D.重庆：重庆理工大学，2022.PANG Y H.Research on energy management strategy of hybrid electric vehicle based on hierarchical reinforcement learning D.Chongqing：Chongqing Univ

35、ersity of Technoligy，2022.4 刘腾.混合动力车辆强化学习能量管理研究 D.北京：北京理工大学，2017.LIU T.Reinforcement learning-based energy management for hybrid electric vehicles D.Beijing：Beijing Institute of Technology，2017.5 唐小林，陈佳信，刘腾，等.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究 J.机械工程学报，2021，57（22）：237-246.TANG X L，CHEN J X，LIU T，et al.R

36、esearch on deep reinforcement learning-based intelligent car-following control and energy management strategy for hybrid electric vehicles J.Journal of Mechanical Engineering，2021，57（22）：237-246.6 LI Y，HE H，PENG J，et al.Energy management strategy for a series hybrid electric vehicle using improved d

37、eep Q-network learning algorithm with prioritized replayC.DEStech Transactions on Environment Energy and Earth Science，2019（ICEEE）.7 CHAOUI H，GUALOUS H，BOULON L，et al.Deep reinforcement learning energy management system for multiple battery based electric vehiclesC.IEEE Vehicle Power&Propulsion Conf

38、erence，2018.8 LIU C，YI L M.Power management for plug-in hybrid electric vehicles using reinforcement learning with trip informationC.Transportation Electrification Conference&Expo，2014.9 LIU T，HU X，LI S E，et al.Reinforcement learning optimized look-ahead energy management of a parallel hybrid electr

39、ic vehicle J.IEEE Asme Transactions on Mechatronics，2017.10 YANG N，HAN L，XIANG C，et al.Energy management for a hybrid electric vehicle based on blended reinforcement learning with backward focusing and prioritized sweeping J.IEEE Transactions on Vehicular Technology，2021，PP（99）.11 LIAN R，TAN H，PENG

40、J，et al.Cross-type transfer for deep reinforcement learning based hybrid electric vehicle energy management J.IEEE Transactions on Vehicular Technology，2020，69（8）：8367-8380.12 QI Chunyang，ZHU Yiwen，SONG Chuanxue，et al.Hierarchical reinforcement learning based energy management strategy for hybrid el

41、ectric vehicle J.Energy，2022，238.13 DU G，ZOU Y，ZHANG X，et al.Heuristic energy management strategy of hybrid electric vehicle based on deep reinforcement learning with accelerated gradient optimization J.IEEE Transactions on Transportation Electrification，2021，7（4）.14 LIAN R，PENG J，WU Y，et al.Rule-in

42、terposing deep reinforcement learning based energy management strategy for power-split hybrid electric vehicle J.Energy，2020，197：117297.15 HE D，ZOU Y，WU J，et al.Deep Q-learning based energy management strategy for a series hybrid electric tracked vehicle and its adaptability validationC.IEEE Transpo

43、rtation Electrification Conference&Expo，2019.16 GUO X.Transfer deep reinforcement learning-enabled energy management strategy for hybrid tracked vehicleJ.IEEE Access，2020，8：165837-165848.17 DU G，ZOU Y，ZHANG X，et al.Intelligent energy management for hybrid electric tracked vehicles using online reinf

44、orcement learning J.Applied Energy，2019，251.18 LIN X，ZHOU K，MO L，et al.Intelligent energy management strategy based on an improved reinforcement learning algorithm with exploration factor for a plug-in PHEVJ.IEEE Transactions on Intelligent Transportation Systems，2021，PP（99）：1-11.19 XU B，HOU J，SHI J

45、，et al.Learning time reduction using warm-start methods for a reinforcement learning-based supervisory control in hybrid electric vehicle applications C.IEEE，2021.（下转第1974页）1964汽车工程2023 年（第 45 卷）第 10 期computer model to predict aortic rupture due to impact loadingJ.Stapp Car Crash Journal，2001，45（45）

46、：161-182.15 杨洁.基于THUMS的东西方5百分位女性碰撞响应差异分析D.北京：清华大学，2016.YANG J.Study of differences of dynamic responses between eastern and western 5th percentile female based on THUMS D.Beijing：Tsinghua University，2016.16 DAVIS M L，KOYA B，SCHAP J M，et al.Development and full body validation of a 5th percentile fem

47、ale finite element modelJ.Stapp Car Crash Journal，2016，60：509-544.17 PAK W，MENG Y，SCHAP J，et al.Development and validation of a finite element model of a small female pedestrian J.Computer Methods in Biomechanics and Biomedical Engineering，2020，23（16）：1336-1346.18 阮世捷，李超，崔世海，等.颅骨厚度对颅内生物力学响应的影响 J.医用生

48、物力学，2021，36（4）：560-567.RUAN S J，LI C，CUI S H，et al.The influence of skull thickness on intracranial biomechanical response J.Journal of Biomechanics，2021，36（4）：560-567.19 李海岩，孙孝海，贺丽娟，等.具有详实解剖学结构的国人第5百分位女性胸腹部有限元模型开发及验证 J.医用生物力学，2022，37（1）：91-97.LI H Y，SUN X H，HE L J，et al.Development and validation f

49、or thoracic-abdominal finite element model of Chinese 5th percentile female with detailed anatomical structure J.Journal of Medical Biomechanics，2022，37（1）：91-97.20 李广明.汽车碰撞中颈椎姿态对其损伤影响研究 D.天津：天津科技大学，2021LI G M.Study on the effect of cervical spine posture on neck injury from automobile collisionD.Ti

50、anjin：Tianjin University of Science and Technology，2016.21 KIMPARA H，LEE J B，YANG K H，et al.Development of a three-dimensional finite element chest model for the 5th percentile female J.Stapp Car Crash Journal，2005，49：251-269.22 KROELL C K，SCHNEIDER D C，NAHUM A M，et al.Impact tolerance and response

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于强化学习混合动力汽车能量管理策略研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。