首页> 中国专利> 一种基于分层回报TD3的HEV能量管理方法及系统

一种基于分层回报TD3的HEV能量管理方法及系统

摘要

本发明属于混合动力车辆能量管理技术领域,公开了一种基于分层回报TD3的HEV能量管理方法及系统。本发明结合并联式混合动力车辆模型选取HEV能量管理策略的状态空间信号和动作空间信号,并采用分层回报结构,分层回报结构包括两种回报函数,共计四个调节层,可以根据车辆的不同行驶状态针对性调整控制策略,减少不必要的重复探索行为,提高能量管理策略整体性能。

著录项

  • 公开/公告号CN114852043A

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 武汉理工大学;

    申请/专利号CN202210298825.0

  • 发明设计人 颜伏伍;王金海;杜常清;彭辅明;

    申请日2022-03-23

  • 分类号B60W20/11(2016.01);B60W20/15(2016.01);B60W50/00(2006.01);B60W50/06(2006.01);

  • 代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222;

  • 代理人胡琦旖

  • 地址 430070 湖北省武汉市洪山区珞狮路122号

  • 入库时间 2023-06-19 16:16:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-23

    实质审查的生效 IPC(主分类):B60W20/11 专利申请号:2022102988250 申请日:20220323

    实质审查的生效

  • 2022-08-05

    公开

    发明专利申请公布

说明书

技术领域

本发明属于混合动力车辆能量管理技术领域,更具体地,涉及一种基于分层回报TD3的HEV能量管理方法及系统。

背景技术

在所有环境友好型车辆中,混合动力汽车(HEV)与纯电动汽车相比,享有更长的行驶距离,与传统燃油汽车相比,燃料消耗更低,对环境更加友好。然而,混合动力汽车能量管理系统远比传统燃油汽车和纯电动汽车复杂。因此,混合动力车辆的能量管理策略(EnergyManagement Strategy,EMS)已经成为汽车领域的研究热点。

现有的混合动力车辆能量管理策略可以分为三个主要类别:基于规则的策略、基于优化的策略和基于学习的策略。虽然基于规则的能量管理策略容易实现,但是难以为非常复杂的工况制定合理的规则。基于优化的能量管理策略包括全局优化策略和实时优化策略。典型的全局优化策略算法计算成本高,通常在离线状态下进行,经常作为评估其他在线EMS有效性的基准。实时优化策略如庞特里亚金最小原则的优化效率很好,但共同状态(co-state)难以获得,计算量相对较大。实时优化策略如等效燃油消耗最小化策略具有良好的实时特性,但用于计算等效油耗的历史道路信息往往不能够代表未来的驾驶条件,导致算法的鲁棒性差。实时优化策略如模型预测控制成功的关键是快速预测和快速优化策略,需要提前预测路况,这在很大程度上依赖性能优越的模型。基于强化学习算法Q-learning的能量管理策略与传统的基于规则的策略相比,它可以极大地提高车辆的燃油经济性能,但存在“维度灾难”问题。深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)策略虽然可以在具有连续或离散状态空间和连续动作空间的环境中训练,但存在对价值函数过度估计导致增量偏差和次最优策略的问题。双延迟深度确定性策略梯度(TwinDelayed Deep Deterministic Policy Gradient,TD3)策略虽然能够弥补DDPG策略过度估计的问题,但现有的基于TD3的能量管理方法无法根据车辆的不同行驶状态针对性地调整控制策略,能量管理策略整体性能有待进一步提高。

发明内容

本发明通过提供一种基于分层回报TD3的HEV能量管理方法及系统,解决现有技术中基于TD3的能量管理方案无法根据车辆的不同行驶状态针对性地调整控制策略的问题。

本发明提供一种基于分层回报TD3的HEV能量管理方法,包括以下步骤:

建立并联式混合动力车辆模型;

结合所述并联式混合动力车辆模型,选取HEV能量管理策略的状态空间信号和动作空间信号;

结合所述并联式混合动力车辆模型,构建分层回报函数;所述分层回报函数包括第一回报函数和第二回报函数,根据激活条件激活所述第一回报函数或所述第二回报函数,且所述第一回报函数和所述第二回报函数均根据电池荷电状态的范围分别划分为两个不同的调节层;

基于所述状态空间信号、所述动作空间信号和所述分层回报函数,构建基于分层回报TD3的HEV能量管理学习网络;

训练所述基于分层回报TD3的HEV能量管理学习网络,通过训练好的基于分层回报TD3的HEV能量管理学习网络执行能量管理策略。

优选的,所述并联式混合动力车辆模型中车辆的工作模式包括纯电动模式、空挡模式和并联模式。

优选的,所述状态空间信号为S=(v,SOC,m

优选的,所述分层回报函数的激活方式为:对离合器状态进行判断,若离合器断开则激活所述第一回报函数,若离合器闭合则对瞬时车速进行判断;若瞬时车速为零则激活所述第一回报函数,若瞬时车速不为零则激活所述第二回报函数;

所述第一回报函数R

所述第二回报函数R

其中,第一调节层L1对应SOC(t)>0.8或者SOC(t)<0.3;第二调节层L2对应0.3≤SOC(t)≤0.8;m

优选的,获取车辆标准工况仿真行驶中影响能量管理的参数和观测值,基于标准工况下的参数和观测值对所述基于分层回报TD3的HEV能量管理学习网络进行训练。

优选的,得到训练好的基于分层回报TD3的HEV能量管理学习网络后,还包括:获取车辆实际行驶中影响能量管理的参数和观测值,基于实际行驶下的参数和观测值对训练好的基于分层回报TD3的HEV能量管理学习网络进行验证,通过训练好并验证后的基于分层回报TD3的HEV能量管理学习网络执行能量管理策略。

另一方面,本发明提供一种基于分层回报TD3的HEV能量管理系统,包括:处理器和存储器;所述存储器存储有控制程序,所述控制程序被所述处理器执行时用于实现上述的基于分层回报TD3的HEV能量管理方法。

本发明中提供的一个或多个技术方案,至少具有如下技术效果或优点:

在本发明中,结合并联式混合动力车辆模型选取HEV能量管理策略的状态空间信号和动作空间信号,并采用分层回报结构,分层回报结构包括两种回报函数,共计四个调节层,可以根据车辆的不同行驶状态针对性调整控制策略,减少不必要的重复探索行为,提高能量管理策略整体性能。即本发明使用分层回报双延迟深度确定性策略梯度算法,不仅解决离散动作空间深度强化学习能量管理策略维度灾难问题和深度确定性策略梯度过估计问题,而且由于具有四个调节层的分层回报结构可以根据工况和车辆运行模式的不同针对性地调整控制策略,能够提高能量管理策略的最优性。

附图说明

图1为本发明实施例1提供的一种基于分层回报TD3的HEV能量管理方法对应的混合动力车辆示意图;

图2为本发明实施例1提供的一种基于分层回报TD3的HEV能量管理方法中的分层回报结构示意图;

图3为本发明实施例1提供的一种基于分层回报TD3的HEV能量管理方法中的深度强化学习TD3代理基本架构图;

图4为标准工况速度变化曲线;

图5为实际道路速度变化曲线。

具体实施方式

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例1:

实施例1提供了一种基于分层回报TD3的HEV能量管理方法,包括以下步骤:

步骤1:建立并联式混合动力车辆模型。

具体可通过MATLAB/Simulink建立并联式混合动力车辆模型。

建立的并联式混合动力车辆模型中,发动机和电机以并联的形式连接,并且发动机可以通过离合器实现与车轮的结合或者分离。车辆主要在纯电动模式、空挡模式以及并联模式下运行。以上三种车辆工作模式取决于离合器的状态和挡位,其结构图如图1所示。

车辆动力系统必须提供车辆行驶所需要的牵引力,可以由汽车动力学方程计算得出,所述汽车动力学方程如公式(1)所示:

其中,F

步骤2:结合并联式混合动力车辆模型,选取HEV能量管理策略的状态空间信号和动作空间信号。

混合动力车辆能量管理策略旨在减少燃油消耗并保持电池SOC在合理的区间内。根据控制目标选取HEV能量管理策略的状态空间信号为S=(v,SOC,m

步骤3:设计分层回报结构并制定回报函数。

分层回报结构对于TD3能量管理策略非常重要。一个精心设计的回报结构不仅可以充分利用环境反馈的信息,而且还可以减少不必要的重复探索行为,使代理能够更快、更深入地与环境互动,加快学习过程,提高能量管理策略整体性能。

本发明结合所述并联式混合动力车辆模型,构建分层回报函数;所述分层回报函数包括第一回报函数和第二回报函数,根据激活条件激活所述第一回报函数或所述第二回报函数,且所述第一回报函数和所述第二回报函数均根据电池荷电状态的范围分别划分为两个不同的调节层。

具体的,正如在步骤1中所述,车辆主要工作在纯电动模式、空挡模式以及并联模式。当车辆运行在纯电动模式或者空挡模式时,车辆的发动机熄火(电动模式)或者虽然发动机通过离合器与车轮相连,但是可以任意改变转速(空挡模式),车辆的主要能量消耗在于电池,因此我们设计一个基于电池SOC的回报函数R

具体的,参见图2,所述分层回报函数的激活方式为:对离合器状态进行判断,若离合器断开则激活第一回报函数,若离合器闭合则对瞬时车速进行判断;若瞬时车速为零则激活第一回报函数,若瞬时车速不为零则激活第二回报函数。

所述第一回报函数R

所述第二回报函数R

其中,第一调节层L1对应SOC(t)>0.8或者SOC(t)<0.3;第二调节层L2对应0.3≤SOC(t)≤0.8;m

即本发明创新性地设计合理而且高效的分层回报结构,分层回报TD3的HEV能量管理策略会根据接收到的状态信号S做出能够最大化回报函数R的动作A,控制车辆节能,稳定且高效地行驶。

步骤4:基于状态空间信号、动作空间信号和分层回报函数,构建基于分层回报TD3的HEV能量管理学习网络。

利用深度神经网络的原理分别搭建Critic网络和Actor网络,共同构建双延迟深度确定性策略梯度策略的基本网络框架即Actor-Critic网络,深度强化学习TD3代理基本架构图如图3所示,以构建基于分层回报TD3的HEV能量管理学习网络,并对所述Actor-Critic网络参数进行初始化和状态数据归一化处理。分层回报TD3的HEV能量管理策略具体实施细节如表1所示。

表1分层回报TD3算法执行步骤

步骤5:获取车辆标准工况仿真行驶中影响能量管理的参数和观测值,基于标准工况下的参数和观测值对基于分层回报TD3的HEV能量管理学习网络进行训练。

即获取汽车标准工况仿真行驶中影响能量管理的参数和观测值,结合分层回报TD3的HEV能量管理策略目标训练学习网络,获得训练后的深度强化学习代理。

可以使用三种典型的标准工况对学习网络进行训练,但不限于此。三种工况的速度参数如图4所示,每个工况的特点如表2所示。

表1标准工况特点

步骤6:获取车辆实际行驶中影响能量管理的参数和观测值,基于实际行驶下的参数和观测值对训练好的基于分层回报TD3的HEV能量管理学习网络进行验证,通过训练好并验证后的基于分层回报TD3的HEV能量管理学习网络执行能量管理策略。

例如,采集真实车辆在武汉市区行驶数据,制作实际道路工况,导入到驾驶员模型,对已经训练好的分层回报TD3能量管理策略进行验证,测试该能量管理策略的优化性能,实际道路速度参数如图5所示。

实施例2:

实施例2提供了一种基于分层回报TD3的HEV能量管理系统,包括:处理器和存储器;所述存储器存储有控制程序,所述控制程序被所述处理器执行时用于实现如实施例1所述的基于分层回报TD3的HEV能量管理方法。

本发明实施例提供的一种基于分层回报TD3的HEV能量管理方法及系统至少包括如下技术效果:

(1)本发明精确设计分层回报结构,该结构有两种回报函数,共计四个调节层,可以根据车辆的不同行驶状态针对性调整控制策略,减少不必要的重复探索行为,既保证了回报函数针对不同行驶模式的全面调节,又避免了车载运算资源浪费,使代理能够更快、更深入地与环境互动,加快深度强化学习智能体的学习速度并且能够使提高能量管理策略整体性能。

(2)本发明不仅采集能耗指标m

(3)本发明采用分层回报双延迟深度确定性策略梯度能量管理策略,不仅能够弥补离散动作空间深度强化学习能量管理策略维度灾难的问题,而且能够解决深度确定性策略梯度过估计,训练不稳定的问题。

最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号