公开/公告号CN114969982A
专利类型发明专利
公开/公告日2022-08-30
原文格式PDF
申请/专利权人 南京航空航天大学;
申请/专利号CN202210671055.X
申请日2022-06-14
分类号G06F30/15(2020.01);G06F30/27(2020.01);G06N3/04(2006.01);G06N3/08(2006.01);B60W50/00(2006.01);G06F119/06(2020.01);
代理机构江苏圣典律师事务所 32237;
代理人周宁
地址 210007 江苏省南京市秦淮区御道街29号
入库时间 2023-06-19 16:33:23
法律状态公告日
法律状态信息
法律状态
2022-09-16
实质审查的生效 IPC(主分类):G06F30/15 专利申请号:202210671055X 申请日:20220614
实质审查的生效
技术领域
本发明属于燃料电池混合动力能量管理领域,尤其涉及一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法。
背景技术
随着化石燃料的消耗与CO
混合动力车辆能量管理算法主要可以分为基于规则的策略、基于优化的策略和基于学习的策略三个大类。基于规则的策略计算量小,在工程实践中应用广泛,但其过于依赖工程师经验,且对不同驾驶工况和车型的可移植性差;基于优化的策略可分为全局优化和实时优化,前者不适合应用在实时控制的场景,后者仍依赖于未来工况信息等先验知识和参数的调节,且易于陷入局部最优。
目前深度强化学习在燃料电池能量管理方面是一种较有潜力的机器学习方法,然而现有技术中的方法存在一些缺点。这类能量管理策略研究基本集中于对某一特定车型的特定目标的案例研究,难以适应其它车型,同时所需训练时间较长,所以为了加速混合动力汽车能量管理策略的开发,提高训练效率,减少成本,能量管理策略的可移植性对车企具有重要意义。
发明内容
本发明提供了一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法,通过策略迁移方法有效利用其他车型车辆的能量管理策略,加速车辆能量管理策略的开发速度,而且可以提升汽车燃油经济性和在不同工况下的泛化性能。
为了实现以上目的,本发明采用以下技术方案:
一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法,包括以下步骤:
步骤1:模拟实际开发情况,建立两种显著不同的燃料电池汽车模型;
步骤2:建立基于策略迁移的DDPG代理模型,设置DDPG代理模型的状态、动作和奖励,得到设置后的DDPG代理模型;
步骤3:针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略;
步骤4:迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型;
步骤5:利用步骤4得到的基于策略迁移的DDPG代理模型进行新车型的能量管理。
以上所述步骤中,步骤1中所述两种显著不同的燃料电池汽车模型分别为以燃料电池/电池/超级电容的物流卡车与以燃料电池/电池的b级轿车,前者作为源域,后者作为目标域,两个模型均包括汽车动力学模型、燃料电池、电机及电池,不同的是物流卡车模型多包含了超级电容。
所述汽车动力学模型如下公式所示:
其中,v为车辆的速度;f为滚动电阻系数;C
所述燃料电池模型采用Amphlett静态模型进行描述。过电位损耗由激活过电位Vact、欧姆过电位Vohm和浓度过电位Vcon三部分组成,其计算公式为:
其中ξ
所述电机模型如下公式所示:
η
其中,P
所述电池模型如下公式所示:
式中,R
所述超级电容模型如下公式所示:
其中,N为单元的个数;Q
步骤2中所述基于策略迁移的DDPG代理模型的状态量为:汽车车速v、汽车加速度acc、动力电池SOC和超级电容SOC;动作变量为燃料电池功率P
奖励函数被用于评价在当前状态下执行动作的表现性能,本发明中越小越好,为行驶成本C和SOC惩罚项之和,奖励函数如下公式所示:
其中,C为车辆行驶成本,α和β为权重因子;SOC
上述步骤中采用了一种虚拟变量的方法,以满足在迁移策略时,两种车型车辆的DDPG代理模型的状态量、动作量必须相同的条件,此方法为b级轿车的状态量、动作量增加了一个虚拟维度,并用一个定值来替代原本的超级电容SOC和动力电池功率P
步骤3针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略,具体包括以下步骤:
步骤A:初始化所述设置后的DDPG代理模型;
步骤B:将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集;
步骤C:使用训练数据集对DDPG代理模型进行训练,得到训练后的DDPG代理模型。
上述步骤A具体包括:用权重θ
上述步骤B将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集,具体包括:当前神经网络与环境进行交互,将当前状态集合s
上述步骤C使用训练数据集对DDPG代理模型进行训练,得到训练后的DDPG代理模型,具体包括以下几个步骤:
步骤①:从优先经验回放集合D中采样m个样本,并计算当前目标Q值,采用的公式为:
其中,y
步骤②:通过均方差损失函数和L2正则更新critic网络,采用的公式为:
其中,L
步骤③:使用梯度策略更新actor策略,采用的公式为:
其中,J是目标函数;θ
步骤④:为所有采样的经验重新计算TD-error δ
步骤⑤:采用平滑的方式更新目标网络参数:
其中,τ是软更新权重;θ
步骤⑥:如此重复步骤①至步骤⑤,直至达到训练要求,最后得到训练后的物流轻型卡车DDPG代理模型。
上述步骤4迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型,所述迁移源域车型策略,其具体方法为:以一部分或者全部的源域训练完成的DDPG代理模型的网络策略参数,替代目标域初始化后的网络策略参数,具体迁移的网络层数可自由调整,在此基础上进行后续部分,步骤4的后续部分与步骤3相同。
上述步骤5利用最终训练完成的DDPG代理进行新车型的能量管理,具体包括以下步骤:
第一步:通过相关传感器获取目标域汽车当前状态量集合
s
第二步:将获取的汽车当前状态量集合s
第三步:将所获得的控制量燃料电池功率P
第四步:如此重复第一步至第三步,直至汽车完成行驶任务。
以上所述的基于策略迁移的燃料电池车辆能量管理方法理论上是数据驱动和无模型的,对燃料电池混合动力系统的任何特定拓扑不敏感,可应用于各种复合电源燃料电池系统。
有益效果:本发明提供了一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法。首先,为了模拟实际开发情况,建立两种显著不同的燃料电池汽车模型,以燃料电池/电池/超级电容为动力源的物流卡车作为源域车型,以燃料电池/电池为动力源的b级轿车作为目标域车型;其次,建立基于策略迁移的DDPG代理模型,设置DDPG代理模型的状态、动作和奖励;然后,针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略;再次,迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型;最后利用最终训练完成的DDPG代理进行新车型的能量管理,以获取更好的控制效果。采用本发明的方法可以有效解决能量管理策略只针对某一特定车型的特定目标的案例研究,难以适应其它车型,且所需训练时间长的问题,可以有效利用其他车型的车辆能量管理策略,能够通过在不同类型的燃料电池汽车之间迁移数据,加速车辆能量管理策略的开发速度,提高迁移后代理模型的训练收敛速度、汽车燃油经济性、泛化性能和算法鲁棒性,而且可以提升汽车燃油经济性和在不同工况下的泛化性能。本发明基于策略迁移的燃料电池车辆能量管理方法理论上是数据驱动和无模型的,对燃料电池混合动力系统的任何特定拓扑不敏感,可应用于各种复合电源燃料电池系统。
附图说明
图1是本发明实施例中源域燃料电池汽车的结构图;
图2是本发明实施例中目标域燃料电池汽车的结构图;
图3是本发明实施例中基于策略迁移的能量管理策略设计方法流程示意图;
图4是本发明实施例中虚拟变量方法示意图;
图5是本发明实施例中未迁移DDPG和迁移策略DDPG的平均奖励随训练时间变化曲线图;
图6是本发明实施例中未迁移DDPG和迁移策略DDPG的燃油经济性对比。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明:
如图1所示,根据结构图可以看出源域燃料电池汽车(物流卡车)主要由燃料电池、电池、电机、超级电容、主减速器和能量管理系统控制器组成,燃料电池、电池和超级电容组成燃料汽车的动力源。其中燃料电池和超级电容分别通过DC/DC转换器连接到母线上。
如图2所示,根据结构图可以看出目标域燃料电池汽车(b级轿车)主要由燃料电池、电池、电机、主减速器和能量管理系统控制器组成,燃料电池和电池组成燃料汽车的动力源。其中燃料电池通过DC/DC转换器连接到母线上。目标域汽车与源域汽车结构上唯一的区别是去掉了超级电容及其连接的DC/DC转换器。因此,所述两种汽车动力学模型如下公式所示:
其中,v为车辆的速度;f为滚动电阻系数;C
所述燃料电池模型采用Amphlett静态模型进行描述,过电位损耗由激活过电位Vact、欧姆过电位Vohm和浓度过电位Vcon三部分组成,其计算公式为:
其中ξ
所述电机模型如下公式所示:
η
其中,P
所述电池模型如下公式所示:
式中,R
所述超级电容模型如下公式所示:
其中,N为单元的个数;Q
图3是本发明实施例中提供的基于策略迁移的能量管理策略设计方法流程示意图,按照流程示意图,完成对基于策略迁移的车辆能量管理结构系统的设计。
如图3所示,基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其流程包括:模拟实际开发情况,建立两种显著不同的燃料电池汽车模型;建立基于策略迁移的DDPG代理模型,设置DDPG代理模型的状态、动作和奖励,得到设置后的DDPG代理模型;针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略;迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型;利用最终训练完成的DDPG代理进行新车型的能量管理。
所述基于策略迁移的DDPG代理模型的状态量为:汽车车速v、汽车加速度acc、动力电池SOC和超级电容SOC;动作变量为燃料电池功率P
奖励函数被用于评价在当前状态下执行动作的表现性能,本发明中越小越好,为行驶成本C和SOC惩罚项之和。奖励函数如下公式所示:
其中,C为车辆行驶成本,α和β为权重因子,SOC
图4是本发明实施例中提供的虚拟变量方法示意图,用以满足在迁移策略时,两种车型车辆的DDPG代理模型的状态量、动作量必须相同的条件。上述步骤中为b级轿车的状态量、动作量增加了一个虚拟维度,并用一个定值来替代原本的超级电容SOC和动力电池功率P
如图4所示,虚拟变量方法包括Actor网络和Critic网络两个部分,其中橙色节点代表所增加的虚拟变量。新增的虚拟状态变量对应着源域中的超级电容SOC,为了使虚拟状态变量不影响agent的输出,一般将其设为0到1间的一个常量。在增加虚拟状态变量后,Actor网络将产生一个虚拟动作变量,对应源域中的电池功率,但在输出动作时并不会被用到。然后两个虚拟变量将作为Critic网络的输入节点参与q值的拟合。
针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略,具体包括以下步骤:
步骤A:初始化所述设定后的DDPG代理模型;
步骤B:将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集;
步骤C:使用训练数据集对DDPG代理模型进行训练,得到训练后的DDPG代理模型。
上述步骤A具体包括:用权重θ
上述步骤B将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集,具体包括:当前神经网络与环境进行交互,将当前状态集合s
上述步骤C使用训练数据集对DDPG代理模型进行训练,得到训练后的DDPG代理模型,具体包括以下几个步骤:
步骤①:从优先经验回放集合D中采样m个样本,并计算当前目标Q值,采用的公式为:
其中,y
Q
步骤②:通过均方差损失函数函数和L2正则更新critic网络,采用的公式为:
其中,L
L2正则损失函数;
步骤③:使用梯度策略更新actor策略,采用的公式为:
其中,J是目标函数;θ
步骤④:为所有采样的经验重新计算TD-error δ
步骤⑤:采用平滑的方式更新目标网络参数:
其中,τ是软更新权重;θ
步骤⑥:如此重复步骤①至步骤⑤,直至达到训练要求,最后得到训练后的物流轻型卡车DDPG代理模型。
上述步骤4迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型,所述迁移源域车型策略,其具体方法为,以一部分或者全部的源域训练完成的DDPG代理模型的网络策略参数,替代目标域初始化后的网络策略参数,具体迁移的网络层数可自由调整。在此基础上进行后续部分,步骤4的后续部分与步骤3相同。
上述步骤5利用最终训练完成的DDPG代理进行新车型的能量管理,具体包括以下步骤:
第一步:通过相关传感器获取目标域汽车当前状态量集合s
第二步:将获取的汽车当前状态量集合s
第三步:将所获得的控制量燃料电池功率P
第四步:如此重复第一步至第三步,直至汽车完成行驶任务。
以上所述的基于策略迁移的燃料电池车辆能量管理方法理论上是数据驱动和无模型的,对燃料电池混合动力系统的任何特定拓扑不敏感,可应用于各种复合电源燃料电池系统。
图5是本发明实施例中提供的未迁移DDPG和迁移策略DDPG的平均奖励随训练时间变化曲线图,从图中可以看出基于迁移策略的DDPG能量管理策略在训练收敛速度有一定提升,收敛步数从52步缩短为44步,同时基于迁移策略的DDPG的收敛后平均奖励也比未迁移DDPG更低,表明其燃油经济性提高了。
图6是本发明实施例中提供的未迁移DDPG和迁移策略DDPG的燃油经济性对比。其中各条依次为为总成本,氢耗成本,燃料电池退化成本和电池退化成本。由图可以得出,基于迁移策略DDPG的能量管理策略的氢耗成本和电池退化成本对比未迁移DDPG有明显下降,使得总成本下降,基于迁移策略DDPG的燃油经济性提高了约5%。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅是本发明的优选实施方式,熟悉本领域技术的人员可以对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不经过创造性的劳动,因此本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都在本发明的保护范围之内。
机译: 基于二次操作优先级的燃料电池动力汽车动力和能量管理方法
机译: 基于二次操作优先级的燃料电池动力汽车动力和能量管理方法
机译: 基于二次操作优先级的燃料电池动力汽车动力和能量管理方法