首页> 中国专利> 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法

一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法

摘要

本发明公开了一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,包括以下步骤:步骤1,判断车辆是否可以在当前限速下通过路口,如果可以通过执行步骤5;如果不能通过刹停执行步骤2;步骤2,由强化学习算法结合车辆仿真模型模拟车辆在路口的制动过程;步骤3,计算在步骤2中车辆获得的奖励值;步骤4,根据步骤3中得到的奖励值,对Q表或神经网络进行训练学习和更新,如果Q表或神经网络已经收敛,则执行步骤5;如果未收敛,则再返回执行步骤2;步骤5,如果上一步骤是步骤4,得到满足条件的优化车速曲线并发送给车辆执行,如果上一步骤是步骤1,由驾驶员规划车速。本发明可实现制动能量的最大化回收。

著录项

  • 公开/公告号CN112339756A

    专利类型发明专利

  • 公开/公告日2021-02-09

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN202011098570.0

  • 发明设计人 宋康;张榆川;谢辉;

    申请日2020-10-14

  • 分类号B60W30/18(20120101);B60W50/00(20060101);G06F30/20(20200101);G06N3/08(20060101);

  • 代理机构12214 天津创智天诚知识产权代理事务所(普通合伙);

  • 代理人李蕊

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2023-06-19 09:51:02

说明书

技术领域

本发明涉及智能网联汽车路口速度规划技术领域,特别是涉及一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法。

背景技术

在车辆制动过程中利用电机主动回收制动能量,是混合动力汽车、纯电动汽车等新能源汽车实现节能的重要技术途径。其中,红绿灯路口附近的减速制动过程,是新能源车辆运行中面临的典型场景。而路口的车速规划与制动策略,对于车辆的能效具有重要影响。然而,对于传统的车辆控制,由于控制系统能够无法提前获取路口信息,因此,行车过程的速度主要取决于驾驶员的主观判断。由于该过程受到驾驶风格和驾驶经验等多种因素对影响,车辆难以最大化地回收制动动能。

近年来,随着国家智能网联战略的推进和实施,车辆与交通设施、车辆与云,以及车辆与车辆之间的互联逐步实现,走入大众生活。智能网联汽车成为解决城市交通问题、提高车辆通行效率、降低车辆能耗的一种新手段。例如,通过在红绿灯路口建立车载设备与路测设备通信的V2I(Vehicle to Infrastructure)系统,车辆控制系统能够提前获取红绿灯路口的交通信息。在这样的条件下,控制系统可以对车辆的制动过程进行多目标优化,有望改善能量回收效率、路口通行效率,以及驾驶平顺性等。

然而,欲解决上述多目标优化问题,传统方法往往需要准确的车辆和交通信息模型。由于模型的精确建立比较困难,传统方法在实际应用中受到制约。近些年来,随着机器学习的发展,一些具备反馈迭代能力的人工智能优化算法得到了广泛应用在不同领域取得了理想的效果。

例如,在混动车辆结合交通信息进行能量管理方面,候立良(侯立良.基于交通信息的插电式混合动力汽车能量管理策略实验研究[D].重庆:重庆大学,2018)采用遗传算法获得行驶距离、等效因子、SOC等初始参数值map图,根据未来路段平均车速采用动态规划生成SOC参考曲线,改进了等效燃油消耗最小策略,使运行成本下降了5.6%。高俊(高俊.面向PHEV能量管理的短期工况预测与长期交通信息生成技术研究[D].重庆:重庆大学,2018)提出了融合随机过程与机器学习的组合预测算法,采用神经网络加马尔科夫链对面向PHEV能量管理的短期工况进行了预测,结合模型预测控制实现了能耗成本的降低。陈达奇(陈达奇.考虑实时交通信息的插电式混合动力汽车预测能量管理策略研究[D].重庆:重庆大学,2018)提出了基于支持向量机(SVM)工况识别的预测方法,采用SVM对指数预测模型中的衰减因子进行工况识别从而优化了车速预测效果,结合模型预测控制经济性提高了6.18%。但是,上述研究均只考虑了通过交通监管平台、地图导航运营商采集的路段车速、拥堵情况等较为粗略的宏观交通信息,并未能反映如红绿灯时间等瞬态的、实时的、局部的路况信息。

在路口车速规划方面,孟竹(孟竹.V2I环境下面向最小油耗的信号交叉口单车车速引导策略研究[D].武汉:武汉理工大学,2018)建立了车速-油耗微观模型,考虑V2I信息划分了通过红绿灯路口的不同场景并建立了对应的速度控制算法,通过仿真和实车验证证明能够将油耗水平降低17%;但该研究假设车辆匀加速或匀减速后再匀速行驶或停车,考虑场景较为简单。余开江(余开江,许孝卓,胡治国,等.基于交通信号灯信息的混合动力汽车节能预测控制方法[J].河北科技大学学报:2015,35(5):480-485)等建立了匀速行驶和及时通过信号灯路口的最优控制问题模型和评价函数,使燃油经济性提高了1.79%;但该方法需要采用哈密尔顿函数求解,较为复杂。张博等(张博,郭戈,王丽媛,等.基于信号灯状态的燃油最优车速规划与控制[J].自动化学报:2018,44(3):461-470)通过V2I反馈信息的预测,对不停车通过信号灯的速度进行了规划,通过模型预测控制计算了车辆最优控制输入,实现了油耗的降低;但该方法只考虑了不停车通过路口的场景,缺少对不能通过路口需在路口前停车的考虑。且上述研究主要面向燃油车,缺少对新能源汽车、尤其是在其能量回收方面的相关研究。

发明内容

本发明的目的是针对现有技术中存在的路口速度规划存在局限性的问题,而提供一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,对车辆的制动过程进行多目标优化,提高车辆考虑能量回收、驾驶平顺性、行驶效率的综合效益。其中,强化学习作为机器学习中的一种代表性算法,具有不依赖模型、具备自主迭代自学习的优点。

为实现本发明的目的所采用的技术方案是:

一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,包括以下步骤:

步骤1,根据V2I信息获取车辆距离路口的距离以及信号灯状态和剩余时间,判断车辆是否可以在当前限速下通过路口,如果可以通过,则执行步骤5;如果不能通过,需要刹停,则执行步骤2;

步骤2,由强化学习算法结合车辆仿真模型模拟车辆在路口的制动过程;

步骤3,计算在步骤2中车辆获得的奖励值;

步骤4,根据步骤3中得到的奖励值,对Q表或神经网络进行训练学习和更新,如果Q表或神经网络已经收敛,则执行步骤5;如果未收敛,则再返回执行步骤2;

步骤5,如果上一步骤是步骤4,在对步骤2、3、4进行反复迭代Q表或神经网络达到收敛后,得到满足条件的优化车速曲线并发送给车辆执行,如果上一步骤是步骤1,由驾驶员规划车速。

在上述技术方案中,所述步骤1中根据V2I信息包括车辆进入V2I通信范围时初始时刻距离路口的距离x

在上述技术方案中,所述步骤2中由强化学习算法模拟车辆制动过程为:将车辆当前时刻距离路口的距离x

在上述技术方案中,所述步骤3中,如果x

在上述技术方案中,计算总奖励值前,对各奖励值按照下式

在上述技术方案中,β

在上述技术方案中,在强化学习算法中,强化学习的状态为s

在上述技术方案中,所述步骤4中,Q表是存储Q值的表格,其中存储了每个状态-动作对下的Q值,Q(x,v,a)=Q(s

在上述技术方案中,所述步骤2和4中,用Q表进行学习时采用q-learning算法,在每一步决策更新结束后,依照公式Q(s

在上述技术方案中,所述步骤2和4中,用神经网络进行学习时,采用DQN算法。

与现有技术相比,本发明的有益效果是:

1.本发明针对纯电动及混合动力车辆,设计了针对红绿灯路口的车速规划算法,可以给无人驾驶车辆提供最佳速度规划或给人工驾驶车辆提供驾驶建议,实现制动能量的最大化回收,同时兼顾驾驶平顺性。

2.本发明所采用的强化学习算法不依赖于精确的对象模型,具备自学习能力可以快速适应不同车辆。

附图说明

图1是本发明算法的求解原理图。

图2是本算法执行的流程图。

图3是其中DQN算法的原理示意图。

图4、5是实施例2的车速、SOC的相关结果。

图6、7是实施例3的车速、SOC的相关结果。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

实施例1

一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,包括以下步骤:

步骤1,判断车辆是否可以在当前限速下通过路口:根据通过V2I获得的路口交通信息和车辆自身状态信息判断车辆能否通过路口,具体包括车辆进入V2I通信范围时初始时刻距离路口的距离x

步骤2,由算法模拟车辆制动过程:将车辆当前时刻距离路口的当前距离x

步骤3,计算步骤2中车辆仿真模型在执行a

步骤4,根据步骤3中得到的奖励值,对Q表或神经网络进行训练更新。如果Q表或神经网络已经收敛,则执行步骤5;如果未收敛,则再返回执行步骤2。若此时x

步骤5,生成车速曲线供车辆执行:如果上一步骤是步骤4,则由Q表或神经网络生成一条理想的经过优化的制动过程车速曲线,该曲线能满足车辆恰好在路口前减速刹停的要求,将得到的车速曲线发送给车辆执行;如果上一步骤是步骤1,说明车辆无需在路口刹停,由驾驶员规划车速。

作为优选的,所述步骤2中,车辆仿真模型通常在相关软件平台上进行建立,能够反映实际车辆的物理特性和运行规律,模拟车辆的实际运行过程,具体建模方法可参考《汽车发动机与传动系统建模及控制》(拉尔斯·埃里克松(Lars Eriksson).汽车发动机与传动系统建模及控制[M].北京:化学工业出版社,2018.)

作为优选的,所述步骤2中,定义强化学习的状态(state)为s

作为优选的,所述步骤2中,Q表是存储Q值的表格,其中存储了每个状态-动作对下的Q值(状态-动作需离散处理)。Q值表示了某个状态下采取某个动作所能获得的当前和未来回报的组合。需要注意的是由于Q表为二维,只能存储一个维度的状态,而本问题中状态具有两个维度,因此需要对两个维度的状态进行扁平化降维处理变为一维。如公式

作为优选的,所述步骤3中三项奖励值的设计反映了本问题的三个主要控制目标:车辆到路口前恰好减速为0刹停、尽可能多地回收电能、保证驾驶平顺性,由于上述三项奖励值代表的物理意义不同,数值差距比较大,所以在计算前均按需按照下式

作为优选的,所述步骤4中,如果选择用Q表进行学习即采用q-learning算法,则在每一步决策更新结束后,依照公式Q(s

作为优选的,所述步骤2和4中,也可选择采用神经网络来拟合Q值、代替Q表,即采用DQN(deep q-network)算法。用神经网络来代替Q表格的方法为行业内技术人员所熟知的技术。具体可以参考:刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报:2018,41(1):1-27。

实施例2(采用基于Q表的q-learning方法)

步骤1,判断车辆是否可以在当前限速下通过路口:

设本例中x

步骤2,由算法模拟车辆制动过程:

值得说明的是,在初始时(第一回合第一步)默认Q表为空。将车辆当前时刻距离路口的距离x

步骤3,计算步骤2中车辆仿真模型在执行a

即计算车辆在完成1步模拟计算之后的奖励值。如果x

步骤4,根据步骤3中得到的奖励值,对Q表进行训练更新:

Q值更新公式为Q(s,a)=Q(s,a)+α(R+γQ

步骤5,由Q表或神经网络生成一条理想的经过优化的制动过程车速曲线,该曲线能满足车辆恰好在路口前减速刹停的要求。将得到的车速曲线发送给车辆执行。

针对某P2型混动架构车辆,在matlab-simulink平台上建立了车辆仿真模型,主要的数学模型表达式如下。公式(1)、(2)为电机扭矩计算模型,T

(1)

(2)T

(3)V

(4)

(5)

(6)

(7)

(8)f

(9)TQ

针对该P2型混动架构车辆,在matlab-simulink平台上对以上步骤进行了实施验证。在大约经过30000个回合的模拟计算与训练之后结果收敛,并将步骤5得出的结果与视为全局最优的动态规划曲线和匀减速参考曲线进行了相关对比。结果如图4、5所示,在初始电池SOC值为0.6的情况下,动态规划曲线的终值SOC为0.60074、均减速曲线为0.60047、q-learning为0.60067;q-learning与动态规划相比能量回收效果的差幅只有9.45%,相比于均减速参考曲线增幅到达42.55%,说明本发明的算法能够获得求解问题的近似全局最优解,具有较好的优化能力,取得了一定效果。

从其中求解结果也可以探究出在新能源车辆接近红绿灯路口减速刹车过程中车速对能量回收效果的影响规律:减速初期车速快,制动电机效率较高,同时为避免该部分大份额能量被此时较大的风阻和滚阻消耗浪费,采用较大减速度、较大制动力矩能够有利于能量的高效回收,显著提高能量回收的效果;随后主要依据到路口的距离进行灵活规划,采用较小减速度、较小制动力矩有利于延长行驶路程,确保车辆在到达路口时刹停减速为0,同时也延长了末期能量回收的时间,进一步加强能量回收的效果。

实施例3(如图3所示,采用基于神经网络的DQN方法)

DQN方法可参见刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报:2018,41(1):1-27,在此不再赘述,在实施例2的基础上,采用基于神经网络代替Q表的DQN方法对本发明进行了验证。结果如图6、7所示,DQN求解的终值SOC为0.6006887,相比q-learning的终值SOC 0.6006736,得到了进一步提升,增幅为2.24%;DQN求解得到的速度曲线平顺性更好、更加平滑均匀,没有出现q-learning后期减速度突变变大采用DQN算法所求解相对q-learning求解结果进行了进一步的优化,回收能量增加了2.24%,并且驾驶平顺性得到进一步提高,速度曲线以及终值SOC结果更加接近动态规划。

以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号