技术领域
本发明涉及汽车入库控制领域,尤其是涉及一种基于深度强化学习的智能电动汽车漂移入库控制方法。
背景技术
车辆持续保持在后轮轮胎力饱和、后轴侧滑的状态下行驶,称为漂移,存在两种不同的漂移状态:
(1)后轴驱动、后轮滑转,此时可以通过控制后轴驱动力与前轮转向角时车辆质心侧偏角和车速保持在一恒定值,使车辆处于稳定状态,由于市面上绝大多数汽车为前轴驱动,故该状态下的漂移动作研究价值相对较小。
(2)按照开环控制律复现漂移动作可能受到外界环境和自车状态的干扰,使车辆无法漂移停入库位,例如,由于库位接近过程存在侧向位移误差和航向角误差,车辆在触发漂移动作时未完全满足预设的漂移触发位姿状态,存在一定偏差,根据开环控制器完成漂移动作会将该偏差保留至漂移结束;另外,由于底层执行器响应限制,开环控制下无法保证每一次执行器响应一致,当响应出现偏差时车辆会偏移预设的漂移轨迹;路面不均一造成漂移过程中轮胎力的突变,使漂移路径发生改变。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度强化学习的智能电动汽车漂移入库控制方法,本发明基于深度强化学习的无人驾驶汽车漂移入库动作的研究与实现,设计漂移控制器,根据车辆与库位间的相对位置和车辆状态参数调整方向盘转角,使车辆漂移停入库位。
本发明的目的可以通过以下技术方案来实现:
1.一种基于深度强化学习的智能电动汽车漂移入库控制方法,其特征在于,包括以下步骤:
1)构建用于深度强化学习的车辆动力学模型以及轮胎力饱和工况下的轮胎模型;
2)采用面向漂移入库控制的TD3算法实现智能电动汽车漂移入库。
所述的步骤1)中,车辆动力学模型具体为考虑前后与左右载荷转移的四轮三自由度车辆动力学模型,所述的三自由度包括车辆质心处速度v
四轮三自由度车辆动力学模型中,考虑纵侧向加速度的四轮垂向力的表达式为:
式中,h
在漂移过程中,考虑到载荷转移过大导致某一个车轮离地,出现使得该车轮的垂向载荷降为0、载荷转移达到上限的情况,当方向盘向左转漂移,载荷向右侧转移,左后轮离地时,则左后轮的垂向力为0,此时,根据纵侧向加速度、轴距和轮距将过多转移的载荷重新分配至左前轮和右后轮,则有:
ΔF
F′
其中,ΔF
对考虑前后与左右载荷转移的四轮三自由度车辆动力学模型进行受力分析,得到车辆动力学平衡方程为:
φ=β+ψ
据此计算得到车辆纵向车速v
v
v
其中,
所述的步骤1)中,用于深度强化学习训练的轮胎模型包括前轮轮胎力模型和后轮轮胎力模型。
对于后轮轮胎力模型,在漂移过程中,后轮制动抱死并在路面上纯摩擦,后轮的轮胎力方向与车轮轮心瞬时速度的方向相反,通过对后轮进行受力分析得到后轮纵侧向轮胎力分量的表达式为:
对于左后轮:
对于右后轮:
F
其中,v
对于前轮轮胎力模型,在漂移过程中,前轮轮胎力尚未饱和,则采用改进Burckhardt轮胎模型对轮胎力进行拟合,用以表述侧向力与侧偏角的关系,则有:
其中,θ
左轮侧偏角α
由于前轮未施加制动力和驱动力,处于自由滚动状态,有F
所述的步骤2)具体包括以下步骤:
21)设计面向漂移入库控制的TD3算法,构建Actor网络和Critic网络,具体为:
Critic网络和Actor网络均为由全连接层组成的BP神经网络,Critic网络的输入为车辆状态和动作,输出为Q值,Actor网络的输入为车辆状态,输出为动作,所述的车辆状态为表征漂移过程车辆状态的参数,包括以车辆质心为原点,车头朝向为y轴正方向的相对坐标系下库位坐标(e
22)构建奖励函数r(k),则有:
其中,w
23)对Actor网络和Critic网络进行训练,并据此完成智能电动汽车漂移入库。
在步骤23)中,对Actor网络和Critic网络进行训练前,先确定漂移入库控制器的边界,根据该边界对每次车辆漂移的目标库位位置进行随机取值,在迭代训练中,车辆以随机选取的目标库位位置和朝向计算车辆状态,并据此对Critic网络和Actor网络进行训练,通过在训练过程中随机更新目标库位位置,拓展训练数据集,提升化能力。
与现有技术相比,本发明具有以下优点:
一、基于深度强化学习TD3算法设计了一种智能电动汽车漂移入库的控制方法,提高了控制精度,克服了由于路面不均匀造成的漂移入库存在误差的问题,也可以改变库位中心点,使车辆向更新后的库位位置移动,提高了控制系统的鲁棒性。
二、漂移入库的过程中可以通过不断调整方向盘角度使车辆调整位姿,使车辆准确的漂移入库。
附图说明
图1为本发明的方法流程图。
图2为漂移过程部分状态参数定义示意图。
图3为基于深度强化学习的漂移控制算法流程。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,本发明提供一种基于深度强化学习的智能电动汽车漂移入库控制方法,包括以下步骤:
1)搭建用于深度强化学习训练的车辆动力学模型和轮胎模型,具体包括以下步骤:
11)搭建用于深度强化学习的车辆动力学模型
考虑前后与左右载荷转移的四轮三自由度车辆动力学模型,三个自由度分别为车辆质心处速度大小v
由于漂移过程车辆纵侧向加速度都很大,必须考虑车辆前后和左右载荷转移对轮胎垂向力的影响。考虑纵侧向加速度的四轮垂向力计算公式如式(1):
式中,h
在漂移过程中,需要考虑载荷转移过大导致某一个车轮离地,使对应轮的垂向载荷降为0、载荷转移达到上限的情况。由于是甩尾制动过程,载荷向前轴转移,因此仅考虑后轮离地的可能性。假设方向盘向左转漂移,载荷向右侧转移,则左后轮存在离地可能。当根据公式计算得到F
对车辆模型进行受力分析,得到车辆动力学平衡方程为:
式中,δ为前轮转角;φ为质心处车速全局方位角,
12)搭建用于深度强化学习在轮胎力饱和工况下的轮胎模型
与常规工况的行驶条件不同,漂移时后轮轮胎力饱和,车身侧向速度与质心侧偏角大,且纵侧向车速均处于急剧变化的状态,因而此时车辆系统是一个强非线性、纵侧高度耦合的时变系统,则车辆实时饱和轮胎力由式(9)求得:
F
式中,
121)后轮轮胎力模型
在后轴抱死制动的过程中,轮胎力饱和,无论侧偏角大小如何变化,纵侧向力合力大小不变,说明求漂移过程后轮水平轮胎力时可忽略侧偏角变化,可直接求漂移状态下后轴轮胎力大小。
由于后轮制动抱死,车轮在路面上纯摩擦,因而轮胎力方向由轮心速度方向决定,即轮胎力方向与车轮轮心瞬时速度的方向相反。对漂移过程后轮进行受力分析,可得到后轮纵侧向轮胎力分量的表达式:
左后轮:
右后轮:
式中,v
122)前轮轮胎力模型
前轮轮胎力尚未饱和,将其纵侧解耦,采用适用于准静态工况的轮胎模型求轮胎侧向力。采用改进Burckhardt轮胎模型对轮胎力进行拟合,表达侧向力与侧偏角的关系,则有:
式中,θ
由于未施加制动力及驱动力,认为前轮处于自由滚动状态,车轮纵向力近似为0,即F
2)面向漂移入库控制的TD3算法设计。
在漂移过程中,采用深度强化学习算法,以搭建的漂移车辆动力学模型为基础,根据端到端漂移控制器,实现车辆的准确漂移入库,具体为:
TD3算法中,Critic网络的输入为车辆状态和动作,输出为Q值;Actor网络的输入为车辆状态,输出为动作,即方向盘转角大小;
选定表征漂移过程车辆状态的参数,作为Critic网络和Actor网络的输入,该组参数应能够将漂移中某时刻车辆状态唯一的表示出来,且与方向盘转角输入值存在动力学的相关性。6个状态参数为:以车辆质心为原点、车头朝向为y轴正方向的相对坐标系下库位坐标e
确定了强化学习算法所训练的深度神经网络后,对奖励函数进行设计,以计算车辆在漂移过程中不同状态所对应的奖励值。奖励函数设计如下:
式中,w
在进行网络训练之前,首先确定车载漂移入库控制器的“边界”,认为无论施加怎样的方向盘转角,车辆终末位置和终末航向角不会超过此边界。
根据控制器边界,对每次车辆漂移的目标库位位置进行随机取值。当一次完整的漂移过程结束后,设定随机目标库位位置(X
在迭代训练中,车辆以该目标库位位置和朝向计算车辆状态e
实施例
本实施例中,根据上述方法实现的漂移入库的控制方法具体为:
步骤一、搭建基于深度强化学习的漂移入库的四轮三自由度车辆动力学模型以及搭建轮胎力饱和工况下的轮胎模型。考虑前后与左右载荷转移的四轮三自由度车辆动力学模型。三个自由度分别为:车辆质心处速度大小v
步骤二、基于深度强化学习的车辆动力学模型进行Critic网络与Actor网络设计、以及奖励函数设计。Critic网络的输入为车辆状态和动作,输出为Q值;Actor网络的输入为车辆状态,输出为动作。输入量与输出量个数较少,对应关系较为简单,采用由全连接层组成的BP神经网络进行Critic网络和Actor网络的搭建,基于深度强化学习的漂移控制算法流程如图3所示。
机译: 一种基于虚拟GPS交通标志的限速智能车辆控制方法
机译: 一种基于虚拟GPS交通标志的限速智能车辆控制方法
机译: 一种基于虚拟GPS交通标志的限速智能车辆控制方法