首页> 中国专利> 一种基于深度强化学习算法的车辆汇合控制方法

一种基于深度强化学习算法的车辆汇合控制方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于深度强化学习算法的车辆汇合控制方法，包括：将车辆汇合场景分解为若干个问题点，并划分为适合和不适合深度强化学习训练的问题点两种；对所划分的适合深度强化学习训练的问题点，利用提取出车辆汇合场景中的特征值并输入深度强化学习算法进行训练，得到各问题点的预测汇合信息；对所划分的不适合深度强化学习训练的问题点，利用特征提取方法直接提取出车辆汇合场景中的特征值，并将与所得各问题点的预测汇合信息结合进行汇合的逻辑判断，得到汇合控制结果并执行。本发明简化了深度强化学习的训练难度，深化了汇合逻辑判断的程度，使得汇合控制过程的结果更加准确，提高车辆在自动汇合控制中的安全性。

著录项

公开/公告号CN112590792A

专利类型发明专利
公开/公告日2021-04-02

原文格式PDF
申请/专利权人的卢技术有限公司;
展开▼

申请/专利号CN202011501518.5
发明设计人董舒;
展开▼

申请日2020-12-18
分类号B60W30/18(20120101);G06N3/08(20060101);G06K9/00(20060101);
代理机构32200 南京经纬专利商标代理有限公司;
代理人徐莹
地址 210046 江苏省南京市栖霞区恒泰路8号汇智科技园A1栋
入库时间 2023-06-19 10:29:05

说明书

技术领域

本发明涉及一种基于深度强化学习算法的车辆汇合控制方法，属于汽车驾驶控制的技术领域。

背景技术

随着人工智能技术的不断突破，汽车在自动驾驶方面结合人工智能技术中的深度学习、机器学习后，自动驾驶的水平也取得了明显的进步。

深度强化学习作为人工智能的重要方向，其原理为智能体在设定的环境中与环境进行交互，智能体在环境中做出动作，环境对动作进行奖励，智能体根据动作来进行学习，原理相当于人类的自学习进化过程，当算法设计合理时，理论上可以比人类开车更优秀，所以将深度强化学习应用于自动驾驶具有无限的可能性，目前已经有很多公司研究将深度强化学习应用于自动驾驶领域。

强化学习是人工智能中的重要分支，但目前深度强化学习算法的发展水平表明其适合处理简单场景的任务，同时算法的输出是基于概率模型，也就是说其输出具有不确定性。但自动驾驶面对的是一个复杂的场景，而且自动驾驶对安全性要求很高，深度强化学习的这种不确定性对其在自动驾驶领域的应用造成很大的影响。

目前，如图1所示，深度强化学习在自动驾驶领域应用多半是通过感知端-控制端的黑盒模型来实现的，算法的可解释、可维护性存在很大的问题，导致整个自动驾驶过程是一个黑盒，问题比较多，不利于驾驶的安全性。

对于日常驾驶中常见的车道交汇的场景，如果直接使用深度强化学习算法训练自动汇合的技能，深度强化学习算法需要自行判断是否需要汇合、什么时间汇合、汇合的速度等等，如果中间一步出现问题，就会导致整个汇合失败，带来较大的安全隐患。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足，提供一种基于深度强化学习算法的车辆汇合控制方法，将车辆汇合的自动驾驶的场景进行分解，分为多个问题点，每一个问题点分别进行求解，使得整个自动驾驶过程的逻辑判断更加具体和自动化，大大提高安全性。

本发明具体采用以下技术方案解决上述技术问题：

一种基于深度强化学习算法的车辆汇合控制方法，包括以下步骤：

步骤1、将车辆汇合场景分解为若干个问题点，并划分为适合和不适合深度强化学习训练的问题点两种；

步骤2、对所划分的适合深度强化学习训练的问题点，利用提取出车辆汇合场景中的特征值并输入深度强化学习算法进行训练，得到各问题点的预测汇合信息；

步骤3、对所划分的不适合深度强化学习训练的问题点，利用特征提取方法直接提取出车辆汇合场景中的特征值，并将不适合深度强化学习训练的问题点提取的特征值与步骤2所得各问题点的预测汇合信息结合进行汇合的逻辑判断，得到汇合控制结果并执行。

进一步地，作为本发明的一种优选技术方案：所述步骤1分解得到的若干个问题点包括是否需要汇合、汇合车道上是否有其他车辆、其他车辆是否在汇合、在哪里汇合、以什么样的速度汇合。

进一步地，作为本发明的一种优选技术方案：所述步骤3采用图像特征提取方法直接提取出车辆汇合场景中的特征值。

进一步地，作为本发明的一种优选技术方案：所述步骤3采用车载传感器直接提取出车辆汇合场景中的特征值。

本发明采用上述技术方案，能产生如下技术效果：

本发明的方法，通过将车辆在道路上车辆汇合场景分解为多个问题点，并对各个问题点进行逐个分析，提取出适合使用深度强化学习解决的问题点，简化了深度强化学习的训练难度，同时结合不适合深度强化学习的问题点进行特征提取，两者结合基础上进行逻辑判断，深化了汇合逻辑判断的程度，使得汇合控制过程的结果更加准确，降低深度强化学习训练的难度，同时提高了自动驾驶中深度强化学习的可解释性，提高车辆在自动汇合控制中的安全性。

附图说明

图1为现有技术中深度强化学习实现车辆自动汇合的原理图。

图2为本发明基于深度强化学习算法的车辆汇合控制方法的工作原理图。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图2所示，本发明涉及了一种基于深度强化学习算法的车辆汇合控制方法，该方法主要包括以下步骤：

步骤1、将车辆汇合场景分解为若干个问题点，并划分为适合和不适合深度强化学习训练的问题点两种，具体如下：

步骤1.1：分解车辆汇合场景的过程，可以分解但不限于的五个问题点：是否需要汇合、汇合车道上是否有其他车辆、其他车辆是否在汇合、在哪里汇合、以什么样的速度汇合。

步骤1.2：划分问题点，可以根据以往的经验进行判断，有更好、更简单的算法就直接使用对应的方法，另一个是根据深度强化学习算法实际的训练情况进行判断，如果算法训练无法收敛，或者是训练的结果显示明显比手动设计汇合逻辑的效果更差，则分解的问题不适合使用深度强化学习算法解决的问题点，否则可以划分为适合深度强化学习训练的问题点。本实施例中，将五个问题点划分适合深度强化学习解决的问题点：“是否需要汇合”、“在哪里汇合”、“以什么样的速度汇合”，可以使用深度强化学习进行训练实现；其余的两个由于存在较长时间的逻辑判断，不适合深度强化学习，可作为不适合深度强化学习解决的问题点。

步骤1.3：对于不合适深度强化学习解决的问题点：“汇合车道上是否有其他车辆”，“其他车辆是否在汇合”，可以使用检测识别更高效、安全或使用常规的逻辑判断更合适。

步骤2、对所划分的适合深度强化学习训练的问题点，利用提取出车辆汇合场景中的特征值并输入深度强化学习算法进行训练，得到各问题点的预测汇合信息，具体如下：

步骤2.1：对于“是否需要汇合”问题点，本实施例中可结合图像处理或车载传感器、雷达测距等方式提取前方车辆/障碍物的距离、速度、两边是否有车道、道路指示标志信息：1）其中距离和速度需要归一化，通常是将数值除以设定的最大值，例如最大距离100m，最大速度140km/h，前方没有车辆/障碍物时距离、速度则为最大值；2）是否有车道则用0/1表示，0/1表示也是归一化处理，0表示没有车道，1表示有车道，两边车道均提取出来；3）如果有额外的道路信息，如来源于GPS、图像检测，则提示当前车道不对，则用1表示，否则为0；4）将上述信息中提取的数值组成一个向量，即为当前的问题点的特征值。

对于“在哪里汇合”问题点，得到‘需要汇合’指令后，1）提取前后左右的车辆/障碍物的速度、距离信息，同样的方式归一化；2）同样的方式提取车道的信息；3）将上述信息中提取的数值组成一个向量，即为当前的问题点的特征值。

对于“以什么样的速度汇合” 问题点：1）预计的汇合点；2）提取前后左右的车辆/障碍物的速度、距离；3）将上述信息中提取的数值组成一个向量，即为当前的问题点的特征值。

步骤2.2：依次训练“是否需要汇合”、“在哪里汇合”、“以什么样的速度汇合”问题点，训练过程采用常规的深度强化学习算法训练，根据问题点设置奖励函数，例如：1，不需要汇合时，算法输出汇合结果，奖励函数为-1。汇合时发生碰撞，奖励函数为-1，汇合时没有发生碰撞，奖励函数为+0.1，根据训练的结果调整算法参数，例如学习率、奖励值折扣因子等。

训练结束，得到各问题点的预测汇合信息，包括：

1） “是否需要汇合”的问题点的预测汇合信息，训练输出的是一个0~1之间的小数，当值大于设定的阈值，根据实际情况设定，例如大于0.7时认为需要汇合。

2） “在哪里汇合”的问题点的预测汇合信息，输出为目标车道+汇合的距离点，例如汇合左车道、距离前车12m±5m时，这里的汇合距离点不是一个具体值，而是一个范围；

3） “以什么样的速度汇合” 的问题点的预测汇合信息，输出的是车辆的目标速度，或者是加速度，例如汇合车道上有车行驶，本车可能需要加速汇合、或者减速等待汇合，给汇合过程留出足够的安全距离。

步骤3、对所划分的不适合深度强化学习训练的问题点，利用特征提取方法直接提取出车辆汇合场景中的特征值，并将不适合深度强化学习训练的问题点提取的特征值与步骤2所得各问题点的预测汇合信息结合进行汇合的逻辑判断，得到汇合控制结果并执行，具体如下：

步骤3.1：采用图像特征提取方法直接提取出车辆汇合场景中的特征值，或车载传感器、GPS及精地图提供车辆的导航信息、雷达提供距离信息、物联网、车联网系统等方式，提取得到车辆汇合场景中的特征值，分别如下：

1）、从车载摄像头得到的图像进行检测识别方式，例如指示标志信息如直行车道、转弯车道、车道线信息如禁止变道的实线、允许变道的虚线、路口类型如十字路口、T字路口等、障碍物；

2）、GPS及高精地图提供车辆的导航信息方式，当前车道是否合适、前方是否转弯、限速信息等；

3）、雷达提供距离信息方式，前后左右的其他车辆和本车的距离、其他车辆的速度等；

4）、如果有物联网、车联网系统，也可以从中获取大量的信息，例如红绿灯、其他车辆行驶意图、车速、障碍物信息等。

而对于本实施例中的 “汇合车道上是否有其他车辆”问题点，直接通过车载摄像头可提取汇合车道的图像，然后提取出图像特征值，判断特征值是否存在其他车辆，得到识别结果，再将判断的结果送入逻辑判断“其他车辆是否在汇合”的问题点，得到当前路面上车辆的信息。

步骤3.2：在逻辑判断过程中添加的安全措施控制模块，进一步提高系统中的安全性，深度强化学习算法能够通过不断学习来优化汇合的策略，但算法在学习过程中很难覆盖到所有的情况，同时要考虑到提取特征值的传感器存在失效的可能性，所以需要安全模块来防止车辆出现危险；例如算法输出结果出现问题：车辆已经在最右侧车道，如果出现向右汇合的指令，则直接禁止；如果算法输出没有问题，但输出的结果却在车辆上不能执行，比如加速度超过安全范围，也要禁止；

步骤3.3：步骤2中深度强化学习算法判断车辆“是否需要汇合”的预测汇合信息结果，输出给“在哪里汇合”的问题点，再与3.1中得到的问题点的车辆汇合场景中的特征值结合在一起进行逻辑判断，最终由处理“以什么样的速度汇合”的汇合过程，得到最终的汇合控制结果。

本实施例中，所述问题点的汇合信息结果与问题点的车辆汇合场景中的特征值结合方式，一种是将本阶段的算法的输出结果作为下一阶段算法判断条件，另一种是直接将算法的输出作为下一阶段算法的输入的一部分。

例如：将“是否需要汇合”问题点训练输出的结果作为“在哪里汇合”算法启动的判断条件，如果需要汇合，则启动“在哪里汇合”的问题点的逻辑判断，“在哪里汇合”的问题点逻辑判断输出结果后，与“以什么样的速度汇合”问题点所提取的特征值拼接后，得出汇合的速度；上述是按照顺序处理，也可以将“在哪里汇合”与“以什么样的速度汇合”合并成在一个算法中处理，两个问题会共享部分相同的特征值，合并后能够降低算法的运行时间，在高速场景中会有优势。

并且，本发明实施例中结合几个问题点进行逻辑判断的过程可以如下：

如果判断其他车辆正在汇合时，例如单向三车道中，本车在最右车道，最左侧车道车辆向中间车道汇合，本车此时向中间车道汇合会出现碰撞，步骤3.1 和3.2就得给出不能汇合的指令，给出禁止本车汇合的指令A：

1）该指令A和“是否需要汇合”模块的输出一起作为下一步“在哪里汇合”是否运行的判断条件，两个输出结果需要同时成立。

2）也可以考虑作为“是否需要汇合”的问题点是否运行的判断条件。

3）也可以将指令A作为“以什么样的速度汇合”的问题点执行的判断条件之一，即指令A为不能汇合，深度强化学习算法也在运行，当指令A为能够汇合时，运行时间会比较短，避免错过汇合时机。

最后，根据上述得到的最终汇合控制结果，由车辆控制模块输出到车辆执行模块进行车辆汇合控制，包括控制车速、转向等，实现车辆自动汇合控制。

因此，本发明方法，通过将车辆在道路上车辆汇合场景分解为多个问题点，并对各个问题点进行逐个分析，提取出适合使用深度强化学习解决的问题点，简化了深度强化学习的训练难度，同时两者结合基础上进行逻辑判断，深化了汇合逻辑判断的程度，使得汇合控制过程的结果更加准确，提高车辆在自动汇合控制中的安全性。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于深度强化学习算法的车辆汇合控制方法 [P] . 中国专利： CN112590792A . 2021-04-02
2. 一种基于深度强化学习算法的汽车主动悬架智能控制方法 [P] . 中国专利： CN112078318A . 2020-12-15
3. System for the energy saving pre-cooling/heating training of an air conditioner using deep reinforcement learning algorithm based on the user location living climate condition and method thereof [P] . 韩国专利： KR102131414B1 . 2020-07-08

机译：基于用户所在地生活气候条件的深度强化学习算法的空调节能预冷/热训系统及方法
4. DEEP REINFORCEMENT LEARNING-BASED ADAPTIVE GAME ALGORITHM [P] . 世界知识产权组织专利： WO2020024097A1 . 2020-02-06

机译：基于深度强化学习的自适应游戏算法
5. Passenger protection system controlling method for vehicle, involves detecting acceleration signal, where release of devices takes place based on acceleration and noise signals, and adapting parameter of algorithm based on noise signal [P] . 德国专利： DE102007002996A1 . 2008-07-24

机译：用于车辆的乘客保护系统控制方法，包括检测加速度信号，基于加速度和噪声信号释放设备，并基于噪声信号调整算法参数