首页> 中国专利> 由自主车辆执行车道改变的方法和系统

由自主车辆执行车道改变的方法和系统

摘要

提供了用于控制车辆的系统和方法。在一个实施例中,一种方法包括:由处理器确定期望车道改变;基于强化学习方法和基于规则的方法由处理器确定车道改变动作,其中,所述方法中的每一个都对车道数据、车辆数据、地图数据和参与者数据进行评估;以及基于车道动作由处理器控制车辆来执行车道改变。

著录项

说明书

技术领域

本公开总体上涉及车辆,并且更具体地涉及用于在紧急条件或密集交通环境下自主执行车道改变的方法和系统。

背景技术

自主车辆是能够在很少或没有使用者输入的情况下感测其环境并进行导航的车辆。自主车辆使用诸如雷达、激光雷达、图像传感器等之类的传感设备来感知其环境。自主车辆系统还使用来自全球定位系统(GPS)技术、导航系统、车辆间通信、车辆到基础设施技术和/或线控驱动系统的信息来导航车辆。

尽管自主车辆和半自主车辆相对于传统车辆具有许多潜在的优点,但是在某些情况下,可能需要改善车辆的操作。例如,自主车辆或半自主车辆推荐并执行车道改变。执行一些车道改变以提高使用者满意度。例如,可以执行改变车道以通过慢速行驶的车辆,以提高使用者的满意度。这种不必要的但为了提高使用者满意度而执行的车道改变称为激励车道改变。执行其他车道改变以将车辆导航到期望的位置,并线到新道路上(例如,在坡道或非坡道并线(merging)时)或在突然的障碍物周围导航。这样的车道改变可能被认为是紧急的,并且可能需要在交通拥挤的环境中执行。在这种条件下完成车道改变的时间很重要。与现场的其他车辆进行交互并预测其他车辆的运动可能很困难。

因此,期望提供用于由自主或半自主车辆执行车道改变的改进的系统和方法。此外,结合附图以及前述技术领域和背景技术,根据随后的详细描述和所附权利要求,本公开的其他期望特征和特性将变得显而易见。

发明内容

提供了用于控制车辆的系统和方法。在一个实施例中,一种方法包括:由处理器确定期望车道改变;基于强化学习方法和基于规则的方法由处理器确定车道改变动作,其中,所述方法中的每一个都对车道数据、车辆数据、地图数据和参与者数据进行评估;并由处理器控制车辆以基于车道动作来执行车道改变。

在各个实施例中,基于规则的方法包括基于车辆控制的可行性的一个或多个规则。

在各种实施例中,基于规则的方法包括基于车辆的控制的安全性的一个或多个规则。

在各个实施例中,基于规则的方法包括基于车辆的使用者的舒适度的一个或多个规则。

在各种实施例中,车道改变动作包括在道路上的至少两个车辆之间的间隙以及用于执行车道改变的定时的标识符。

在各个实施例中,确定车道改变动作包括:基于强化学习方法确定车道改变动作;以及确定车道改变动作满足基于规则的方法的约束。

在各种实施例中,该方法包括:确定车道改变动作不满足基于规则的方法的至少一个约束;以及根据基于规则的方法确定第二车道改变动作,其中,将车道改变动作设置为第二车道改变动作。

在各种实施例中,该方法包括:确定第二车道改变动作不满足基于规则的方法的至少一个规则;和

用潜在的间隙来掩蔽(masking)与车道改变动作相关的间隙;并根据强化学习方法和任何剩余的潜在间隙来重新确定车道改变动作。

在各种实施例中,该方法包括基于由基于规则的方法做出的决策来训练强化学习方法。

在另一个实施例中,一种系统包括:非暂时性计算机可读介质,其存储强化学习方法和基于规则的方法,所述强化学习方法和基于规则的方法均基于车道数据、地图数据、车辆数据和参与者数据;和一个处理器。处理器被构造为:确定期望车道改变;基于强化学习方法和基于规则的方法确定车道改变动作;以及基于车道动作来控制车辆以执行车道改变。

在各个实施例中,基于规则的方法包括基于车辆控制的可行性的一个或多个规则。

在各种实施例中,基于规则的方法包括基于车辆的控制安全性的一个或多个规则。

在各个实施例中,基于规则的方法包括基于车辆的使用者的舒适度的一个或多个规则。

在各种实施例中,车道改变动作包括在道路上的至少两个车辆之间的间隙以及用于执行车道改变的定时的标识符。

在各个实施例中,处理器被构造为通过以下来确定车道改变动作:基于增强学习方法确定车道改变动作;以及确定车道改变动作满足基于规则的方法的约束。

在各个实施例中,处理器还被构造为:确定车道改变动作不满足基于规则的方法的至少一个约束;以及根据基于规则的方法确定第二车道改变动作,其中,所述车道改变动作被设定为所述第二车道改变动作。

在各个实施例中,处理器还被构造为:确定第二车道改变动作不满足基于规则的方法的至少一个约束;以及从由强化学习方法确定的潜在间隙中掩蔽与车道改变动作相关的间隙;以及根据强化学习方法和任何剩余的潜在间隙重新确定车道改变动作。

在各个实施例中,处理器还被构造为根据由基于规则的方法做出的决策来训练强化学习方法。

在各种实施例中,基于来自UB智能体(agent)的反馈离线执行训练。

在各个实施例中,处理器还被构造为将车道改变动作转换为轨迹数据,并且其中,处理器基于轨迹数据来控制车辆。

附图说明

在下文中,将结合以下附图描述示例性实施例,其中,相同的附图标记表示相同的元件,并且在附图中:

图1是示出了根据各种实施例的具有车道改变系统的自主车辆的功能框图;

图2是示出根据各种实施例的包括车道改变系统的自主驾驶系统的数据流程图;

图3是示出了根据各种实施例的车道改变系统的数据流程图;和

图4是由车道改变系统识别的示例性道路场景的图示;

图5是示出了根据各种实施例的、可以由车道改变系统执行的、用于执行车道改变的方法的流程图。

具体实施方式

以下详细描述本质上仅是示例性的,并不旨在限制应用和使用。此外,无意受到在先前技术领域、背景技术、发明内容或以下详细描述中提出的任何明示或暗示的理论的约束。如本文所使用的,术语模块是指任何硬件、软件、固件、电子控制部件、处理逻辑和/或处理器设备、单独地或以任何组合,包括但不限于:专用集成电路(ASIC)、电子电路、处理器(共享、专用或成组的)、执行一个或多个软件或固件程序的存储器、组合逻辑电路和/或提供所描述功能的其他合适部件。

本文可以根据功能和/或逻辑块部件以及各种处理步骤来描述本公开的实施例。应当理解,可以通过被构造为执行指定功能的任何数量的硬件、软件和/或固件部件来实现这样的块部件。例如,本公开的实施例可以采用各种集成电路部件,例如,存储器元件、数字信号处理元件、逻辑元件、查找表等,其可以在一个或多个微处理器或其他控制设备的控制下执行各种功能。另外,本领域技术人员将认识到,可以结合任何数量的系统来实践本公开的实施例,并且本文描述的系统仅仅是本公开的示例性实施例。

为了简洁起见,与信号处理、数据传输、信令、控制和系统的其他功能方面(以及系统的各个操作部件)有关的常规技术在这里可能没有详细描述。此外,本文包含的各个附图中所示的连接线旨在表示各个元件之间的示例性功能关系和/或物理联接。应当注意,在本公开的实施例中可以存在许多替代或附加的功能关系或物理连接。

参考图1,根据各种实施例,通常以100示出的车道改变系统与车辆10相关联。通常,车道改变系统100实施用于执行车道改变的混合计划方法,其基于增强学习(RL)和基于规则或基于效用(UB)的行为智能体。例如,一旦从高级路线计划器处请求车道改变,UB智能体便与RL智能体合作,以选择目标间隙,该差距由目标车道中车辆之间的空间确定,并定义完成该操纵所需的定时。如将在下面更详细地讨论的,一旦限定和批准了间隙和定时,就控制车辆10进行车道改变。

如图1所示,车辆10通常包括底盘12、车身14、前轮16和后轮18。车身14布置在底盘12上,并且基本上包围车辆10的部件。车身14和底盘12可以共同形成框架。车轮16-18分别在车身14的相应拐角附近旋转地联接至底盘12。

在各个实施例中,车辆10是自主车辆,并且解释系统100被并入到自主车辆10(以下称为自主车辆10)中。自主车辆10例如是自动控制以将乘客从一个位置运送到另一位置的车辆。在图示的实施例中,车辆10被描述为乘用车,但是应当理解,任何其他车辆,包括由交通设备调整的摩托车、卡车、运动型多用途车(SUV)、休闲车(RV)、轮船、飞机或简单地机器人等,也可以使用。在示例性实施例中,自主车辆10是所谓的四级或五级自动化系统。四级系统表示“高度自动化”,是指自动驾驶系统对动态驾驶任务的所有方面进行的驾驶模式特定性能,即使驾驶人员没有适当地响应于干预要求。五级系统表示“完全自动化”,是指自动驾驶系统在可由驾驶人员管理的所有道路和环境条件下对动态驾驶任务各个方面的全时表现。如可以理解的,在各个实施例中,自主车辆10可以是任何水平的自动化或根本没有自动化(例如,当系统100简单地将概率分布呈现给使用者以进行决策时)。

如图所示,自主车辆10通常包括推进系统20、变速器系统22、转向系统24、制动系统26、传感器系统28、致动器系统30、至少一个数据存储设备32、至少一个控制器34和通信系统36。在各种实施例中,推进系统20可包括内燃机,诸如牵引电动机的电机和/或燃料电池推进系统。变速器系统22构造成根据可选择的速比将动力从推进系统20传递至车轮16-18。根据各种实施例,变速器系统22可包括有级传动比的自动变速器、无级变速器或其他合适的变速器。制动系统26构造成向车轮16-18提供制动扭矩。在各种实施例中,制动系统26可以包括摩擦制动、线制动,诸如电动机的再生制动系统和/或其他合适的制动系统。转向系统24影响车轮16-18的位置。尽管出于说明性目的被描绘为包括方向盘,但是在本发明的范围内预期的一些实施例中,转向系统24可以不包括方向盘。

传感器系统28包括一个或多个感测设备40a-40n,其感测自主车辆10的外部环境和/或内部环境的可观察到的状况。感测设备40a-40n可以包括但不限于,雷达、激光雷达、全球定位系统、光学相机、热像仪、超声波传感器、惯性测量单元和/或其他传感器。在各种实施例中,感测设备40a-40n包括一个或多个图像传感器,该图像传感器生成由解释系统100使用的图像传感器数据。

致动器系统30包括一个或多个致动器设备42a-42n,其控制一个或多个车辆特征,例如但不限于推进系统20、变速器系统22、转向系统24和制动系统26。在各种实施例中,车辆特征还可以包括内部和/或外部车辆特征,例如但不限于门、行李箱和舱室特征,例如空气、音乐、照明等(未编号)。

通信系统36被构造为与其他实体48进行信息的无线通信,例如,但不限于,其他车辆(“V2V”通信)、基础设施(“V2I”通信)、远程系统和/或个人设备(有关图2的详细描述)。在示例性实施例中,通信系统36是被构造为使用IEEE 802.11标准经由无线局域网(WLAN)或通过使用蜂窝数据通信进行通信的无线通信系统。然而,在本公开的范围内也考虑了诸如专用短程通信(DSRC)信道之类的附加或替代通信方法。DSRC信道是指专门为汽车用途而设计的单向或双向短程到中程无线通信通道,以及一组相应的协议和标准。

数据存储设备32存储用于自动控制自主车辆10的数据。在各个实施例中,数据存储设备32存储可导航环境的定义地图。在各个实施例中,从车辆10的传感器数据构建定义的地图。在各个实施例中,从远程系统和/或其他车辆接收所述地图。可以理解,数据存储设备32可以是控制器34的一部分,与控制器34分离,或者可以是控制器34的一部分并且可以是单独系统的一部分。

控制器34包括至少一个处理器44和计算机可读存储设备或介质46。处理器44可以是任何定制的或可商购的处理器、中央处理单元(CPU)、图形处理单元(GPU)、与控制器34相关联的几个处理器中的辅助处理器、基于半导体的微处理器(以微芯片或芯片组的形式)、宏处理器、其任何组合或通常用于执行指令的任何设备。计算机可读存储设备或介质46可以包括例如只读存储器(ROM)、随机存取存储器(RAM)和保持活动存储器(KAM)中的易失性和非易失性存储装置。KAM是持久性或非易失性存储器,其可以在处理器44掉电时用于存储各种操作变量。可以使用许多已知的存储器设备中的任何一种来实现计算机可读存储设备或介质46,例如PROM(可编程只读存储器)、EPROM(电PROM)、EEPROM(电可擦除PROM)、闪存或任何其他能够存储数据的其他电、磁、光或组合存储器设备,其中一些代表可执行指令,由控制器34在控制自动车辆10时使用。

指令可以包括一个或多个单独的程序,每个程序包括用于实现逻辑功能的可执行指令的有序列表。指令在由处理器44执行时,接收并处理来自传感器系统28的信号,执行用于自动控制自主车辆10的部件的逻辑、计算、方法和/或算法,并生成至致动器系统30的控制信号,以基于逻辑、计算、方法和/或算法自动控制自主车辆10的部件。尽管在图1中仅示出了一个控制器34,但是自主车辆10的实施例可以包括任何数量的控制器34,这些控制器34通过任何合适的通信介质或通信介质的组合进行通信,并且协作以处理传感器信号,执行逻辑、计算、方法和/或算法,并生成控制信号以自动控制自主车辆10的特征。

在各个实施例中,控制器34的一个或多个指令在车道改变系统100中实施,并且当由处理器44执行时,基于强化学习(RL)和基于规则或效用的(UB)行为方法执行车道改变。

如可以理解的,本文公开的主题为可以被视为标准或基准的非自主车辆或自主车辆10和/或与自主车辆10协作的基于自主车辆的远程运输系统(未示出)提供了某些增强的特征和功能。为此,可以修改,增强或以其他方式补充非自主车辆、自主车辆和基于自主车辆的远程运输系统,以提供下面更详细描述的附加功能。为了示例的目的,下面的示例将在自主车辆的背景下进行讨论。

根据各种实施例,控制器34实现如图2所示的自主驾驶系统(ADS)50。即,控制器34(例如,处理器44和计算机可读存储设备46)的合适的软件和/或硬件部件用于提供与车辆10结合使用的自主驾驶系统50。

在各个实施例中,可以通过功能、模块或系统来组织自主驾驶系统50的指令。例如,如图2所示,自主驾驶系统50可以包括计算机视觉系统54、定位系统56、引导系统58和车辆控制系统60。可以理解,在各种实施例中,因为本公开不限于本示例,所以指令可以被组织到任何数量的系统(例如,被组合,进一步分区等)。

在各个实施例中,计算机视觉系统54合成并处理传感器数据,并预测车辆10的环境的对象和特征的存在、位置、分类和/或路径。在各个实施例中,计算机视觉系统54可以结合来自多个传感器的信息,包括但不限于相机、激光雷达、雷达和/或任何数量的其他类型的传感器。

定位系统56将传感器数据与其他数据一起处理以确定车辆10相对于环境的位置(例如,相对于地图的本地位置、相对于道路的车道的精确位置、车辆前进方向、速度等)。引导系统58处理传感器数据以及其他数据以确定车辆10要遵循的路径。车辆控制系统80根据确定的路径生成用于控制车辆10的控制信号。

在各个实施例中,控制器34实施机器学习技术以辅助控制器34的功能,例如特征检测/分类、障碍物缓解、路线穿越、映射、传感器集成、地面真相确定等。在各种实施例中,图1的车道改变系统100可以被包括在ADS50内,例如,作为引导系统58的一部分。

如关于图3更详细地示出并且继续参考图1和2,车道改变系统100可以被实现为功能模块。如可以理解的,在各种实施例中,示出和描述的功能模块可以被组合和/或进一步划分。如所示的,模块包括行为控制模块102、动作解释器模块104和轨迹计划器模块106。

行为控制模块包括102实用程序(UB)智能体108和强化学习(RL)智能体110。UB智能体108和RL智能体110协作以处理车道改变动作并生成基于此的动作数据118。

例如,UB智能体108执行基于UB的方法,以基于预定义规则为不同的道路场景生成车道改变动作。道路情景可以基于以下进行确定:指示沿道路的车道构造的车道数据112、包括道路信息的地图数据113、指示车辆10的当前运行状况(例如,车速、加速度、前进方向、位置等)的主车辆数据114以及指示道路上其他车辆或对象当前运行状况(例如,车速、加速度、前进方向、位置等)的参与者数据116。定义规则例如以使用者实现可行性、安全性和/或舒适性。例如,可行性规则保证了主车辆状态的连续性,例如位置、速度和加速度的连续性。在另一个示例中,安全规则将主车辆保持与道路上所有参与者的最小安全距离。在又一个示例中,舒适度规则导致车辆运动在速度、加速度和颠簸(jerk)的舒适性阈值之内。

RL智能体110执行基于RL的方法,以基于强化学习来预测针对不同道路场景的车道改变动作。可以基于车道数据112、主车辆数据114和参与者数据116类似地确定道路场景。例如,RL智能体110可以实现为马尔可夫决策过程,包括:

状态空间-连续的n维向量空间,其包括场景中的主车辆(P

动作空间-m维向量,包括目标车道(gap

奖励-即时奖励涉及在车道改变期间生成的即时动作的可行性,以及终延迟奖励涉及一旦完成就与整个车道改变操纵的成功。

图4示出了由RL智能体110识别的示例性道路场景,包括主车辆、参与车辆、间隙、车道保持的相对定时202和车道改变的相对定时204。

在各个实施例中,行为控制模块102利用RL智能体110来确定所需的动作,并利用UB智能体108来检查所需动作的可行性、安全性和舒适性。如果所需动作不满足可行性、舒适性和安全性要求中的任何一项,则行为控制模块102利用UB智能体108来确定所需动作。

在各个实施例中,行为控制模块102基于UB智能体108作出的评估来训练RL智能体110。例如,当RL生成的动作满足可行性、安全性或舒适性要求时,和/或当执行RL操作时,为RL智能体110计算奖励。在模拟环境中执行的离线训练阶段中,生成的RL动作由UB智能体108评估,以计算奖励函数值。

动作解释器模块104根据目标位置、速度、加速度和时间将动作转换为特定的目标120。轨迹计划器模块106为车辆的未来运动生成详细的空间路径数据122和速度分布数据124。然后,由控制系统60使用数据122、124来控制车辆10以执行操纵。

现在参考图5并继续参考图1-3,示出了根据各种实施例的方法400。如可以理解的,根据本公开,方法400内的操作顺序不限于如图5所示的顺序执行,而是可以按照适用并且根据本公开以一个或多个变化顺序来执行。在各种实施例中,可以在不改变方法400的精神的情况下去除或添加方法400的一个或多个步骤。

在一个实施例中,方法400可以在405处开始。当期望紧急车道改变或并线时,UB智能体108在410处调用RL智能体110。RL智能体110评估当前状况并在420处生成包括目标间隙和目标定时(例如,LK时间和LX时间)的最佳动作,并且向UB智能体108提供最佳动作。UB智能体108在430处评估最佳动作的可行性、安全性和舒适性。当在440处确定最佳动作是可行的、安全的和舒适的时候,UB智能体108和轨迹计划器在450处解释最佳动作并在460处生成轨迹数据以控制车辆10来执行该动作。

此后,在470处基于轨迹数据控制车辆10,并在480接收更新的状态数据。此后,在410需要紧急车道改变或并线时,该方法继续调用RL智能体110。

然而,当在440确定最佳动作是不可行的、不安全的或不舒适的时候,UB智能体108在490确定由RL智能体110选择的目标间隙的动作。当在500处确定UB动作是可行的、安全的且舒适的时候,则UB智能体108和轨迹计划器在450处解释最佳动作并在460处生成轨迹数据以控制车辆10来执行该动作。

此后,在470处基于轨迹数据控制车辆10,并且在480处接收更新的状态数据。此后,在410处需要紧急车道改变或并线时,该方法继续调用RL智能体110。

然而,当UB智能体108在500处不能确定UB动作是可行的、安全的且舒适的时候,UB智能体108在510处确定是否所有目标间隙都已耗尽。当在510处还没有耗尽所有目标间隙,UB智能体108在520处掩蔽该目标间隙,并且在480处接收更新的状态数据。此后,该方法继续调用RL智能体110以生成另一动作,该动作在520处排除了掩蔽的目标间隙。

然而,当RL智能体110在500和510处访问了所有目标间隙之后未能提供安全动作时,UB智能体在530处确定行车道跟随动作,直到RL智能体110可以提出新的在下一个计划时间采取行动。RL智能体110使用来自UB智能体108的反馈来训练RL智能体110,以防止将来出现分歧。

尽管在前面的详细描述中已经呈现了至少一个示例性实施例,但是应当理解,存在大量的变型。还应当理解,一个或多个示例性实施例仅是示例,并且无意以任何方式限制本公开的范围、适用性或构造。相反,前述详细描述将为本领域技术人员提供用于实施一个或多个示例性实施例的便利路线图。应该理解的是,在不脱离所附权利要求及其合法等同物所阐述的本公开的范围的情况下,可以对元件的功能和布置进行各种改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号