首页> 中国专利> 融合紧急车辆音频和视觉检测的机器学习模型

融合紧急车辆音频和视觉检测的机器学习模型

摘要

根据各种实施方式,描述了用于操作自动驾驶车辆(ADV)的系统、方法和介质。实施方式使用多个机器学习模型分别从由安装在ADV上的传感器捕获的音频数据和视觉数据中提取特征,然后融合提取的这些特征以创建级联特征向量。级联特征向量被提供到多层感知器(MLP)作为输入,以产生与周围环境中是否存在紧急车辆相关的检测结果。ADV可使用检测结果来采取适当的行动以遵守当地的交通规则。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-01-04

    实质审查的生效 IPC(主分类):B60W50/00 专利申请号:2021112869785 申请日:20211102

    实质审查的生效

说明书

技术领域

本公开的实施方式总体上涉及操作自动驾驶车辆。更具体地,本公开的实施方式涉及融合来自多个源的用于紧急车辆检测的传感器数据。

背景技术

以自动驾驶模式运行(例如,无人驾驶)的车辆可将乘员、尤其是驾驶员从一些驾驶相关的职责中解放出来。当以自动驾驶模式运行时,车辆可使用车载传感器导航到各个位置,从而允许车辆在最少人机交互的情况下或在没有任何乘客的一些情况下行驶。

当检测到紧急车辆(例如,警车、消防车和救护车)在道路上时,ADV需要采取适当的行动以遵守当地的交通规则。因此,准确检测ADV周围环境中的紧急车辆对行驶中的ADV至关重要,使得AVD不必进行不必要的停车。一种提高检测准确性的方法是使用来自多个源的信息(例如,来自ADV上的传感器的图像和语音)来消除单个源的不稳定性。这种方法需要融合来自多个源的信息。

发明内容

本申请的一个方面提供了这样用于操作自动驾驶车辆(ADV)的计算机实施的方法,方法包括:

在ADV上的自动驾驶系统(ADS)处接收音频信号流和图像帧序列,音频信号流是安装在ADV上的一个或多个音频捕获装置从ADV的周围环境中捕获的,图像帧序列是使用安装在ADV上的一个或多个图像捕获装置从ADV的周围环境中捕获的;

由ADS从所捕获的音频信号流中提取第一特征向量,以及从所捕获的图像帧序列中提取第二特征向量;

由ADS将第一特征向量和第二特征向量级联以创建级联特征向量;以及

基于级联特征向量,通过ADS使用第一神经网络模型来确定在ADV的周围环境中存在紧急车辆。

本申请的另一个方面提供了这样一种具有存储在其中的指令的非暂时性机器可读介质,指令在由处理器执行时使处理器执行操作自动驾驶车辆(ADV)的操作,操作包括:

在ADV上的自动驾驶系统(ADS)处接收音频信号流和图像帧序列,音频信号流是安装在ADV上的一个或多个音频捕获装置从ADV的周围环境中捕获的,图像帧序列是使用安装在ADV上的一个或多个图像捕获装置从ADV的周围环境中捕获的;

由ADS从所捕获的音频信号流中提取第一特征向量,以及从所捕获的图像帧序列中提取第二特征向量;

由ADS将第一特征向量和第二特征向量级联以创建级联特征向量;以及

基于级联特征向量,通过ADS使用第一神经网络模型来确定在ADV的周围环境中存在紧急车辆。

本申请的另一个方面提供了这样一种数据处理系统,包括:

处理器;以及

存储器,与处理器联接以存储指令,指令在由处理器执行时使处理器执行操作自动驾驶车辆(ADV)的操作,操作包括:

在ADV上的自动驾驶系统(ADS)处接收音频信号流和图像帧序列,音频信号流是安装在ADV上的一个或多个音频捕获装置从ADV的周围环境中捕获的,图像帧序列是使用安装在ADV上的一个或多个图像捕获装置从ADV的周围环境中捕获的;

由ADS从所捕获的音频信号流中提取第一特征向量,以及从所捕获的图像帧序列中提取第二特征向量;

由ADS将第一特征向量和第二特征向量级联以创建级联特征向量;以及

基于级联特征向量,通过ADS使用第一神经网络模型来确定在ADV的周围环境中存在紧急车辆。

附图说明

本公开的实施方式在附图的各图中以举例而非限制的方式示出,附图中的相同参考标记指示相似元件。

图1是示出根据一个实施方式的网络化系统的框图。

图2是示出根据一个实施方式的自动驾驶车辆的示例的框图。

图3A和图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知和规划系统的示例的框图。

图4示出了根据一个实施方式的紧急车辆检测系统的示例。

图5进一步示出了根据一个实施方式的紧急车辆检测系统。

图6示出了根据一个实施方式的检测紧急车辆的过程。

具体实施方式

将参考以下所讨论的细节来描述本公开的各种实施方式和方面,附图将示出所述各种实施方式。下列描述和附图是本公开的说明,而不应当解释为对本公开进行限制。描述了许多特定细节以提供对本公开的各种实施方式的全面理解。然而,在某些情况下,并未描述众所周知的或常规的细节,以提供对本公开的实施方式的简洁讨论。

本说明书中对“一个实施方式”或“实施方式”的提及意味着结合该实施方式所描述的特定特征、结构或特性可包括在本公开的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部指同一实施方式。

根据各种实施方式,描述了用于操作自动驾驶车辆(ADV)的系统、方法和介质。实施方式使用多个机器学习模型分别从由安装在ADV上的传感器捕获的音频数据和视觉数据中提取特征,然后融合提取的这些特征以创建级联特征向量。级联特征向量被提供到多层感知器(MLP)作为输入,以产生与周围环境中是否存在紧急车辆相关的检测结果。ADV可使用该检测结果来采取适当的行动以遵守当地的交通规则。

与音频数据和视觉数据的决策级融合(后融合)相比,本公开中的实施方式可更准确地检测紧急车辆。

在一个实施方式中,一种操作自动驾驶车辆(ADV)的方法包括:在ADV上的自动驾驶系统(ADS)处接收音频信号流和图像帧序列,其中,音频信号流是使用安装在ADV上的一个或多个音频捕获装置从ADV的周围环境中捕获的,以及图像帧序列是使用安装在ADV上的一个或多个图像捕获装置从周围环境中捕获的;以及由ADS从所捕获的音频信号流中提取第一特征向量,以及从所捕获的图像帧序列中提取第二特征向量。该方法还包括:由ADS将第一特征向量和第二特征向量级联以创建级联特征向量;以及基于级联特征向量,通过ADS使用第一神经网络模型来确定在ADV的周围环境中存在紧急车辆。

在一个实施方式中,第一神经网络模型是多层感知器(MLP)网络,其可进一步输出紧急车辆的位置,另外还可输出紧急车辆的移动方向。响应于确定ADV的位置,ADS可基于紧急车辆的位置和移动方向来控制ADV,包括将ADV引导出当前行驶车道或制动ADV以减速中的至少一个。

在一个实施方式中,提取第一特征向量还包括使用三个不同的神经网络从捕获的音频信号流中提取三个不同的特征向量。这三个不同的特征向量可以是基本音频特征向量、Mel频率倒谱系数(MFCC)特征向量和Mel直方图特征向量。然后,这三个不同的特征向量可被级联成单个音频特征向量,该音频特征向量可被馈送到MLP以进一步处理。

本文描述的实施方式可包括存储可执行计算机程序指令的非暂时性机器可读介质,当计算机程序指令由一个或多个数据处理系统执行时,该可执行计算机程序指令可使一个或多个数据处理系统执行本文描述的一个或多个方法。该指令可存储在诸如快闪存储器或其它形式的存储器的非易失性存储器中。这些实施方式还可作为系统的权利要求来实践。

以上概述不包括本公开中所有实施方案的详尽列表。所有系统和方法可根据本公开中描述的各种方面和实施方式的所有适当组合来实践。

图1是示出根据本公开的一个实施方式的自动驾驶网络配置的框图。参考图1,网络配置100包括可通过网络102通信地联接到一个或多个服务器103至104的自动驾驶车辆(ADV)101。尽管示出一个ADV,但多个ADV可通过网络102联接到彼此和/或联接到服务器103至104。网络102可以是任何类型的网络,例如,有线或无线的局域网(LAN)、诸如互联网的广域网(WAN)、蜂窝网络、卫星网络或其组合。服务器103至104可以是任何类型的服务器或服务器群集,诸如,网络或云服务器、应用服务器、后端服务器或其组合。服务器103至104可以是数据分析服务器、内容服务器、交通信息服务器、地图和兴趣点(MPOI)服务器或位置服务器等。

ADV是指可配置成处于自动驾驶模式下的车辆,在该自动驾驶模式下车辆在极少或没有来自驾驶员的输入的情况下导航通过环境。这种ADV可包括传感器系统,该传感器系统具有配置成检测与车辆运行环境有关的信息的一个或多个传感器。该车辆和其相关联的控制器使用所检测的信息来导航通过该环境。ADV 101可在手动模式下、在全自动驾驶模式下或者在部分自动驾驶模式下运行。

在一个实施方式中,ADV 101包括但不限于自动驾驶系统(ADS)110、车辆控制系统111、无线通信系统112、用户接口系统113、以及传感器系统115。ADV 101还可包括普通车辆中包括的某些常用部件,诸如:发动机、车轮、方向盘、变速器等,该部件可由车辆控制系统111和/或ADS 110使用多种通信信号和/或命令进行控制,该多种通信信号和/或命令例如,加速信号或命令、减速信号或命令、转向信号或命令、制动信号或命令等。

部件110至115可经由互连件、总线、网络或其组合通信地联接到彼此。例如,部件110至115可经由控制器局域网(CAN)总线通信地联接到彼此。CAN总线是设计成允许微控制器和装置在没有主机的应用中与彼此通信的车辆总线标准。它是最初是为汽车内的复用电气布线设计的基于消息的协议,但也用于许多其它环境。

现在参考图2,在一个实施方式中,传感器系统115包括但不限于一个或多个相机211、全球定位系统(GPS)单元212、惯性测量单元(IMU)213、雷达单元214以及光探测和测距(LIDAR)单元215。GPS系统212可包括收发器,该收发器可操作以提供关于ADV的位置的信息。IMU单元213可基于惯性加速度来感测ADV的位置和定向变化。雷达单元214可表示利用无线电信号来感测ADV的当地环境内的对象的系统。在一些实施方式中,除感测对象之外,雷达单元214可另外感测对象的速度和/或前进方向。LIDAR单元215可使用激光来感测ADV所处环境中的对象。除其它系统部件之外,LIDAR单元215还可包括一个或多个激光源、激光扫描器以及一个或多个检测器。相机211可包括用来采集ADV周围环境的图像的一个或多个装置。相机211可以是静物相机和/或视频相机。相机可以是可机械地移动的,例如,通过将相机安装在旋转和/或倾斜平台上。

传感器系统115还可包括其它传感器,诸如,声纳传感器、红外传感器、转向传感器、油门传感器、制动传感器以及音频传感器(例如,麦克风)。音频传感器可配置成从ADV周围的环境中采集声音。转向传感器可配置成感测方向盘、车辆的车轮或其组合的转向角度。油门传感器和制动传感器分别感测车辆的油门位置和制动位置。在一些情形下,油门传感器和制动传感器可集成为集成式油门/制动传感器。

在一个实施方式中,车辆控制系统111包括但不限于转向单元201、油门单元202(还称为加速单元)和制动单元203。转向单元201用来调整车辆的方向或前进方向。油门单元202用来控制电动机或发动机的速度,电动机或发动机的速度进而控制车辆的速度和加速度。制动单元203通过提供摩擦使车辆的车轮或轮胎减速而使车辆减速。应注意,如图2所示的部件可以以硬件、软件或其组合实施。

返回参考图1,无线通信系统112允许ADV 101与诸如装置、传感器、其它车辆等外部系统之间的通信。例如,无线通信系统112可与一个或多个装置直接无线通信,或者经由通信网络进行无线通信,诸如,通过网络102与服务器103至104通信。无线通信系统112可使用任何蜂窝通信网络或无线局域网(WLAN),例如,使用WiFi,以与另一部件或系统通信。无线通信系统112可例如使用红外链路、蓝牙等与装置(例如,乘客的移动装置、显示装置、车辆101内的扬声器)直接通信。用户接口系统113可以是在车辆101内实施的外围装置的部分,包括例如键盘、触摸屏显示装置、麦克风和扬声器等。

ADV 101的功能中的一些或全部可由ADS 110控制或管理,尤其当在自动驾驶模式下操作时。ADS 110包括必要的硬件(例如,处理器、存储器、存储装置)和软件(例如,操作系统、规划和路线安排程序),以从传感器系统115、控制系统111、无线通信系统112和/或用户接口系统113接收信息,处理所接收的信息,规划从起始点到目的地点的路线或路径,随后基于规划和控制信息来驾驶车辆101。可替代地,ADS 110可与车辆控制系统111集成在一起。

例如,作为乘客的用户可例如经由用户接口来指定行程的起始位置和目的地。ADS110获得行程相关数据。例如,ADS 110可从MPOI服务器中获得位置和路线数据,MPOI服务器可以是服务器103至104的一部分。位置服务器提供位置服务,并且MPOI服务器提供地图服务和某些位置的POI。可替代地,此类位置和MPOI信息可当地高速缓存在ADS 110的永久性存储装置中。

当ADV 101沿着路线移动时,ADS 110也可从交通信息系统或服务器(TIS)获得实时交通信息。应注意,服务器103至104可由第三方实体进行操作。可替代地,服务器103至104的功能可与ADS 110集成在一起。基于实时交通信息、MPOI信息和位置信息以及由传感器系统115检测或感测的实时当地环境数据(例如,障碍物、对象、附近车辆),ADS 110可规划最佳路线并且根据所规划的路线例如经由控制系统111来驾驶车辆101,以安全且高效到达指定目的地。

服务器103可以是数据分析系统,从而为各种客户执行数据分析服务。在一个实施方式中,数据分析系统103包括数据收集器121和机器学习引擎122。数据收集器121从各种车辆(ADV或由人类驾驶员驾驶的常规车辆)收集驾驶统计数据123。驾驶统计数据123包括指示所发出的驾驶指令(例如,油门、制动、转向指令)以及由车辆的传感器在不同的时间点捕捉到的车辆的响应(例如,速度、加速、减速、方向)的信息。驾驶统计数据123还可包括描述不同时间点下的驾驶环境的信息,例如,路线(包括起始位置和目的地位置)、MPOI、道路状况、天气状况等。

基于驾驶统计数据123,出于各种目的,机器学习引擎122产生或训练一组规则、算法和/或预测模型124。然后,可将算法124上传到ADV上,以在自动驾驶过程中实时使用。

图3A和图3B是示出根据一个实施方式的与ADV一起使用的自动驾驶系统的示例的框图。系统300可实施为图1的ADV 101的一部分,包括但不限于ADS 110、控制系统111和传感器系统115。参考图3A至图3B,ADS 110包括但不限于定位模块301、感知模块302、预测模块303、决策模块304、规划模块305、控制模块306、路线安排模块307。

模块301至307中的一些或全部可以以软件、硬件或其组合实施。例如,这些模块可安装在永久性存储装置352中、加载到存储器351中,并且由一个或多个处理器(未示出)执行。应注意,这些模块中的一些或全部可通信地联接到图2的车辆控制系统111的一些或全部模块或者与其集成在一起。模块301至307中的一些可一起集成为集成模块。

定位模块301确定ADV 300的当前位置(例如,利用GPS单元212)以及管理与用户的行程或路线相关的任何数据。定位模块301(又称作为地图与路线模块)管理与用户的行程或路线相关的任何数据。用户可例如经由用户接口登录并且指定行程的起始位置和目的地。定位模块301与ADV 300的诸如地图与路线数据311的其它部件通信,以获得行程相关数据。例如,定位模块301可从位置服务器和地图与POI(MPOI)服务器获得位置和路线数据。位置服务器提供位置服务,并且MPOI服务器提供地图服务和某些位置的POI,从而可作为地图与路线数据311的一部分高速缓存。当ADV 300沿着路线移动时,定位模块301也可从交通信息系统或服务器获得实时交通信息。

基于由传感器系统115提供的传感器数据和由定位模块301获得的定位信息,感知模块302确定对周围环境的感知。感知信息可表示普通驾驶员在驾驶员正驾驶的车辆周围将感知到的东西。感知可包括例如采用对象形式的车道配置、交通灯信号、另一车辆的相对位置、行人、建筑物、人行横道或其它交通相关标志(例如,停止标志、让行标志)等。车道配置包括描述一个或多个车道的信息,诸如,例如车道的形状(例如,直线或弯曲)、车道的宽度、道路中的车道数量、单向或双向车道、合并或分开车道、出口车道等。

感知模块302可包括计算机视觉系统或计算机视觉系统的功能,以处理并分析由一个或多个相机采集的图像,从而识别ADV环境中的对象和/或特征。对象可包括交通信号、道路边界、其它车辆、行人和/或障碍物等。计算机视觉系统可使用对象识别算法、视频跟踪以及其它计算机视觉技术。在一些实施方式中,计算机视觉系统可绘制环境地图,跟踪对象,以及估算对象的速度等。感知模块302也可基于由诸如雷达和/或LIDAR的其它传感器提供的其它传感器数据来检测对象。

感知模块302可包括紧急车辆检测模块308,紧急车辆检测模块308可使用音频数据和视觉数据两者来检测ADV的周围环境中存在紧急车辆。

针对每个对象,预测模块303预测对象在这种情况下将如何表现。预测是基于感知数据执行的,该感知数据在考虑一组地图/路线数据311和交通规则312的时间点感知驾驶环境。例如,如果对象为相反方向上的车辆且当前驾驶环境包括十字路口,则预测模块303将预测车辆是否可能会笔直向前移动或转弯。如果感知数据表明十字路口没有交通灯,则预测模块303可能会预测车辆在进入十字路口之前可能需要完全停车。如果感知数据表明车辆目前处于左转唯一车道或右转唯一车道,则预测模块303可能预测车辆将更可能分别左转或右转。

针对每个对象,决策模块304作出关于如何处置对象的决定。例如,针对特定对象(例如,交叉路线中的另一车辆)以及描述对象的元数据(例如,速度、方向、转弯角度),决策模块304决定如何与该对象相遇(例如,超车、让行、停止、超过)。决策模块304可根据诸如交通规则或驾驶规则312的规则集来作出此类决定,该规则集可存储在永久性存储装置352中。永久性存储装置352中还可以包括简档表313。

路线安排模块307配置成提供从起始点到目的地点的一个或多个路线或路径。对于从起始位置到目的地位置的给定行程,例如从用户接收的给定行程,路线安排模块307获得路线与地图数据311,并确定从起始位置至到达目的地位置的所有可能路线或路径。路线安排模块307可产生地形图形式的参考线,它确定了从起始位置至到达目的地位置的每个路线。参考线是指不受其它诸如其它车辆、障碍物或交通状况的任何干扰的理想路线或路径。即,如果道路上没有其它车辆、行人或障碍物,则ADV应精确地或紧密地跟随参考线。然后,将地形图提供至决策模块304和/或规划模块305。决策模块304和/或规划模块305检查所有可能的路线,以根据由其它模块提供的其它数据选择和更改最佳路线中的一个,其中,其它数据诸如为来自定位模块301的交通状况、由感知模块302感知到的驾驶环境以及由预测模块303预测的交通状况。根据时间点下的特定驾驶环境,用于控制ADV的实际路径或路线可能接近于或不同于由路线安排模块307提供的参考线。

基于针对所感知到的对象中的每个的决定,规划模块305使用由路线安排模块307提供的参考线作为基础,为ADV规划路径或路线或轨迹、以及驾驶参数(例如,距离、速度和/或转弯角度)。换言之,针对给定的对象,决策模块304决定对该对象做什么,而规划模块305确定如何去做。例如,针对给定的对象,决策模块304可决定超过该对象,而规划模块305可确定在该对象的左侧还是右侧超过。规划和控制数据由规划模块305产生,包括描述车辆300在下一移动周期(例如,下一路线/路径段)中将如何移动的信息。例如,规划和控制数据可指示车辆300以30英里每小时(mph)的速度移动10米,随后以25mph的速度变到右侧车道。

基于规划和控制数据,控制模块306根据由规划和控制数据限定的轨迹(也被称为路线或路径),通过将适当的命令或信号经由CAN总线模块321发送到车辆控制系统111来控制并驾驶ADV。规划和控制数据包括足够的信息,以沿着路径或路线在不同的时间点使用适当的车辆设置或驾驶参数(例如,油门、制动、转向命令)将车辆从路线或路径的第一点驾驶到第二点。

在一个实施方式中,规划阶段在多个规划周期(也称作为驾驶周期)中执行,例如,在每个时间间隔为100毫秒(ms)的周期中执行。对于规划周期或驾驶周期中的每一个,将基于规划和控制数据发出一个或多个控制命令。即,对于每100ms,规划模块305规划下一个路线段或路径段,例如,包括目标位置和ADV到达目标位置所需要的时间。可替代地,规划模块305还可规定具体的速度、方向和/或转向角等。在一个实施方式中,规划模块305为下一个预定时段(诸如,5秒)规划路线段或路径段。对于每个规划周期,规划模块305基于在前一周期中规划的目标位置规划用于当前周期(例如,下一个5秒)的目标位置。控制模块306然后基于当前周期的规划和控制数据产生一个或多个控制命令(例如,油门、制动、转向控制命令)。

应注意,决策模块304和规划模块305可集成为集成模块。决策模块304/规划模块305可包括导航系统或导航系统的功能,以确定ADV的驾驶路径。例如,导航系统可确定用于影响ADV沿着以下路径移动的一系列速度和前进方向:该路径在使ADV沿着通往最终目的地的基于车行道的路径前进的同时,基本上避免感知到的障碍物。目的地可根据经由用户接口系统113进行的用户输入来设定。导航系统可在ADV正在运行的同时动态地更新驾驶路径。导航系统可将来自GPS系统和一个或多个地图的数据合并,以确定用于ADV 101的驾驶路径。

图4示出了根据一个实施方式的紧急车辆检测系统400的示例。紧急车辆检测模块308可在特征级融合音频数据和视觉数据。紧急车辆检测模块308包括音频子模块407和视觉子模块409。

音频子模块407可接收由安装在ADV 101上的音频传感器403从ADV的周围环境中捕获的音频数据404,并且从音频数据中提取音频特征向量411。视觉子模块409可接收由视觉传感器405捕获的视觉数据406,并将经训练的神经网络模型(例如,卷积网络(CNN))应用于所捕获的视觉数据以提取视觉特征向量417。音频特征向量411和视觉特征向量417可级联成音频-视觉特征向量410,音频-视觉特征向量410可被馈送到多层感知器(MLP)419作为输入。

在一个实施方式中,音频传感器403(还被称为音频捕获装置)可包括安装在ADV101的不同位置的多个麦克风。麦克风可在ADV上形成具有固定且已知位置的麦克风阵列,麦克风阵列布置为在ADV 101周围感测不同方向上的声音。视觉传感器或图像传感器405(还称为图像捕获装置)可包括安装在ADV 101上的不同位置的多个相机。音频传感器403和视觉传感器405可进行校准,使得其可从同步的相同对象(例如,紧急车辆)捕获音频信号和图像。因此,在指定的任何驾驶周期中,可以同步从周围环境中捕获的音频信号流和从周围环境捕获的图像帧序列。

在一个实施方式中,音频子模块407可以是实施一个或多个预定算法或者一个或多个神经网络模型的软件模块。视觉子模块409可以是经训练的神经网络模型(例如,卷积网络(CNN))。

在一个实施方式中,音频子模块407可将从周围环境中捕获的音频信号流转换成数值表示(即,数值阵列)。然后,音频子模块407可将数值阵列分割成多个块以与图像帧序列中的图像帧的数量匹配。可从数值阵列的块中提取不同抽象级的特征以形成音频特征向量411。在图5中讨论了从数值阵列中提取特征的细节。

在一个实施方式中,视觉子模块409可使用训练用于紧急车辆识别的CNN模型来提取视觉特征。由图像帧序列表示的视觉数据可被馈送到经训练的CNN作为输入。每个图像帧可通过CNN向前传播。然而,代替允许图像帧通过CNN的每个层向前传播以到达输出层,CNN可在预先指定的层(例如,激活或汇集层)处停止传播,并且在预先指定的层处提取值作为视觉特征向量417。

CNN可使用从在ADV当前正在其上行驶的特定路段上行驶的多个紧急车辆收集或从在不同路段上行驶的紧急车辆收集的视觉数据来进行训练。

在一个实施方式中,紧急车辆检测模块308可将音频特征向量411和视觉特征向量417级联成音频-视觉特征向量410。级联两个特征向量411和417的过程是执行音频数据与视觉数据的特征级融合的过程。在一个实施方式中,两个特征向量411和417可直接级联成单个向量而无需任何修改。通过这种方法,来自每个块的音频特征可与来自相应图像帧的视觉特征级联。在另一实现方式中,使用了加权特征级融合方法,其中可根据加权因子从每个特征向量411和417中选择特征。加权因子可以是凭经验确定的信噪比,并且可用于在不同天气条件下在一天中的不同时间测量特定路段上的噪声水平。该比率可由ADV 101基于ADV 101正在路段上行驶时的时间和天气自动调整。在一个实施方式中,周围环境越嘈杂,则需要选择越多的音频特征来补偿来自音频数据的低质量信息。另一种方法是使用经训练的神经网络来融合这两个特征向量411和417,该神经网络可确定从音频特征向量411和视觉特征向量417中获取哪些特征以形成级联的音频-视觉特征向量410。

如图4进一步所示,MLP 419将级联的音频-视觉特征向量410作为输入并输出指示周围环境中存在紧急车辆的可能性的概率421、紧急车辆的位置423以及紧急车辆的移动方向425。

在一个实施方式中,MLP 419可以是在输入层与输出层之间具有一个或多个层的前馈神经网络。在MLP 419中,数据沿一个方向从输入层流向输出层。MLP 419可使用反向传播学习算法进行训练,该反向传播学习算法使用从音频数据和视觉数据中提取的级联音频-视觉特征,该音频数据和视觉数据是从在该特定路段上行驶或从任何路段行驶的多个紧急车辆收集的。

在一个实施方式中,紧急车辆的位置423通过紧急车辆的方向和紧急车辆到ADV101的距离来测量。紧急车辆的方向可由表示ADV 101的线与从ADV 101延伸到紧急车辆的线之间的角度来表示。表示ADV 101的线可以是沿着ADV 101的行驶方向穿过ADV 101的线。紧急车辆的移动方向425指示紧急车辆是朝向ADV 101移动还是远离ADV 101移动。

在一个实施方式中,来自紧急车辆检测模块308的输出信息可由自动驾驶系统110用于产生要经由CAN总线模块321发送到车辆控制系统111的命令或信号。基于该命令或信号,车辆控制系统111可控制ADV 101采取适当的行动。

在一个实施方式中,响应于确定出紧急车辆正朝向ADV 101移动,ADV 101可引导出当前驾驶车道或制动器减速或引导向路边。如果紧急车辆正远离ADV 101移动,则ADV101可继续沿其当前路径行进而不受干扰。

图5进一步示出了根据一个实施方式的紧急车辆检测系统400。更具体地,图5详细示出了音频子模块407。

在一个实施方式中,音频子模块407可包括用于提取不同级的音频特征的多个机器学习模型。神经网络模型(例如,CNN)503可用于从由音频传感器403捕获的原始音频数据中提取音频信号509。如上所述,由音频传感器403捕获的音频信号流可被转换成数值阵列,然后分割成与由视觉传感器405捕获的图像帧序列中的图像帧数量相等的块(窗口)。所提取的音频信号509可以是包括特征(诸如,音频信号的每个窗口(块)的频率、幅度和短语)的向量。

在一个实施方式中,Mel频率倒谱系数(MFCC)特征提取器505可从由音频传感器403捕获的原始音频数据中提取MFCC特征511。MFCC是共同构成Mel频率倒谱(MFC)的系数,MFC是声音的短期功率谱表示,其基于频率的非线性Mel标度上的对数功率谱的线性余弦变换。所提取的MFCC特征511是特征向量。

MFCC特征提取器505可以是经训练的神经网络模型或实施MFCC提取算法的软件应用。在一个实施方式中,该算法可执行从音频数据中提取MFCC特征的操作,包括在音频数据中对音频信号加窗、应用离散傅立叶变换(DFT)、取幅度对数、以及然后在Mel标度上进行频率变换,接着应用逆DCT。

Mel频谱图提取器507可从由音频传感器403捕获的原始音频数据中提取Mel频谱图特征515。Mel频谱图是将频率转换为Mel标度的频谱图。频谱图是信号频率随时间变化的频谱的直观表示。Mel频谱图提取器507可以是经训练的神经网络模型或实施Mel频谱图特征提取算法的软件应用。所提取的Mel谱图特征511可以是特征向量。

在一个实施方式中,音频信号特征向量509、MFCC特征向量511和Mel频谱图特征向量515可级联在一起以形成音频特征向量411,音频特征向量411进一步与视觉特征向量417级联以形成音频-视觉特征向量410。

在一个实施方式中,三个特征向量509、511和515在帧/块级同步,这些向量的级联可通过简单地将特征向量组合成单个特征向量来执行。

图6示出了根据一个实施方式的检测紧急车辆的过程600。过程600可由可包括软件、硬件或其组合的处理逻辑来执行。例如,过程600可由图4中描述的自动驾驶系统执行。

如图6所示,在操作601,处理逻辑接收音频信号流和图像帧序列,音频信号流是使用安装在ADV上的一个或多个音频捕获装置从ADV的周围环境中捕获的,以及图像帧序列是使用安装在ADV上的一个或多个图像捕获装置从周围环境中捕获的。在操作602,处理逻辑从所捕获的音频信号流中提取第一特征向量,以及从所捕获的图像帧序列中提取第二特征向量。在操作603,处理逻辑将第一特征向量和第二向量级联以创建级联特征向量。在操作604,处理逻辑基于级联特征向量,使用第一神经网络模型来确定ADV的周围环境中存在紧急车辆。

应注意,如上文示出和描述的部件中的一些或全部可在软件、硬件或其组合中实施。例如,此类部件可实施为安装并存储在永久性存储装置中的软件,该软件可通过处理器(未示出)加载在存储器中并在存储器中执行以实施贯穿本申请所述的过程或操作。可替代地,此类部件可实施为编程或嵌入到专用硬件(诸如,集成电路(例如,专用集成电路或ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA))中的可执行代码,该可执行代码可经由来自应用的相应驱动程序和/或操作系统来访问。此外,此类部件可实施为处理器或处理器内核中的特定硬件逻辑,作为可由软件部件通过一个或多个特定指令访问的指令集的一部分。

前述详细描述中的一些部分已经根据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方式,以将他们的工作实质最有效地传达给本领域中的其他技术人员。本文中,算法通常被认为是导致所期望结果的自洽操作序列。这些操作是指需要对物理量进行物理操控的操作。

然而,应当牢记,所有这些和类似的术语均旨在与适当的物理量关联,并且仅仅是应用于这些量的方便标记。除非在以上讨论中以其它方式明确地指出,否则应当了解,在整个说明书中,利用术语(诸如所附权利要求书中所阐述的术语)进行的讨论是指计算机系统或类似电子计算装置的动作和处理,所述计算机系统或电子计算装置操控计算机系统的寄存器和存储器内的表示为物理(电子)量的数据,并将所述数据变换成计算机系统存储器或寄存器或者其它此类信息存储装置、传输或显示装置内类似地表示为物理量的其它数据。

本公开的实施方式还涉及用于执行本文中的操作的设备。这种计算机程序存储在非暂时性计算机可读介质中。机器可读介质包括用于以机器(例如,计算机)可读的形式存储信息的任何机构。例如,机器可读(例如,计算机可读)介质包括机器(例如,计算机)可读存储介质(例如,只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光存储介质、闪存存储器装置)。

前述附图中所描绘的过程或方法可由处理逻辑来执行,所述处理逻辑包括硬件(例如,电路、专用逻辑等)、软件(例如,体现在非暂时性计算机可读介质上)或两者的组合。尽管所述过程或方法在上文是依据一些顺序操作来描述的,但是应当了解,所述操作中的一些可按不同的顺序执行。此外,一些操作可并行地执行而不是顺序地执行。

本公开的实施方式并未参考任何特定的编程语言进行描述。应认识到,可使用多种编程语言来实施如本文描述的本公开的实施方式的教导。

在以上的说明书中,已经参考本公开的具体示例性实施方式对本公开的实施方式进行了描述。将显而易见的是,在不脱离所附权利要求书中阐述的本公开的更宽泛精神和范围的情况下,可对本公开作出各种修改。因此,应当在说明性意义而不是限制性意义上来理解本说明书和附图。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号