首页> 中国专利> 一种自动驾驶中回归障碍物3D角度信息方法、装置、终端及存储介质

一种自动驾驶中回归障碍物3D角度信息方法、装置、终端及存储介质

摘要

本发明公开了一种自动驾驶中回归障碍物3D角度信息方法、装置、终端及存储介质,属于智能驾驶车辆的技术领域,包括:获取2D图像和初始深度学习网络模型;通过所述2D图像和初始深度学习网络模型得到网络预测的障碍物信息;获取改良后的角度损失函数,得到实际标签结果的损失;通过实际标签结果的损失得到最终深度学习网络模型,输出结果进行测试。本专利提供一种自动驾驶中回归障碍物3D角度信息方法,可以很好减少大数据情况下深度学习网络的训练时间,更好的回归障碍物的角度信息,从而更加精确的给出3D障碍物在自动驾驶场景下的角度信息和空间位置信息。

著录项

说明书

技术领域

本发明公开了一种自动驾驶中回归障碍物3D角度信息的方法、装置、终端及存储介质,属于智能驾驶车辆的技术领域。

背景技术

目前,在自动驾驶检测障碍物的方法中主要有以下几种:基于单目图像的深度学习方法,基于激光雷达采集点云的深度学习方法。然而,激光雷达传感器成本较高,使用寿命短且对于远距离物体的识别并不是很精准。因此激光雷达识别障碍物的方法,在目前并不被认为是比较经济的做法。而相机安装方式简单,成本低,且使用寿命较长,因此通过单目相机成像回归障碍物的3D信息是时下自动驾驶厂家比较热门的做法。

现在的通过单目相机获取2D图像回归障碍物3D信息的方法,主要是通过深度学习网络,例如MS-CNN,Faster-Rcnn等深度学习网络进行2D特征的提取,然后在特征层后接一些卷积层来进一步提取特征,从而回归3D障碍物的长宽高,角度和位置等信息。而关于角度的回归,目前的方法大多是直接在0到2π之间回归其数值。这样做一是增加了回归的难度,二是回归的精确度也不是很好。

发明内容

针对现有技术的缺陷,本发明提出一种自动驾驶中回归障碍物3D角度信息的方法、装置、终端及存储介质,能够更加精确的获得自动驾驶场景下障碍物的角度信息,结合网络输出的3D物体长宽高等信息,能更好的计算相机到障碍物的实际距离。

本发明的技术方案如下:

根据本发明实施例的第一方面,提供一种自动驾驶中回归障碍物3D角度信息方法,包括:

获取2D图像和初始深度学习网络模型;

通过所述2D图像和初始深度学习网络模型得到网络预测的障碍物信息;

获取改良后的角度损失函数,得到实际标签结果的损失;

通过实际标签结果的损失得到最终深度学习网络模型,输出结果进行测试。

优选的是,所述网络预测的障碍物信息为网络预测的障碍物角度信息。

优选的是,所述获取改良后的角度损失函数,得到实际标签结果的损失,包括:

获取多角度的置信度损失函数和多角度的回归损失函数,通过所述多角度的置信度损失函数和多角度的回归损失函数得到改良后的角度的损失函数;

通过所述网络预测的障碍物信息和改良后的角度损失函数得到计算网络输出结果和实际标签结果的损失。

优选的是,所述获取多角度的回归损失函数包括:

将网络预测的障碍物角度信息分成n个区间,n>1;

通过n个所述区间得到n个区间角度中心值;

获取n个真实角度标签;

通过n个所述真实角度标签和中心角度中心值得到角度差值;

获取预测角度,通过所述角度差值、真实角度标签和预测角度得到多角度的回归损失函数。

优选的是,所述预测角度、区间角度中心值和真实角度标签个数与区间个数相同。

优选的是,所述多角度的置信度损失函数公式如下:

其中,L

根据本发明实施例的第二方面,提供一种自动驾驶中回归障碍物3D角度信息装置,包括:

获取模块,用于获取2D图像和初始深度学习网络模型;

转换模块,用于通过所述2D图像和初始深度学习网络模型得到网络预测的障碍物信息;

计算模块,用于获取改良后的角度损失函数,得到实际标签结果的损失;

生成模块,用于通过实际标签结果的损失得到最终深度学习网络模型,输出结果进行测试。

优选的是,所述计算模块,用于:

获取多角度的置信度损失函数和多角度的回归损失函数,通过所述多角度的置信度损失函数和多角度的回归损失函数得到改良后的角度的损失函数;

通过所述网络预测的障碍物信息和改良后的角度损失函数得到计算网络输出结果和实际标签结果的损失。

根据本发明实施例的第三方面,提供一种终端,包括:

一个或多个处理器;

用于存储所述一个或多个处理器可执行指令的存储器;

其中,所述一个或多个处理器被配置为:

执行本发明实施例的第一方面所述的方法。

根据本发明实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行本发明实施例的第一方面所述的方法。

根据本发明实施例的第五方面,提供一种应用程序产品,当应用程序产品在终端在运行时,使得终端执行本发明实施例的第一方面所述的方法。

与现有技术相比,本发明的有益效果在于:

本专利提供一种自动驾驶中回归障碍物3D角度信息方法、装置、终端及存储介质,可以很好减少大数据情况下深度学习网络的训练时间,更好的回归障碍物的角度信息,从而更加精确的给出3D障碍物在自动驾驶场景下的角度信息和空间位置信息。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种自动驾驶中回归障碍物3D角度信息方法的流程图;

图2是根据一示例性实施例示出的一种自动驾驶中回归障碍物3D角度信息方法的流程图;

图3是根据一示例性实施例示出的一种自动驾驶中回归障碍物3D角度信息装置的结构示意框图;

图4是根据一示例性实施例示出的一种终端结构示意框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供了一种自动驾驶中回归障碍物3D角度信息方法,该方法由终端实现,终端可以是智能手机、台式计算机或者笔记本电脑等,终端至少包括CPU、语音采集装置等。

实施例一

图1是根据一示例性实施例示出的一种自动驾驶中回归障碍物3D角度信息方法的流程图,该方法用于终端中,该方法包括以下步骤:

步骤101、获取2D图像和初始深度学习网络模型;

步骤102、通过所述2D图像和初始深度学习网络模型得到网络预测的障碍物信息;

步骤103、获取改良后的角度损失函数,得到实际标签结果的损失;

步骤104、通过实际标签结果的损失得到最终深度学习网络模型,输出结果进行测试。

优选的是,所述网络预测的障碍物信息为网络预测的障碍物角度信息。

优选的是,所述获取改良后的角度损失函数,得到实际标签结果的损失,包括:

获取多角度的置信度损失函数和多角度的回归损失函数,通过所述多角度的置信度损失函数和多角度的回归损失函数得到改良后的角度的损失函数;

通过所述网络预测的障碍物信息和改良后的角度损失函数得到计算网络输出结果和实际标签结果的损失。

优选的是,所述获取多角度的回归损失函数包括:

将网络预测的障碍物角度信息分成n个区间,n>1;

通过n个所述区间得到n个区间角度中心值;

获取n个真实角度标签;

通过n个所述真实角度标签和中心角度中心值得到角度差值;

获取预测角度,通过所述角度差值、真实角度标签和预测角度得到多角度的回归损失函数。

优选的是,所述预测角度、区间角度中心值和真实角度标签个数与区间个数相同。

优选的是,所述多角度的置信度损失函数公式如下:

其中,L

实施例二

图2是根据一示例性实施例示出的一种自动驾驶中回归障碍物3D角度信息方法的流程图,该方法用于终端中,该方法包括以下步骤:

步骤201、获取2D图像和初始深度学习网络模型。

步骤202、通过所述2D图像和初始深度学习网络模型得到网络预测的障碍物信息。

网络预测的障碍物信息为网络预测的障碍物角度信息。

步骤203、获取多角度的置信度损失函数;

网络预测的障碍物角度信息,角度的损失函数则比较复杂,目前的做法通常是直接回归角度的数值。在现实的三维世界中,车辆或者人的朝向是360度的,如果直接用回归数值的方法,需要大量的数据,同时回归的精确度也不高。因此本文借鉴了2D目标检测中anchors框回归坐标的思路,采用先把角度分成若干个区域,再对区域中的角度回归其相对残差的方法。因此首先获取改良后的角度损失函数,通过所述网络预测的障碍物信息和改良后的角度损失函数得到计算网络输出结果和实际标签结果的损失。

首先将网络预测的障碍物角度信息分成n个区间,n>1,下面将以3个为例,将角度值分为n1,n2,n3,3个区域的角度范围。

通过n个所述区间得到n个区间角度中心值c1,c2,c3…ci。

获取n个真实角度标签,属于的角度区间,并将这个区间的置信度置为1,其他区间为0;例如角度标签属于n1区间,则置信度标签

其中,L

步骤204、获取多角度的回归损失函数。

通过n个所述真实角度标签θ

Δθ

获取预测角度

其中为

步骤205、通过所述多角度的置信度损失函数和多角度的回归损失函数得到改良后的角度的损失函数。

步骤206、通过所述网络预测的障碍物信息和改良后的角度损失函数得到计算网络输出结果和实际标签结果的损失。

具体公式如下:

L

其中,其中α和β是调节两种损失函数的比例超参数。

步骤207、通过所述初始深度学习网络模型和实际标签结果的损失得到最终深度学习网络模型,输出结果进行测试。

通过深度学习网络更新参数,以减小真实角度与预测角度的差别,使上式中的实际标签结果的损失L

本发明中,可以很好减少大数据情况下深度学习网络的训练时间,更好的回归障碍物的角度信息,从而更加精确的给出3D障碍物在自动驾驶场景下的角度信息和空间位置信息。

实施例三

在示例性实施例中,还提供了一种自动驾驶中回归障碍物3D角度信息装置,如图3所示,包括:

获取模块310,用于获取2D图像和初始深度学习网络模型;

转换模块320,用于通过所述2D图像和初始深度学习网络模型得到网络预测的障碍物信息;

计算模块330,用于获取改良后的角度损失函数,得到实际标签结果的损失;

生成模块340,用于通过实际标签结果的损失得到最终深度学习网络模型,输出结果进行测试。

优选的是,所述计算模块,用于:

获取多角度的置信度损失函数和多角度的回归损失函数,通过所述多角度的置信度损失函数和多角度的回归损失函数得到改良后的角度的损失函数;

通过所述网络预测的障碍物信息和改良后的角度损失函数得到计算网络输出结果和实际标签结果的损失。

本发明中,可以很好减少大数据情况下深度学习网络的训练时间,更好的回归障碍物的角度信息,从而更加精确的给出3D障碍物在自动驾驶场景下的角度信息和空间位置信息。

实施例四

图4是本申请实施例提供的一种终端的结构框图,该终端可以是上述实施例中的终端。该终端400可以是便携式移动终端,比如:智能手机、平板电脑。终端400还可能被称为用户设备、便携式终端等其他名称。

通常,终端400包括有:处理器401和存储器402。

处理器401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器401可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是有形的和非暂态的。存储器402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器401所执行以实现本申请中提供的在视频中添加特效的方法。

在一些实施例中,终端400还可选包括有:外围设备接口403和至少一个外围设备。具体地,外围设备包括:射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中,处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上;在一些其他实施例中,处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路404包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路404还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。

触摸显示屏405用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏405还具有采集在触摸显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。触摸显示屏405用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,触摸显示屏405可以为一个,设置终端400的前面板;在另一些实施例中,触摸显示屏405可以为至少两个,分别设置在终端400的不同表面或呈折叠设计;在再一些实施例中,触摸显示屏405可以是柔性显示屏,设置在终端400的弯曲表面上或折叠面上。甚至,触摸显示屏405还可以设置成非矩形的不规则图形,也即异形屏。触摸显示屏405可以采用LCD(LiquidCrystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地,摄像头组件406包括前置摄像头和后置摄像头。通常,前置摄像头用于实现视频通话或自拍,后置摄像头用于实现照片或视频的拍摄。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能,主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能。在一些实施例中,摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。

音频电路407用于提供用户和终端400之间的音频接口。音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器401进行处理,或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中,终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于:加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号,控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度,陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D(3Dimensions,三维)动作。处理器401根据陀螺仪传感器412采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在终端400的侧边框时,可以检测用户对终端400的握持信号,根据该握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时,可以根据用户对触摸显示屏405的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹,以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器401授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时,指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中,处理器401可以根据光学传感器415采集的环境光强度,控制触摸显示屏405的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏405的显示亮度;当环境光强度较低时,调低触摸显示屏405的显示亮度。在另一个实施例中,处理器401还可以根据光学传感器415采集的环境光强度,动态调整摄像头组件406的拍摄参数。

接近传感器416,也称距离传感器,通常设置在终端400的正面。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中,当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时,由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态;当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时,由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解,图4中示出的结构并不构成对终端400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

实施例五

在示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的水温表显示方法:获取当前发动机水温;根据所述当前发动机水温以及预设显示规则确定水温表对应的数值;控制所述水温表显示所述水温表对应的数值。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

实施例六

在示例性实施例中,还提供了一种应用程序产品,包括一条或多条指令,该一条或多条指令可以由上述装置的处理器401执行,以完成上述一种自动驾驶中回归障碍物3D角度信息。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言,可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号