首页> 中国专利> 基于深度典型相关分析的视觉-激光雷达融合方法及系统

基于深度典型相关分析的视觉-激光雷达融合方法及系统

摘要

本发明涉及自动驾驶技术领域,尤其涉及基于深度典型相关分析的视觉‑激光雷达融合方法及系统。所述方法包括:同步采集路面的RGB图像和点云数据;对RGB图像进行特征提取得到RGB特征;对点云数据依次进行坐标系转换和栅格化处理,然后进行特征提取,得到点云特征;将点云特征和RGB特征同时输入预先建立和训练好的融合模型,输出特征增强的融合点云特征,所述融合模型使用相关分析结合深度神经网络将RGB特征融合到点云特征;将融合点云特征输入预先建立好的目标检测网络,实现目标检测。本发明创新地使用深度典型相关分析方法利用相似度计算矩阵来融合点云和图像两种不同模态特征,使其在必要速度妥协的情况下,提升精度。

著录项

  • 公开/公告号CN113111974A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202110506552.X

  • 发明设计人 张新钰;王力;刘凯;李志伟;

    申请日2021-05-10

  • 分类号G06K9/62(20060101);G06K9/46(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11250 北京三聚阳光知识产权代理有限公司;

  • 代理人张建纲

  • 地址 100084 北京市海淀区清华园1号

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本发明涉及自动驾驶技术领域,尤其涉及基于深度典型相关分析的视觉-激光雷达融合方法及系统。

背景技术

近些年来,自动驾驶技术领域发展迅速,其中环境感知技术是不可或缺的一环。自动驾驶车辆依赖激光雷达、相机、毫米波雷达等传感器感知周围的环境,并进行环境信息与车内信息的采集与处理,主要涉及道路边界监测、车辆检测、行人检测等技术。环境感知可以为汽车反馈道路实时信息,以便对车辆的驾驶行为提供更为精准的控制,从而提高驾驶的安全性和舒适性。

作为自动驾驶系统的基础功能之一,3D目标检测可以认为是环境感知中重要的一环,主要是检测场景中的车辆、行人等交通参与者。该功能为自动驾驶车辆后续的规划和控制提供空间障碍物的分布信息,关系到驾驶安全性问题,如果出现错误则有可能造成非常严重的后果。

当前,国内外均对3D目标检测技术有了一定的研究,从硬件角度出发,针对3D目标检测任务的数据输入来源主要来自于相机和激光雷达这两类传感器。相机作为针孔模型的感光元器件,会提供类似于人眼直观感受的RGB图像信息;而激光雷达作为一种主动采集式的传感器,能够通过发射接收激光,得到场景中目标的真实空间坐标信息。

从领域当前的研究现状来看,这两种传感器都广泛应用于3D目标检测。然而,这两种传感器都存在一定的缺陷。对于相机来说,RGB图像作为一种稠密的2D表现方式,通过像素位置和像素数值来表达空间信息,压缩了Z轴的深度信息,这会导致3D目标检测任务中难以预测物体的空间绝对位置;另外,相机镜头还对光线的变化十分敏感,时常会出现过曝或者过暗的情形,在这种场景下采集到的数据难以辨识,缺失有效信息。而对于激光雷达来说,虽然可以得到目标精确的空间位置信息,但是激光雷达作为主动式传感器,只能接受由传感器发射的激光信号,无法接受物体通过可见光反射的信号,所以无法得到物体的颜色纹理等特征信息;再者,激光的波长十分短,这又导致激光雷达的数据对于特殊天气十分敏感,比如在雨雪天气下得到的激光雷达点云通常会出现很多噪点。

综上所述,如果使用图像作为主要的输入信息,在光照变化等条件导致图像信息缺失的时候,检测系统将会出现严重的失灵,此外图像中缺乏空间距离信息也造成了检测的短板。激光雷达点云虽然可以克服光照变化的问题,但点云的稀疏性和无序性也限制了其检测能力,对100米之外的小物体很可能检测不到,不利于汽车在高速下的感知。因此,针对单纯使用车载相机或激光雷达时检测能力不足的问题,一种新颖的思路是考虑结合更多的传感器,并进行数据融合以提高对环境感知的能力。但现阶段大量的实验表明,如果只是简单的对激光雷达获得的点云信息和相机获得的RGB图像做像素级融合,不仅不会对感知算法的精度提升,反而会起到负面作用,通常都会在一定程度上降低感知精度。

发明内容

本发明的目的在于克服现有技术缺陷,提出基于深度典型相关分析的视觉-激光雷达融合方法及系统。

为了实现上述目的,本发明提出了一种基于深度典型相关分析的视觉-激光雷达融合方法,所述方法包括:

同步采集路面的RGB图像和点云数据;

对RGB图像进行特征提取得到RGB特征;

对点云数据依次进行坐标系转换和栅格化处理,然后进行特征提取,得到点云特征;

将点云特征和RGB特征同时输入预先建立和训练好的融合模型,输出特征增强的融合点云特征,所述融合模型使用相关分析结合深度神经网络将RGB特征融合到点云特征;

将融合点云特征输入预先建立好的目标检测网络,实现目标检测。

作为上述方法的一种改进,所述对点云数据依次进行坐标系转换和栅格化处理,然后进行特征提取,得到点云特征;具体为:

将点云数据从点云坐标系转换成图像坐标系,转换后的每一个像素点对应空间中的一个点;

对图像坐标系下x-y平面进行H×W栅格化,栅格化后形成H×W=P个Pillar,其中,H和W分别表示在二维平面x和y方向的栅格数;根据某点云的真实三维坐标和反射率,得到该点云到其所在Pillar内重心O点的距离X

对每个Pillar使用PointNet算法提取特征,生成(64,P,N)的向量,64表示64维,再使用取最大值操作以及线性处理得到(256,H,W)的伪图像,256表示256维。

作为上述方法的一种改进,所述融合模型的输入为点云特征和RGB特征,其中,点云特征X为(256,P)的向量,RGB特征Y为(64,P)的向量,P为Pillar个数,输出为融合后的点云特征,为(64,P)的向量;所述融合模型包括非线性结构特征提取单元和相关分析单元;其中,

所述非线性结构特征提取单元,用于分别提取点云特征X的非线性结构f和RGB特征Y的非线性结构g;

所述相关分析单元,用于通过相关分析方法对提取的非线性结构f和非线性结构g进行相关性极大化。

作为上述方法的一种改进,所述非线性结构特征提取单元包括第一深度神经网络模型和第二深度神经网络模型;其中,

所述第一深度神经网络模型包括提取点云特征X非线性结构的深度神经网络模型f(X;W

所述第二深度神经网络模型包括提取RGB特征Y非线性结构的深度神经网络模型g=g(Y;W

作为上述方法的一种改进,所述相关分析单元的具体处理过程包括:

通过相关分析方法将提取的非线性结构f和g相关性极大化:

其中,N表示每个pillar内的点云数目,U=[u

作为上述方法的一种改进,所述方法还包括:对融合模型进行训练的步骤;具体包括:

选取公开数据集KITTI的数据作为训练集;所述训练集包括RGB图像和点云数据;

对训练集中的RGB图像进行特征提取得到RGB特征;

对数据集中的点云数据依次进行坐标系转换和栅格化处理,然后采用PointNet算法进行特征提取,得到点云特征;

将RGB特征和点云特征输入融合模型,采用随机梯度下降法对融合模型的参数进行参数优化,得到训练好的融合模型。

一种基于深度典型相关分析的视觉-激光雷达融合系统,所述系统包括:预先建立和训练好的融合模型、采集模块、RGB特征提取模块、点云特征提取模块、融合输出模块和目标检测模块;其中,

所述采集模块,用于同步采集路面的RGB图像和点云数据;

所述RGB特征提取模块,用于对RGB图像进行特征提取得到RGB特征;

所述点云特征提取模块,用于对点云数据依次进行坐标系转换和栅格化处理,然后进行特征提取,得到点云特征;

所述融合输出模块,用于将点云特征和RGB特征同时输入预先建立和训练好的融合模型,输出特征增强的融合点云特征,所述融合模型使用相关分析结合深度神经网络将RGB特征融合到点云特征;

所述目标检测模块,用于将融合点云特征输入预先建立好的目标检测网络,实现目标检测。

一种终端设备,包括:包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的方法。

一种存储介质,包括:包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的方法。

与现有技术相比,本发明的优势在于:

本发明创新地使用Deep CCA方法利用相似度计算矩阵来融合点云和图像两种不同模态特征,Deep CCA先用深度神经网络分别求出两种模态的经过线性化的向量,然后求出两个投影向量的最大相关性,最后求出新的投影向量;使用逐点融合图像点云特征的方法来做融合,使其在必要速度妥协的情况下,提升精度。

附图说明

图1是本发明实施例1提供的基于深度典型相关分析的视觉-激光雷达融合方法的流程图;

图2是本发明实施例1提供的融合模型网络结构的示意图。

具体实施方式

针对上述问题提出了本发明。本发明提出了一种基于深度典型相关分析的视觉和激光雷达多模态融合方法,可以有效地附加RGB特征提升点云的信息量,该过程是一种点云特征增强的方式,使用典型相关分析结合深度神经网络将RGB特征融合到点云特征,使用增强后的点云进行3D目标检测,可以验证该方法的有效性。

应当理解,在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

根据本发明,提供了一种基于深度典型相关分析的视觉和激光雷达多模态融合方法,包括步骤:

步骤1、采集自动驾驶车辆的激光雷达点云Point Cloud(后文都用PC代替)以及相机图像Image(后文都用I代替),默认已经完成标定和对齐。

步骤2、将点云数据从点云坐标转换成图像坐标系,转换后的每一个像素点对应空间中的一个点。然后对图像坐标系下x-y平面作H×W栅格化,栅格化后形成H×W=P个柱子(Pillars),点云用x,y,z,r表示其真实坐标和反射率,用X

步骤3、对每个点使用PointNet算法提取特征,生成(C,P,N)维的向量(C表示特征维度),再使用取最大值操作生成(C

步骤4、根据多源信息输入设计激光点云PC和图像I融合的CCA模块,分别用卷积神经网络对两个源数据进行特征提取。

步骤5、将增强后的点云送入到现有点云3D目标检测框架中,验证3D目标检测精度得到提升。

与现有技术相比,本发明使用CCA机制有效地融合了多源信息,使两种数据优势互补,提高了3D目标检测算法的准确性;之前经典的特征融合方法包括:级联(concatenation)和叠加(add),其缺点是无法充分利用多个模态数据间的互补性,且存在信息冗余问题。目前PC与RGB融合的难点是融合后PC和RGB特征维度过高,当输入的特征维度太大并且存在很大的冗余时,很难对其进行有效处理,为了对特征更好的分析,把当前特征空间投影到另外一个特征空间,从而达到降维的效果。所以本发明引入典型相关分析CCA(Canonical Correlation Analysis)来融合特征。基于CCA的融合方法使用两个输入特征间的相关关系,计算两种变换,变换后的特征比输入的两个特征集有更高的相关性。但是CCA不能计算数据之间的非线性相关性,所以基于神经网络在点云和图像融合中使用了Deep CCA。本发明在常见的3D目标检测任务中做了验证,可以增加目标检测精度,尤其是对行人、骑行的人等小目标得到明显的精度提升。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

如图1所示,本发明的实施例1提供了一种基于深度典型相关分析的视觉-激光雷达融合方法,包括步骤如下:

步骤1、采集自动驾驶场景下的激光雷达点云以及相机图像,默认已经完成标定和对齐。由于算法的验证要保证公开有效,所以在公开数据集KITTI进行相关的实验。

步骤2、将激光雷达点云数据与RGB数据融合。

1)原始的激光雷达数据为点云,KITTI中的点云可以表示为[N,4]的矩阵,其中N为一帧场景中的点云数量,每一个点的四维特征[x,y,z,i],分别是空间x、y、z坐标和激光反射强度i;

2)给定2组N个向量:x表示图像特征,y表示点云特征。设它们的协方差分别为∑xx和∑yy,并令∑xy为交叉协方差。线性典型相关分析(CCA)寻求使两个特征的相关性最大化的线性投影对。而deep CCA对于以上两种模态数据,使用两个深度神经网络模型f=f(X;W

式中,U=[u

步骤3、图2所示为本发明的点云-图像融合模型结构图,主要包括网络结构设计、模型训练和模型测试三个部分。需要说明的是,基于深度典型相关分析的点云图像融合模型的搭建、训练、测试的硬件和软件平台为Ubuntu16.04+RTX2080Ti+

pytorch1.7+cuda10.1+python3.7。在下述步骤叙述中,对业内人士基本都掌握的理论方法不做过多叙述。

网络结构的设计的主要步骤包括:

1)在特征融合的方法中,CCA将多维的X和Y线性变换为1维的X′和Y′,再使用相关系数来看X′和Y′的相关性,将数据从多维变到1维,然后再用相关系数进行相关性的分析。即最大化两个模态之间的相关性,学习得到最大相关子空间并输出每个模态对应的投影矩阵。但是CCA不能计算数据之间的非线性相关性,所以在点云和图像融合中使用基于深度神经网络的CCA,即deep CCA。

具体实现方式:

1)首先确保输入的两类信息尺度一致,所以首先对RGB经卷积神经网络提取出图像特征,其维度为(64,P),其中P为Pillars个数,对点云特征经PointNet算法特征提取网络生成的点云特征,其维度为(256,P)。

2)然后将两部分特征从矩阵转换为向量并进行deep CCA降维。此时新生成的特征图即为通过CCA模块得到的点云特征,其维度为(64,P)。

3)将新生成的点云特征送入PointPillars检测网络,即处理伪图片的2D卷积backbone,最后回归检测3D框。

步骤4、将增强后的点云数据作为常见的3D目标检测算法的输入,可以验证特征增强的有效性。

实施例2

本发明的实施例2提供了一种基于深度典型相关分析的视觉-激光雷达融合系统,所述系统包括:预先建立和训练好的融合模型、采集模块、RGB特征提取模块、点云特征提取模块、融合输出模块和目标检测模块;其中,

所述采集模块,用于同步采集路面的RGB图像和点云数据;

所述RGB特征提取模块,用于对RGB图像进行特征提取得到RGB特征;

所述点云特征提取模块,用于对点云数据依次进行坐标系转换和栅格化处理,然后进行特征提取,得到点云特征;

所述融合输出模块,用于将点云特征和RGB特征同时输入预先建立和训练好的融合模型,输出特征增强的融合点云特征,所述融合模型使用相关分析结合深度神经网络将RGB特征融合到点云特征;

所述目标检测模块,用于将融合点云特征输入预先建立好的目标检测网络,实现目标检测。

实施例3

一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例1的方法。

实施例4

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行实施例1的方法。

最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号