首页> 中国专利> 4D毫米波和激光点云多视角特征融合的三维目标检测方法

4D毫米波和激光点云多视角特征融合的三维目标检测方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了4D毫米波和激光点云多视角特征融合的三维目标检测方法，所述方法包括：同时采集毫米波雷达点云数据和激光雷达点云数据；将毫米波雷达点云数据和激光雷达点云数据，输入预先建立和训练好的毫米波与激光雷达融合网络，输出三维目标检测结果；所述毫米波与激光雷达融合网络，用于分别从BEV视角学习激光雷达和毫米波雷达的交互信息，从透视视角学习激光雷达和毫米波雷达的交互信息，将这个交互信息进行拼接，从而实现毫米波雷达点云数据和激光雷达点云数据的融合。本发明的方法能够结合毫米波和激光雷达的优点，同时尽量避免两种模态的缺点，得到更好的三维目标检测结果。

著录项

公开/公告号CN113158763A

专利类型发明专利
公开/公告日2021-07-23

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN202110200544.2
发明设计人张新钰;刘华平;刘玉超;
展开▼

申请日2021-02-23
分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G01S17/931(20200101);G01S13/931(20200101);G01S13/86(20060101);
代理机构11472 北京方安思达知识产权代理有限公司;
代理人陈琳琳;杨青
地址 100084 北京市海淀区清华园1号
入库时间 2023-06-19 11:57:35

说明书

技术领域

本发明涉及一种自动驾驶领域，特别涉及4D毫米波和激光点云多视角特征融合的三维目标检测方法。

背景技术

自动驾驶四大核心技术，分别是环境感知、精确定位、路径规划、线控执行。通过摄像头、超声波雷达、激光雷达、毫米波雷达、惯导系统和全球卫星导航系统等采集环境信息，构建高精度地图进行车辆定位，从而预测周围的静态和动态场景状况。对环境感知信息和车辆定位信息进行融合，为异常处理系统提供输入，进而生成路径规划。最后线控执行则会通过轨迹跟踪对决策系统下达转向控制、驱动控制和制动控制，由执行层中具体的驱动程序和执行部件去执行决策层下达的指令。

目前，实现自动驾驶的关键还是在于环境感知，如障碍物探测、车道线的检测、道路信息读取、地图构建与辅助定位和交通参与者(车辆、行人、动物等)检测与识别。其中，主要的传感器是摄像头、激光雷达和毫米波雷达，摄像头的优势是成本低、2D算法发展成熟。其劣势也很明显，对于光照变化明显的场景、雨雪雾天气适应性较差，测距测速功能性能差。激光雷达的优势是在测距及分辨率上都有较高水平、方向性好及抗干扰能力强。劣势是成本较高，且也会受到雨雪雾天气的影响。毫米波雷达的优势是环境适应性强，具有全天候、全天时工作特性，对于纵向目标距离与速度探测能力强，可实现远距离感知与探测，对于静态和动态目标均能高精度测量。

典型的3D目标检测方法是将点云作为输入，并为每个检测到的目标生成定向的3D边界框。这些方法可以归为两大类，区域建议方法和单阶段方法。区域建议方法会提出几个可能包含目标的区域建议，然后提取区域特征来确定每个建议的类别标签。单阶段方法利用单级网络直接预测类概率，回归目标的三维边界框，不需要区域建议生成和后处理，运行速度更快。两种方法都是通过提取点云的特征输入到网络来定位3D边界框，所以目标上点云的数量和精度就决定了这个目标能否被有效的检测到。比如16线的激光雷达在超过70米的范围里，照射到目标上的点云往往只有一束激光点云，无法描述物体的类别和尺寸。在雨雪雾天气中，由于雨滴和雪花等环境因素对激光雷达传感器的遮挡，点云质量会进一步变差。毫米波雷达在100米的范围内都会产生点云，不会随着距离而衰减，且受雨雪雾天气的影响较少。

大多数公开的数据集中都是3D毫米波数据，如nuScenes数据集，只有约100多个3D毫米波点，每个点包含水平位置信息和速度信息(x,y,v)。本发明所使用的Astyx数据集拥有约1000多个4D毫米波点云，每个点云具有三维位置信息和速度信息(x,y,z,v)。相比于其他数据集，Astyx更适合使用3D目标检测算法提取特征并与激光雷达进行有效的融合。

综上所述，为实现适应特殊天气和远距离高分辨率探测的感知系统，需要融合4D毫米波雷达和激光雷达的数据来对周围环境进行感知。激光雷达由于其点云的密度和精度较高可以在近距离上提供高精度的点云数据，而在更远的距离上就需要毫米波数据的补充。但是毫米波数据的垂直准确度低，且点云密度低，噪声较大，需要和激光雷达数据在特征值提取阶段就进行深度的融合。

发明内容

本发明的目的在于克服上述技术缺陷，提出一种4D毫米波和激光点云多视角特征融合的三维目标检测方法，可以通过多视角和注意力机制学习到两个模态间的相关性和模态内的相关性，从而提取到更加有效的特征。

为实现上述目的，本发明的实施例1提出的一种4D毫米波和激光点云多视角特征融合的三维目标检测方法，所述方法包括：

同时采集毫米波雷达点云数据和激光雷达点云数据；

将毫米波雷达点云数据和激光雷达点云数据，输入预先建立和训练好的毫米波与激光雷达融合网络，输出三维目标检测结果；

所述毫米波与激光雷达融合网络，用于分别从BEV视角学习激光雷达和毫米波雷达的交互信息，从透视视角学习激光雷达和毫米波雷达的交互信息，将这个交互信息进行拼接，从而实现毫米波雷达点云数据和激光雷达点云数据的融合。

作为上述方法的一种改进，所述毫米波与激光雷达融合网络包括：体素化模块、特征融合模块、毫米波和激光雷达特征交互模块、伪图像处理模块、2D卷积神经网络和检测头；

所述体素化模块，用于对毫米波雷达点云数据和激光雷达点云数据分别进行BEV视角的体素化，输出毫米波雷达点云数据的Pillar特征和激光雷达点云数据的Pillar特征；对毫米波雷达点云数据和激光雷达点云数据分别进行PV视角的体素化，输出毫米波雷达点云数据的Pyramid特征和激光雷达点云数据的Pyramid特征；

所述特征融合模块，用于将激光雷达点云数据的Pillar特征和毫米波雷达点云数据的Pyramid特征拼接，将毫米波雷达点云数据的Pillar特征和激光雷达点云数据的Pyramid特征拼接，将拼接后的两个特征输入毫米波和激光雷达特征交互模块；

所述毫米波和激光雷达特征交互模块，用于从BEV视角学习激光雷达和毫米波雷达的交互信息，从透视视角学习激光雷达和毫米波雷达的交互信息，得到携带毫米波雷达交互信息的激光雷达特征和携带激光雷达交互信息的毫米波雷达特征；将这个特征在通道维度进行拼接得到特征F，输入到伪图像处理模块；

所述伪图像处理模块，用于根据体素化模块中生成的每个体素的坐标，将毫米波和激光雷达特征交互模块输出的特征F按位置编码到x-y平面，形成一个128通道的伪图像；

所述2D卷积神经网络，用于从128通道的伪图像中提取多尺度的特征信息，输出至检测头；

所述检测头，用于对2D卷积神经网络输出的特征进行处理，输出目标检测结果。

作为上述方法的一种改进，所述体素化模块包括：毫米波雷达点云数据Pillar特征提取单元、激光雷达点云数据Pillar特征提取单元、毫米波雷达点云数据Pyramid特征提取单元和激光雷达点云数据Pyramid特征提取单元；

所述毫米波雷达点云数据Pillar特征提取单元，包括：第一全连接层、第一鸟瞰视图、第一FC层和第一最大池化层；毫米波雷达点云数据经过第一全连接层后维度扩展到64维，通过第一鸟瞰视图进行BEV视角体素化，在通过第一FC层和第一最大池化层后，输出毫米波雷达点云数据Pillar特征；

所述激光雷达点云数据Pillar特征提取单元，包括：第二全连接层、第二鸟瞰视图、第二FC层和第二最大池化层；激光雷达点云数据经过第二全连接层后维度扩展到64维，通过第二鸟瞰视图进行BEV视角体素化，在通过第二FC层和第二最大池化层后，输出激光雷达点云数据Pillar特征；

所述毫米波雷达点云数据Pyramid特征提取单元，包括：第三全连接层、第一透视视图、第三FC层和第三最大池化层，毫米波雷达点云数据经过第三全连接层后维度扩展到64维，通过第一透视视图进行PV视角体素化，在通过第三FC层和第三最大池化层后，输出毫米波雷达点云数据Pyramid特征；

所述激光雷达点云数据Pyramid特征提取单元，包括：第四全连接层、第二透视视图、第四FC层和第四最大池化层，激光雷达点云数据经过第四全连接层后维度扩展到64维，通过第二透视视图进行PV视角体素化，在通过第四FC层和第四最大池化层后，输出激光雷达点云数据Pyramid特征。

作为上述方法的一种改进，所述毫米波雷达点云数据Pillar特征提取单元的具体实现过程为：

将毫米波雷达点云数据在x-y平面上投影出一个H×W的网格，由此划分为H×W个体积为0.16×0.16×4的立柱；

原始毫米波雷达点云的每个点为4个维度(x,y,z,r)，(x,y,z)为三维坐标，r为反射率；每个立柱内有很多个点，每个点被扩展为10个维度：(x,y,z,x

式中，(x

每帧毫米波雷达点云数据形成一个维度为(D

该张量为毫米波雷达点云数据的Pillar特征。

作为上述方法的一种改进，所述毫米波雷达点云数据Pyramid特征提取单元的具体实现过程为：

将毫米波雷达点云数据在x-y平面上投影出一个H×W的网格，将垂直角度θ为[-26°,6°]和水平角度

每个椎体内最多随机采样N个点，少于N个点的用0填充；

每帧毫米波雷达点云数据形成一个维度为(D

作为上述方法的一种改进，所述特征融合模块的具体实现过程为：

将激光雷达的Pillar特征和毫米波雷达的Pyramid特征拼接，形成一个14维度的特征向量F

其中，F

将毫米波雷达的Pillar特征和激光雷达的Pyramid特征拼接，形成一个14维度的特征向量F

其中，F

将特征向量F

作为上述方法的一种改进，所述毫米波和激光雷达特征交互模块的具体实现过程为：

特征向量F

其中，Conv表示卷积层，Maxpool表示最大池化层，Linear表示全连接层；

将16维度的特征

式中，Softmax表示归一化操作；

将16维度的特征

将权重矩阵F

其中，ReLU为激活函数，BN为归一化层，linear为线性层；

将权重矩阵F

将两个模态的特征F

F＝Concat(F

式中，F为拼接之后的特征，Concat表示拼接操作。

作为上述方法的一种改进，所述方法还包括：对毫米波与激光雷达融合网络进行训练的步骤；具体包括：

将使用的Astyx数据集规范化为标准KITTI数据集的格式，使用标定文件将激光雷达数据和3D边界框对齐到毫米波雷达坐标系，生成训练集；

利用训练集对毫米波与激光雷达融合网络进行训练，得到训练好的毫米波与激光雷达融合网络。

本发明的实施例2提出了一种终端设备，包括：包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明的实施例3提出了一种存储介质，包括：包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明的优势在于：

本发明的4D毫米波和激光点云多视角特征融合的三维目标检测方法，旨在结合毫米波和激光雷达的优点，同时尽量避免两种模态的缺点，得到更好的三维目标检测结果。

附图说明

为了更清楚的说明本发明，下面将对本发明中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本发明的一些实施例，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的4D毫米波和激光点云多视角特征融合的三维目标检测方法的流程图；

图2为本发明实施例1提供的毫米波与激光雷达融合网络结构的示意图；

图3为本发明实施例1提供的毫米波与激光雷达特征交互模块(interRAL)结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

如图1所示，本发明的实施例1提出了4D毫米波和激光点云多视角特征融合的三维目标检测方法，包括步骤如下：

步骤1)同时采集Radar点云和Lidar点云；

步骤2)读取Radar点云和Lidar点云并分别对两种点云进行BEV视角的体素化，将点云在x-y平面上投影出来一个H×W的网格它们划分为H×W个体积为0.16×0.16×4(m)的立柱(Pillar)；

每个Pillar内有很多点云，原始的点云数据Point有4个维度(x,y,z,r)，r代表反射率。将其扩展为10个维度(x,y,z,x

式中，(x

步骤3)读取Radar点云和Lidar点云并分别对两种点云进行PV视角的体素化，将垂直角度θ为[-26°,6°]和水平角度

每个Pyramid内最多随机采样32个点，少于32个点的用0填充。每帧点云经过处理之后也形成一个维度为(D,P,N)的张量，对于每个Pyramid内的点不做类似Pillar的处理所以D为4，P为Pyramid的数量H×W，N为每个Pyramid内点的个数32；

步骤4)点云经过Pillar和Pyramid方式处理为低纬度特征后，将Lidar的Pillar特征和Radar的Pyramid特征拼接，将Radar的Pillar特征和Lidar的Pyramid特征拼接，分别形成两个14维度的特征向量：

式中，F

如图2所示，毫米波与激光雷达融合网络结构。

步骤5)将步骤4)得到两个14维度的特征分别输入到毫米波和激光雷达特征交互模块interRAL中；

如图3所示，interRAL借鉴了自注意力Self-Attention的机制，在两个模态之间互相引入转置之后的特征矩阵之后，通过对方模态来学习模态间的相关性，并且在这个过程中甄选更加有效的特征。毫米波和激光雷达特征交互模块interRAL包括连个网络实现的具体步骤为：

1)将Lidar点云的14维度的特征经过一个FC层和Maxpool层之后扩展为64维度的特征，将这个特征进行卷积操作之后降维为16维度的特征，将Radar点云的14维度的特征经过一个FC层和Maxpool层之后扩展为64维度的特征，将这个特征进行卷积操作之后降维为16维度的特征：

式中，

2)将每个模态的16维度的特征进行转置后与对方模态的16维度的特征相乘，经过Softmax归一化操作之后，分别生成生成大小为M×N和N×M的权重矩阵：

式中，F

3)将F

F＝Concat(F

式中，F

步骤6)之前体素化的时候保留了每个体素的坐标，根据这些坐标将交互过的特征F按位置编码到x-y平面，形成一个128通道的伪图像；

步骤7)将128通道的伪图像输入2D卷积神经网络(2DCNN)进一步提取特征；2DCNN使用成熟的金字塔结构CNN来提取多尺度的特征信息；

步骤8)将2DCNN输出的特征输入检测头(Detection Head)，输出目标检测结果；检测头使用成熟的RPN Head。

将本发明使用的Astyx数据集规范化为标准KITTI数据集的格式，使用标定文件将激光雷达数据对齐到毫米波坐标系；对毫米波与激光雷达融合网络进行训练。

实施例2

本发明的实施例2还可提供的一种计算机设备，包括：至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解，总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

其中，用户接口可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。

在本上述的实施例中，还可通过调用存储器存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器用于：

执行实施例1的方法的步骤。

实施例1的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

实施例3

本发明实施例3提供一种非易失性存储介质，用于存储计算机程序。当该计算机程序被处理器执行时可以实现实施例1中方法的各个步骤。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 4D毫米波和激光点云多视角特征融合的三维目标检测方法 [P] . 中国专利： CN113158763B . 2021.12.07
2. 4D毫米波和激光点云多视角特征融合的三维目标检测方法 [P] . 中国专利： CN113158763A . 2021-07-23
3. THREE-DIMENSIONAL TARGET DETECTION METHOD AND SYSTEM BASED ON POINT CLOUD WEIGHTED CHANNEL FEATURE [P] . 世界知识产权组织专利： WO2020151109A1 . 2020-07-30

机译：基于点云加权通道特征的三维目标检测方法及系统
4. MULTI-VIEW OBJECT DETECTION METHOD USING SHARED LOCAL FEATURES [P] . 韩国专利： KR101584091B1 . 2016-01-12

机译：利用共享局部特征的多视角物体检测方法
5. MULTI-VIEW OBJECT DETECTION METHOD USING SHARED LOCAL FEATURES [P] . 韩国专利： KR20150025508A . 2015-03-10

机译：利用共享局部特征的多视角物体检测方法