首页> 中国专利> 一种自适应融合可见光与点云数据的三维目标检测方法

一种自适应融合可见光与点云数据的三维目标检测方法

摘要

本发明公开了一种自适应融合可见光与点云数据的三维目标检测方法MAP‑FN。该方法输入摄像机图像以及原始点云图,首先使用图像采样器和投影矩阵生成基于点的激光雷达特征,用于结合底层细节信息,然后通过双流区域候选网络进行点云特征和点云图像特征的自适应融合,生成3D选区,最后通过边界框细化实现3D物体检测。整个过程使用图像和点云作为原始输入,避免了鸟瞰图中点云原始数据的信息损失,降低了融合的复杂度,提高了三维空间物体检测的准确率,克服了原有方法的缺点。

著录项

  • 公开/公告号CN113111751A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 西北工业大学;

    申请/专利号CN202110353140.7

  • 发明设计人 袁媛;刘程堪;姜志宇;

    申请日2021-04-01

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构61204 西北工业大学专利中心;

  • 代理人金凤

  • 地址 710072 陕西省西安市友谊西路127号

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本发明属于图像处理技术领域,具体涉及一种三维目标检测方法。

背景技术

在智能驾驶系统中,需要对周围目标所处的空间位置、类型、运动状态实现精准感知。目前,多种传感器被应用于智能驾驶领域,通过感知周围环境信息获取目标物体的类别、三维大小及旋转角度等指标,实现3D目标检测。基于多模态融合的方法相比较于基于单一数据的方法而言,通过相互之间支持、补充、修正,能提供更准确的信息,逐渐成为3D目标检测中主流的研究方法。文献“X.Chen,H.Ma,J.Wan,B.Li,and T.Xia,Multi-View 3dObject Detection Network for Autonomous Driving,in the IEEE Conference onComputer Vision and Pattern Recognition,2017,pp.1907-1915”提出了一种基于图像和激光雷达点云信息的三维目标检测方法。该方法旨在实现高精度的三维目标检测自主驾驶场景,提出多视图3D网络,即一个传感器融合框架,将激光雷达点云和图像作为输入,并预测定向三维边界框。该网络由两个子网络组成,用于3D对象选区生成和多视图特征融合,区域提案网络生成的三维候选框可以有效地从鸟瞰图中表现三维点云,这是一种结合多个视图区域特性的融合方案,并支持不同输入路径中间层之间的交互。在具有挑战性的KITTI基准测试集上的3D任务检测取得了较为优秀的结果。文献所述方法由于采用基于投影的方式结合效果并不理想,并且具有较大的信息损失,降低了3D目标的检测效率。另外,这种方法使用激光雷达鸟瞰图和图像作为输入,鸟瞰图和图像足够很好地诠释3D空间中的信息,但是会导致预处理量和后续计算量太大,影响整个算法的检测效率。

发明内容

为了克服现有技术的不足,本发明提供了一种自适应融合可见光与点云数据的三维目标检测方法MAP-FN(Multimodal Adaptation Point-based Fusion Network)。该方法输入摄像机图像以及原始点云图,首先使用图像采样器和投影矩阵生成基于点的激光雷达特征,用于结合底层细节信息,然后通过双流区域候选网络进行点云特征和点云图像特征的自适应融合,生成3D选区,最后通过边界框细化实现3D物体检测。整个过程使用图像和点云作为原始输入,避免了鸟瞰图中点云原始数据的信息损失,降低了融合的复杂度,提高了三维空间物体检测的准确率,克服了原有方法的缺点。

本发明解决其技术问题所采用的技术方案包括如下步骤:

步骤1:将摄像机获取的图像输入图像处理流:所述图像处理流由四个轻量级卷积块和四个具有不同步长的并行转置卷积层依次组成;每个轻量级卷积块由两个3×3卷积层、一个批处理归一层和一个ReLU激活函数组成;

摄像机获取的图像经过四个轻量级卷积块输出语义图像特征,再经过并行转置卷积层恢复图像分辨率,得到与原始图像相同大小的特征图并进行拼接,得到最终特征图;

步骤2:将激光雷达点云图像输入几何处理流;所述几何处理流由四个集合特征抽取层和一个特征传播层依次组成;

所述集合特征抽取层首先使用最远点采样法在激光雷达点云图像中采样多个中心点,然后以每个中心点为球心聚合指定半径内的所有点作为一个组,之后采集聚合的每个组的特征作为点云特征;

所述特征传播层使用反距离权重法对激光雷达点云图像进行插值,然后将插值的特征和集合特征抽取层提取出来的特征进行组合,组合后的特征经过1x1的卷积核进行处理;

步骤3:构建图像点云融合模块;

所述图像点云融合模块由图像采样器、投影矩阵和全连接层构成;图像采样器采集激光雷达点云图像,通过已校准的投影矩阵,将激光雷达点投影到摄像机图像上;将投影矩阵表示为M,则对于激光雷达点云中的某个特定点p(x,y,z),得到其在摄像机图像中的对应位置p'(x',y'),公式表示为:

p′=M×p

其中M为大小是3×4的投影矩阵,在投影公式中,将p'和p互相转换为齐次坐标下的三维和四维向量;

步骤4:利用图像点云融合模块将点云特征与语义图像特征进行融合;

将点云特征F

w=σ(ωtanh(αF

其中,ω,α,β分别表示图像点云融合模块中可学习的权重矩阵,σ表示Sigmoid激活函数;

在得到权重图w后,将点云特征F

F

步骤5:由三个集合特征抽取层组成优化网络,优化网络包括两个子网络,分别由两个级联的1×1卷积层组成,用于分类和回归;使用非极大值抑制方法对拼接后的图像进行目标检测。

本发明的有益效果如下:

本发明利用图像点云融合模块,将不同传感器即激光雷达点云和摄像机图像的双流区域候选网络联合起来,有效地将点云特征与图像语义特征进行增强,降低了原始多模态数据在信息融合过程中的信息损失,相对于已有方法从总体上提高了三维空间中目标检测的检测精度与效率。

附图说明

图1为本发明方法检测网络结构示意图。

图2为本发明方法图像点云融合模块网络结构示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示,一种自适应融合可见光与点云数据的三维目标检测方法,包括以下步骤:

步骤1:将摄像机获取的图像输入图像处理流:所述图像处理流由四个轻量级卷积块和四个具有不同步长的并行转置卷积层依次组成;每个轻量级卷积块由两个3×3卷积层、一个批处理归一层和一个ReLU激活函数组成;

摄像机获取的图像经过四个轻量级卷积块输出语义图像特征,再经过并行转置卷积层恢复图像分辨率,得到与原始图像相同大小的特征图并进行拼接,得到一个包含丰富语义图像信息的最终特征图;

步骤2:将激光雷达点云图像输入几何处理流;所述几何处理流由四个集合特征抽取层(Set Abstraction)和一个特征传播层(Feature Propogation)依次组成;

所述集合特征抽取层首先使用最远点采样法在激光雷达点云图像中采样多个中心点,然后以每个中心点为球心聚合指定半径内的所有点作为一个组,之后采集聚合的每个组的特征作为点云特征;

所述特征传播层使用反距离权重法对激光雷达点云图像进行插值,然后将插值的特征和集合特征抽取层提取出来的特征进行组合,组合后的特征经过1x1的卷积核进行处理;

步骤3:构建图像点云融合模块(IL-Fusion),如图2所示;

所述图像点云融合模块由图像采样器、投影矩阵和全连接层构成;图像采样器采集激光雷达点云图像,通过已校准的投影矩阵,将激光雷达点投影到摄像机图像上;将投影矩阵表示为M,则对于激光雷达点云中的某个特定点p(x,y,z),得到其在摄像机图像中的对应位置p'(x',y'),公式表示为:

p′=M×p

其中M为大小是3×4的投影矩阵,在投影公式中,将p'和p互相转换为齐次坐标下的三维和四维向量;

步骤4:利用图像点云融合模块将点云特征与语义图像特征进行融合;

将点云特征F

w=σ(ωtanh(αF

其中,ω,α,β分别表示图像点云融合模块中可学习的权重矩阵,σ表示Sigmoid激活函数;

在得到权重图w后,将点云特征F

F

步骤5:由三个集合特征抽取层组成优化网络,优化网络包括两个子网络,分别由两个级联的1×1卷积层组成,用于分类和回归;使用非极大值抑制方法对拼接后的图像进行目标检测。

具体实施例:

1、由KITTI数据集中的数据确定生成输入图像的各种信息,包括图像的名字,图像的标签文件,图像的地平面方程,以及点云的信息,相机的标定信息。从文件里面读取出来15个参数(KITTI数据集格式):2D标签坐标(x1,y1,x2,y2)。3D标签坐标(tx,ty,tz,h,w,l)中心点坐标与长宽高,根据要求删除某些标签,比如在只训练车类时要去除行人和骑车人的标签。分别取得相应的地平面方程(一个平面方程:aX+bY+cZ=d),相机标定参数包括内外参数,以及点云([x,…],[y,…],[z,…])。

2、输入激光雷达点云和摄像机图像作为双流区域候选网络。对于每个3D场景,激光雷达点云在摄像机坐标X(右)、Y(下)、Z(前)轴上的距离分别为[-40,40]、[-1,3]、[0,70.4]。而偏向角的取向范围为[-π,π]。从原始的激光雷达点云点云中抽取16384个点作为几何流的输入。图像流以分辨率为1280×384的图像作为输入。采用4个集合抽样层对输入的激光雷达点云进行子采样,分别为4096、1024、256和64。特征传播层用于恢复点云的大小,实现前景分割和三维方案生成。

3、采用步长2、4、8、16四个并行的转置卷积,从不同尺度的特征图中恢复分辨率。在非极大值抑制过程中,我们根据分类置信度选择双流区域候选网络生成的最上层8000个box。然后用非极大值抑制阈值0.8对冗余框进行过滤,得到64个正候选框,通过细化网络对候选框进行细化。

本发明的效果可以通过以下仿真实验做进一步的说明。

1、实验条件

本发明是在4个1080Ti GPU、内存64G、Ubuntu16.04(python3.5、TensorFlow1.2.0)操作系统上,使用Python进行的实验。实验使用的数据为KITTI数据集中的图片与标注数据。采用自适应矩估计(Adam)对网络进行优化。初始学习率设置为0.002,权值衰减为0.001,动量因子分别设置为0.9。将损失函数中的平衡权重设置为5。在4个GTX1080TI GPU上以端到端方式对模型进行了大约50个epoch的训练,批处理大小为12。

2、实验内容

配置CUDA10.0+CUDNN7.5的运行环境,在PyCharm软件环境下安装好依赖项进行实验。

为了证明算法的有效性,选择了基于多视角融合的算法(MV3D),基于多模态融合的改进模型(AVOD)与基于2D-Driven(F-PointNet)的融合模型作为对比算法,MV3D算法在文献“X.Chen,H.Ma,J.Wan,B.Li,and T.Xia,Multi-View 3d Object Detection Networkfor Autonomous Driving,in the IEEE Conference on Computer Vision and PatternRecognition,2017,pp.1907-1915.”中有详细的介绍;AVOD算法是文献“K.Mozifian,M.Lee,J.Harakeh,and A.Waslander,Joint 3d Proposal Generation and ObjectDetection from View Aggregation,in Proc.IEEE/RSJ International Conference onIntelligent Robots and Systems,2018,pp.1-8.”提出的;F-PointNet算法是文献“C.Qi,W.Liu,C.Wu,H.Su,and L.Guibas,Frustum Pointnets for 3d Object Detection fromRGB-D Data,in Proc.IEEE Conf.Conference on Computer Vision and PatternRecognition,2018,pp.918-927.”提出的。对比结果如表1所示。

表1本发明方法与现有技术对比结果

从表1可见,在Moderate和Hard模式下进行方法比较,说明本发明方法有效提高了对物体的3D检测效果,且与MV3D融合算法相比具有一定的检测效率的提升。本发明将图像信息和激光雷达点云信息融合算法加以扩展,提高了算法的检测效率和实用性;本发明巧妙地融合了多模态的信息,使该方法更具有鲁棒性;本发明易于扩展,可以通过较小的改动扩展为一种有效的通用3D物体检测方法。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号