首页> 中国专利> 一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置

一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置

摘要

本发明公开了一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置,自车运动估计和预测部分建立了完整车辆视觉里程计,实现对自车运动的独立建模。其次,所提出的目标轨迹初始化方法基于所建立的视觉里程计和深度图信息,将不同时刻的目标边界框坐标归一化到当前时刻。自车运动估计和预测模型完成了对目标运动与自车运动的解耦。最后,在未来轨迹预测部分使用归一化的轨迹坐标,在自车当前相机视角下完成对目标未来轨迹的预测。模型各阶段训练时所需数据包括车载相机拍摄的视频序列以及该序列内各目标的位置信息和身份信息。

著录项

  • 公开/公告号CN114820708A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 江苏大学;

    申请/专利号CN202210460015.0

  • 申请日2022-04-28

  • 分类号G06T7/246;G06T7/73;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08;

  • 代理机构南京智造力知识产权代理有限公司;

  • 代理人王军丽

  • 地址 212013 江苏省镇江市京口区学府路301号

  • 入库时间 2023-06-19 16:09:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    公开

    发明专利申请公布

说明书

技术领域

本发明属于车辆智能驾驶领域,特别是涉及一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置。

背景技术

智能汽车已成为全球汽车产业发展的战略方向,也是我国汽车强国建设的历史机遇,是新一代信息技术、高端装备制造、新材料、新能源等战略性新兴产业的创新集成载体。环境感知是实现汽车智能化的重要基础,也是智能汽车实现高级别自动驾驶的瓶颈所在。轨迹预测是建立在目标检测和跟踪基础上的高层行为感知技术,能够为智能汽车的决策控制提供有效信息,提高行驶轨迹规划的安全性和合理性。特别,在十字路口、高速公路汇入匝道等复杂的交通场景下,有效的轨迹预测对于提升汽车行驶驾驶安全性具有重要作用。

现有的轨迹预测方法需要建立在目标检测、跟踪、定位和地图匹配基础上,完成一定范围内与周边车辆相对运动关系的建模,这对自车环境感知系统的要求极高,并且推理速度较慢,在一定程度上制约了该类方法的实际应用。

针对此类轨迹预测方法存在的不足,本发明基于低成本的智能汽车单目感知系统,开发了一种自车视角下的周边多目标轨迹预测技术。该视角下车载相机捕获到的目标边界框的位置变化不仅仅来自于目标的运动,而且与自车运动密切相关,如何进行目标运动与自车运动的解耦是新的问题,其核心在于单目视角下目标的深度识别和自车的位姿估计。

发明内容

本发明提出的轨迹预测方法包含了自车运动估计与预测、目标轨迹初始化以及未来轨迹预测三个部分。首先,自车运动估计和预测部分建立了完整车辆视觉里程计,实现对自车运动的独立建模。其次,所提出的目标轨迹初始化基于所建立的视觉里程计和深度图信息,将不同时刻的目标边界框坐标归一化到当前时刻。自车运动估计和预测模型完成了对目标运动与自车运动的解耦。最后,在未来轨迹预测部分使用归一化的轨迹坐标,在自车当前相机视角下完成对目标未来轨迹的预测。模型各阶段训练时所需数据包括车载相机拍摄的视频序列以及该序列内各目标的位置信息和身份信息。以上方法所使用模型包括了自车运动估计网络、自车运动预测网络以及多目标轨迹预测网络。

本发明的有益效果:

(1)本发明提出一种自车运动估计网络。该网络是由深度估计网络和位姿估计网络构成的自监督训练模型,模型通过输入完整的自车过去与未来图像序列来计算自车运动的视觉里程计。两种网络均使用编解码器结构,其中编码器可以为任意层数较深的卷积神经网络模型,提取低维大尺度的图像特征,将其转化为高维小尺度的特征图。该网络能够有效解决现有预测方法未充分考虑自车运动状态的不足,并将与自车运动相关联的周边目标的像素坐标转换到归一化的静态相机坐标系内。

(2)本发明提出一种自车运动预测网络。所提出的自车运动估计网络在实际场景中进行推理时,只能通过车载相机获取到历史时刻图像信息。所以此时,该模型只能计算出自车历史运动过程中各相机坐标系之间的位姿变换矩阵,而无法直接计算出自车未来运动过程中的位姿变换矩阵。为了解决上述问题,所提出方法增加了一个新的自车运动预测网络。该网络引入了由长短时记忆网络(LSTM)构成的编解码器模型来预测自车未来的位姿变化,网络输入仅包含了由自车估计网络输出的历史各帧间的位姿变换参数。自车运动预测网络与自车运动估计网络相结合,构成了一种交互计算模型,实现了对自车完整视觉里程计的计算。

(3)本发明提出一种多目标轨迹预测网络。该轨迹预测网络同样由编解码器结构组成。编码器分为两个部分,第一部分为运动特征编码器,使用的模型是长短时记忆网络(LSTM),其作用是提取归一化后的历史目标边界框信息;第二部分为区域特征编码器,区域编码器对目标在当前时刻所处位置的像素块以及该位置在过去图像中的像素块序列进行编码。该编码器使用的网络为卷积LSTM(ConvLSTM),ConvLSTM是一种将卷积运算和LSTM的门控机制结合的神经网络。该网络在使用卷积提取图像特征的同时也控制了当前图像特征信息的输入比例和历史图像特征信息的保留比例。本发明所提出的轨迹预测网络建立了计算目标图像和边界框位置序列与未来轨迹之间映射关系的网络模型,该模型预测的未来轨迹以极小的像素误差达到了与真实轨迹接近的程度。

(4)本发明提出了一种多阶段的模型的训练方法,给出了建议的神经网络训练所必须的超参数,以及各神经网络层合适的输入输出维度以及层数,提升了运动估计和轨迹预测的效果。

(5)本发明提出了一种基于低成本的环境感知设备(单目相机)的周边多目标轨迹预测方法。该方法由图像和目标身份位置数据驱动,能够实现对车辆周边多目标未来边界框所构成轨迹的准确预测,最低预测误差可达10像素。

附图说明

图1第t帧图像与第t′帧图像之间的自车位姿变换

图2自车运动估计网络整体结构

图3自车运动预测网络整体结构

图4多目标轨迹预测网络整体结构

图5 KITTI Tracking数据集下的典型测试结果

具体实施方式

下面结合附图对本发明作进一步说明。

Step1:建立自车视觉里程计

本发明通过车载相机拍摄的视频建立自车运动过程的视觉里程计,完成对自车运动的独立建模。解耦自车运动和周边目标运动的首要步骤是通过车载相机拍摄的视频建立自车运动过程的视觉里程计,完成对自车运动的独立建模。将视频分解为由多帧图像组成的图像序列,则每一帧图像中拍摄到的目标均处于当前时刻自车的相机坐标系内。车辆在行驶过程中,车辆运动方向和位置的改变会造成相机坐标系的连续变换,即车辆位姿变换。如图1所示,自车运动估计的目的就是计算自车所处的历史帧t-h,…,t-1与当前帧t之间的位姿变换,并预测自车所处的未来帧t+1,…,t+f与t之间的位姿变换。帧间变换过程可视作两帧的相机坐标系绕轴a旋转θ,该过程可用变换矩阵T

式中:

Step2:构建自车运动估计网络

本发明使用由深度估计网络和位姿估计网络构成的自监督训练模型来完成自车运动估计,网络结构如图2所示。首先,利用深度估计网络输出当前帧图像I

I

proj:p

式中:proj为重投影操作,p

具体地,深度估计网络为编解码器结构。其中深度编码器D

F

D

位姿估计网络同为编解码器结构,位姿编码器P

根据罗德里格斯公式来计算so(3)到SO(3)之间的指数映射,再结合偏移量d得到位姿变换矩阵T:

T

R=exp(φ^)=exp(θa^)

exp(θa^)=cosθE+(1+cosθ)aa

式中:^是反对称符号。最终得到的位姿变换矩阵T表示I

在实际模型训练过程中,从历史时刻t-h+1到未来时刻t+f-1之间的图像序列将与相邻帧共同输入到多个共享权重的位姿估计编解码器中进行计算,最终得到该序列完整的视觉里程计VO={T

Step3:构建自车运动预测网络

如图3所示,自车运动预测网络P

F

O

式中:f

LSTM解码器采用非自回归(NAR)的方式对H

O

φ

式中:f

Step4:目标轨迹归一化

根据自车运动估计网络输出的视觉里程计,可以计算出当前时刻t的相机坐标系与其他所有时刻t′的相机坐标系之间的位姿变换矩阵集合{T

式中:d(B

Step5:预测未来轨迹

经过目标轨迹归一化过程后,历史时刻t′的目标边界框已被转换到当前时刻t,得到边界框

(1)目标运动特征编码

静止视角内的任意目标由于运动方向的不同以及运动速度的不同,其边界框的宽h

然后,将历史运动信息序列X={x

O

最后使用第t个LSTMCell输出的隐藏状态H

(2)区域图像特征编码

当前帧图像I

其中,Concatnate为级联操作,对图像的通道维度进行合并。

将P输入到ConvLSTM中,网络输出为H

O

F

将H

(3)未来轨迹预测

在复杂交通场景下,不同类别的目标的运动模式和自身属性存在较大的差异,所以使用单个模型对所有类别的目标进行建模是不合理的。本预测网络使用LSTM解码器接收不同各目标的编码信息F

O

式中:H

其中,上标或下标t表示t时刻,同样的,利用proj公式和Step1中预测的未来自车运动的位姿变换矩阵,把视角t的边界框序列投影到其所处的t′视角,t′∈{t+1,...,t+f},最终得到预测边界框中心点坐标序列B

Step6:多阶段模型训练方法

(1)第一阶段

自车运动估计网络的主要目的是准确计算图像之间的位姿变换,所以模型训练第一阶段的目的是保留图像特征提取网络的权重,微调输出深度和位姿的解码器网络。深度估计网络和位姿估计网络深度估计网络采用monodepth2中使用KITTI RAW数据集训练的图像尺寸h×w为640×192的模型作为预训练模型,h为高,w为宽。

自车估计网络使用KITTI Tracking数据集进行训练,在训练过程中冻结深度估计编码器D

式中:pe是光度重建损失(photometric reconstruction error),该损失函数由结构相似性损失函数(SSIM)和L1损失函数加权相加得到,其中超参数α=0.85。

(2)第二阶段

在整体模型训练的第二个阶段,自车运动估计网络将加载第一阶段中微调过程中验证集损失最小的epoch保存的模型权重,并且在本轮不进行训练。

自车运动预测网络P

式中,i表示序列长度,j表示输出数据维度。

(3)第三阶段

轨迹预测网络使用KITTI Tracking数据集进行训练,计算轨迹预测误差时将考虑预测坐标点(x

式中:n是当前图像中包含的目标个数。

(4)训练细节

本发明使用KITTI数据集作为模型训练和验证的数据集。KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院共同研究制作,是目前最大规模的多场景自动驾驶算法评测数据集之一。KITTI数据集包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,以10Hz的频率采样及同步。本发明使用了KITTI跟踪数据集(KITTI Tracking)为轨迹预测提供所需要的目标位置信息和身份信息。该数据集包含了20个场景下的视频数据以及每个视频中序列形式的目标位置信息和身份信息,并且给定了各车载相机的内参矩阵。本发明提出的方法在训练时以车辆为目标,使用单帧检索序列的方式提取训练数据。整体数据集共包含4041条车辆轨迹,使用数据集的70%作为训练集,10%作为验证集,其余20%作为测试集。

在模型训练过程中,第一阶段的损失函数为L

(5)轨迹预测可视化

图5所示为本发明所提模型在不同场景下测试效果,包含周边单车和周边多车场景。在单车辆场景中,目标车辆与自车保持较小的相对运动,所提模型在三个关键帧上均具有精准的预测效果;在多车场景中,各车辆均与自车保持一定速度的相对运动,其中第二列的目标车辆处于运动状态,第三列的目标车辆处于静止状态,表征真值的绿色框和表征预测值的红色框重合率高,体现了所提方法较好的预测精度。另一方面,所提方法在对周边处于静止状态车辆的预测误差相对于运动状态车辆而言较高,其原因可能在于静止车辆与自车相对运动速度较大且方向相反,对模型预测产生了影响。

上述预测方法、以及设计的各模型和模型训练方法均可设置在控制器装置或存储装置中。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号