首页> 中国专利> 基于目标检测的多任务及临近信息融合的深度学习算法

基于目标检测的多任务及临近信息融合的深度学习算法

摘要

本发明公开了基于目标检测的多任务及临近信息融合的深度学习算法,包括输入图片,利用卷积神经网络提取图像特征,并生成目标候选框;利用图像特征,将图片经过区域候选网络,提取出目标预测框;将目标预测框进行特征提取和特征池化,再进行边框回归、方向预测、目标检测分类,得到初步检测结果;将初步检测结果与目标候选框融合并进入ROI池化层和通过第二全连接层,得到最终检测结果;其中,目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数;算法采用多任务输出模式。本发明在提高目标检测的速度的同时,确保了目标检测的准确性,达到实时目标检测的要求。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-07-24

    授权

    授权

  • 2019-01-22

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20180817

    实质审查的生效

  • 2018-12-28

    公开

    公开

说明书

技术领域

本发明涉及图像信息处理领域,特别是基于目标检测的多任务及临近信息融合的深度学习算法。

背景技术

目前,目标检测一直是视觉计算应用的一个基础难题,应用于交通监测、智能驾驶等领域。而现实条件中,一方面由于目标的多样性如在道路上要检测车辆,行人,数目,栏杆等,目标的子类别数量众多如车辆中有公车,小汽车,卡车,自行车等,另一方面目标存在多种角度,不同的遮挡情况和目标显示的局部大小,给目标检测带来了巨大的难度。目标检测目前仍是一个非常具有挑战性的领域,而且在要在实时情况下做到目标检测、识别、并进行追踪,对于检测精度和检测速度都有相当高的要求。

从RCNN即Regions with CNN features开始,将卷积神经网络引入到目标检测领域,大大提高了目标检测效果;随后,SppNET、Fast-RCNN和Faster-RCNN的提出,进一步加速卷积神经网络在目标检测领域的应用,但同时也存在准确率与识别速度的矛盾,因多次重复的特征提取和计算而降低识别速度,同时需要大容量存储空间。此外,还有一种YOLO即You only look once的结构,识别速度快,但是以牺牲了一定准确率来换取的。提升目标检测的准确度与速度以使其能满足实时目标检测要求的问题迫在眉睫。

发明内容

为解决上述问题,本发明的目的在于提供基于目标检测的多任务及临近信息融合的深度学习算法,提升目标检测的准确度与速度以满足实时目标检测。

本发明解决其问题所采用的技术方案是:

基于目标检测的多任务及临近信息融合的深度学习算法,包括以下步骤:

输入经初始化带有真实框的图片,利用预训练好的卷积神经网络提取图像特征,并生成目标候选框;利用所述的图像特征,将图片经过区域候选网络,提取出目标预测框;将目标预测框经过卷积层进行特征提取和经过池化层进行特征池化,再经过第一全连接层进行初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类,得到包含经筛选后的目标预测框的初步检测结果;将所述初步检测结果和目标候选框融合并进入ROI池化层,并通过第二全连接层来进行最终边框回归和最终目标检测分类,得到包含已分类图片的最终检测结果;

其中,所述初步目标检测分类和最终目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数。

进一步,所述目标预测框与真实框之间的方向预测包括以下步骤:将目标预测框的坐标与真实框的坐标对比,对目标预测框打标签。

此外,所述标签的含义为目标预测框相对于真实框的位置移动;所述标签包括Gl、Gr、Gt和Gd,分别对应目标预测框的左边界、右边界、下边界和上边界。

进一步,所述标签Gl或Gr对应的动作包括“向左移”、“向右移”、“停在此处”以及“该目标预测框没有目标”;所述标签Gt或Gd对应的动作包括“向上移”、“向下移”、“停在此处”以及“该目标预测框没有目标”。

进一步,所述初步目标检测分类和最终目标检测分类具体包括以下步骤:经过目标预测框与真实框之间的方向预测后,结合目标预测框的坐标与其对应的四个标签,得到一组其临近的其他目标预测框;对比目标预测框与其临近的其他目标预测框的位置信息和标签,结果一致则该目标预测框的置信度分数不变,结果不一致则该目标预测框的置信度分数减少;当遍历完成后,应用NMS算法得到最终的结果。

进一步,所述初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类实现多任务输出,共享网络参数。

进一步,所述最终边框回归和最终目标检测分类实现多任务输出,共享网络参数。

进一步,所述网络参数包括真实框的分类和真实框的边框回归目标。

优选地,所述卷积神经网络是ResNet101网络。

本发明的有益效果是:本发明采用的基于目标检测的多任务及临近信息融合的深度学习算法,通过对目标预测框的置信度分数算法的改进能减少冗余的特征提取与重复的卷积计算,从而缩短目标检测的流程,提高检测的速率;同时对于目标预测框的选择精度提升了从而提高检测的准确率。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1是本发明基于目标检测的多任务及临近信息融合的深度学习算法的网络结构图;

图2是本发明基于目标检测的多任务及临近信息融合的深度学习算法的步骤流程图。

具体实施方式

参照图1和图2,本发明的基于目标检测的多任务及临近信息融合的深度学习算法包括以下步骤:

步骤S1:输入经初始化带有真实框的图片,利用预训练好的卷积神经网络提取图像特征,并生成少量明显的目标候选框;

步骤S2:利用步骤S1得到的图像特征,将图片经过区域候选网络,提取出大量的目标预测框;

步骤S3:将步骤S2得到的目标预测框经过卷积层进行特征提取和经过池化层进行特征池化,再经过第一全连接层进行初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类,得到包含经筛选后的目标预测框的初步检测结果;

步骤S4:将步骤S3得到的初步检测结果和步骤S1得到的目标候选框融合并进入ROI池化层,并通过第二全连接层来进行最终边框回归和最终目标检测分类,得到最终检测结果。

其中,步骤S3中的初步目标检测分类和步骤S4中的最终目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数;同时目标检测分类基于目标预测框与真实框之间的方向预测。

所述目标预测框与真实框之间的方向预测为将目标预测框的坐标与真实框的坐标对比,并对目标预测框打标签。所述标签的含义为目标预测框相对于真实框的位置移动;所述标签为Gl、Gr、Gt和Gd,分别对应目标预测框的左边界、右边界、下边界和上边界。标签Gl或Gr对应的动作包括“向左移”、“向右移”、“停在此处”以及“该目标预测框没有目标”;标签Gt或Gd对应的动作包括“向上移”、“向下移”、“停在此处”以及“该目标预测框没有目标”。

目标检测分类的得分算法具体为,经过目标预测框与真实框之间的方向预测后,结合目标预测框的坐标与其对应的四个标签,得到一组其临近的其他目标预测框;对比目标预测框与该组其临近的其他目标预测框的位置信息和标签,结果一致则该目标预测框的置信度分数不变,结果不一致则该目标预测框的置信度分数减少。

一个实施例中,假设一个目标预测框P有坐标系P={x1,y1,x2,y2}以及所预测的分数S。定义一系列目标预测框P临近的其他目标预测框组成集合N。假设N有n个值,假设集合N里面的第i个目标预测框的坐标为对于每一组坐标,可以判断P与Ni之间的方向是否正确。计算的具体公式如下所示:

其中,

其他的Ω(P,Ni)函数的规则与Ωl(P,Ni)相同。当遍历完成后,应用NMS即NonMaximum>

此外,本发明中,初步边框回归、预测框与真实框之间的方向预测和初步目标检测分类实现多任务输出;同时最终边框回归和最终目标检测分类也实现多任务输出。进行多任务输出能共享网络参数,多进程迭代学习,并且共享过程能够推动单个或多个任务的效果。在通过了区域候选网络产生目标预测框后,通过接入池化层对每个目标预测框的卷积特征进行池化,那么这些池化后的特征就用于上述的三个子任务。每一个用于训练的目标预测框都标上了真实框的分类和真实框的边框回归目标。这些标记的数值可以用于分类损失函数和边框回归函数。

分类损失函数具体为:

边框回归函数具体为:

本发明正是基于多任务输出以及对目标检测分类的得分算法的改进使得准确率与速度都得到明显的提高。

测试结果如下:

表1.本算法与其他方法的mAP比较表

方法名称mAP本发明91.67Faster-RCNN82.843DOP88.64AOG75.94

表1是在KITTI数据集上进行测试验证得到的。mAP是衡量目标检测的准确率的一个标准。由此可看出,本发明在mAP方面较其他方法得到了明显的提升。

以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号