首页> 中国专利> 一种交通场景目标检测方法及系统

一种交通场景目标检测方法及系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种交通场景目标检测方法及系统，包括：获取交通场景中的待检测图像；对待检测图像进行特征提取，提取出若干特征；对已提取的若干特征进行特征融合，得到融合特征；对融合特征进行特征增强处理，得到初步分类特征和初步回归特征；对初步分类特征进行边界特征提取，得到边界分类特征和边界回归特征；将初步分类特征与边界分类特征进行融合，得到最终分类特征；将初步回归特征与边界回归特征进行融合，得到最终回归特征；基于最终分类特征和训练后的分类器，得到最终的分类预测结果；基于最终回归特征和训练后的回归器，得到最终的回归预测结果。解决了以往方法存在的检测精度低、速度慢、误检、漏检等问题，具有良好的泛化能力。

著录项

公开/公告号CN113869165A

专利类型发明专利
公开/公告日2021-12-31

原文格式PDF
申请/专利权人山东师范大学;
展开▼

申请/专利号CN202111101011.5
发明设计人李天平;丁同贺;刘智风;霍文晓;冯凯丽;魏艳军;
展开▼

申请日2021-09-18
分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构37221 济南圣达知识产权代理有限公司;
代理人黄海丽
地址 250014 山东省济南市历下区文化东路88号
入库时间 2023-06-19 13:29:16

说明书

技术领域

本发明涉及目标检测技术领域，特别是涉及一种交通场景目标检测方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

交通场景目标检测作为智能交通系统中的一项基本任务，需要实时、准确地对交通场景目标进行定位与分类。因此，完善交通场景目标检测工作具有极大的现实意义与应用价值。传统的目标检测方法是先在给定的图像上选择一些候选区域，然后对这些区域进行特征提取，最后再使用分类器进行分类。然而，这种基于滑动窗口的区域选择策略会导致过高的时间复杂度以及窗口冗余问题，而且手工设计的特征对于多样性的变化并没有很好的鲁棒性。

随着深度卷积神经网络的快速发展，目标检测的性能虽然得到了显著提升，但是仍然会存在一些问题。目前，基于卷积神经网络的目标检测方法可以分为基于锚的方法和无锚方法。在基于锚的方法中，Faster R-CNN采用两段式结构先生成目标候选框，然后再对候选框进行分类和回归。这类方法使用大量的锚作为先验框不仅会引入额外的超参数，还会造成正负样本的极度不平衡。虽然其检测精度有所提升，但是检测速度却不理想。在无锚方法中，CenterNet采用关键点估计来找到中心点，并回归到其他目标属性。这类方法不以任何预定义的先验框作为参考，而是通过确定目标的关键点和对四条边框的预测来解决检测问题。然而，无锚检测方法为了追求速度而牺牲了精度，这意味着其检测速度提升的同时，检测精度却不如基于锚的检测方法，并且当它面对一些较复杂的交通场景时，检测效果并不理想。因此，针对交通场景目标检测的研究仍然具有很大的发展空间，实现检测精度与速度之间的权衡是本发明需要解决的一个重要问题。

发明内容

为了解决现有技术的不足，本发明提供了一种交通场景目标检测方法及系统；

第一方面，本发明提供了一种交通场景目标检测方法；

一种交通场景目标检测方法，包括：

获取交通场景中的待检测图像；对待检测图像进行特征提取，提取出若干特征；

对已提取的若干特征进行特征融合，得到融合特征；对融合特征进行特征增强处理，得到初步分类特征和初步回归特征；

对初步分类特征进行边界特征提取，得到边界分类特征和边界回归特征；将初步分类特征与边界分类特征进行融合，得到最终分类特征；将初步回归特征与边界回归特征进行融合，得到最终回归特征；

基于最终分类特征和训练后的分类器，得到最终的分类预测结果；基于最终回归特征和训练后的回归器，得到最终的回归预测结果。

第二方面，本发明提供了一种交通场景目标检测系统；

一种交通场景目标检测系统，包括：

特征提取模块，其被配置为：获取交通场景中的待检测图像；对待检测图像进行特征提取，提取出若干特征；

特征融合与增强模块，其被配置为：对已提取的若干特征进行特征融合，得到融合特征；对融合特征进行特征增强处理，得到初步分类特征和初步回归特征；

边界特征提取模块，其被配置为：对初步分类特征进行边界特征提取，得到边界分类特征和边界回归特征；将初步分类特征与边界分类特征进行融合，得到最终分类特征；将初步回归特征与边界回归特征进行融合，得到最终回归特征；

预测模块，其被配置为：基于最终分类特征和训练后的分类器，得到最终的分类预测结果；基于最终回归特征和训练后的回归器，得到最终的回归预测结果。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

与现有技术相比，本发明的有益效果是：

通过融合多尺度特征获得了更加丰富的语义信息，通过提取边界特征增强了头部的分类和回归。

通过聚合多个注意力模块提高了网络的表示能力，解决了以往方法存在的检测精度低、速度慢、误检、漏检等问题，具有良好的泛化能力。

本发明附加方面的优点将在下面的描述中部分给出，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的SABNet的网络结构图；

图2为第一个实施例的尺度融合模块的结构图；

图3为第一个实施例的注意力聚合模块的结构图；

图4为第一个实施例的边界特征提取模块的结构图；

图5(a)～图5(p)为第一个实施例的我们的方法在BDD100K测试集上的检测结果；

图6(a)～图6(c)为第一个实施例的我们的方法在KITTI测试集上的P-R曲线；

图7为第一个实施例的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

为了平衡交通场景目标的检测精度与速度，本发明设计了一种以CenterNet作为基线的无锚检测方法用来检测交通场景目标。网络结构如图1所示。首先，本发明将图像输入到骨干网络ResNet-101中来提取特征，提取到的特征经尺度融合模块(SFM)生成具有高分辨率和高级语义信息的融合特征。其次，融合后的特征经过注意力聚合模块(AAM)来增强目标检测头部的特征表示。此外，注意力聚合模块将输出得到的初步分类特征和初步回归特征作为边界特征提取模块(BFEM)的输入，生成了边界分类特征和边界回归特征。最后，初步特征与边界特征通过简单地融合操作得到了最终的分类预测和回归预测，进而得到最终的检测结果。

实施例一

本实施例提供了一种交通场景目标检测方法；

如图7所示，一种交通场景目标检测方法，包括：

S101：获取交通场景中的待检测图像；对待检测图像进行特征提取，提取出若干特征；

S102：对已提取的若干特征进行特征融合，得到融合特征；对融合特征进行特征增强处理，得到初步分类特征和初步回归特征；

S103：对初步分类特征进行边界特征提取，得到边界分类特征和边界回归特征；将初步分类特征与边界分类特征进行融合，得到最终分类特征；将初步回归特征与边界回归特征进行融合，得到最终回归特征；

S104：基于最终分类特征和训练后的分类器，得到最终的分类预测结果；基于最终回归特征和训练后的回归器，得到最终的回归预测结果。

进一步地，所述S101中，对待检测图像进行特征提取，提取出若干特征；具体采用RestNet 101网络对待检测图像进行特征提取，提取出若干特征。

其中，RestNet 101网络，包括：依次连接的卷积层a1、卷积层a2、卷积层a3和卷积层a4；

所述卷积层a1的输入值为待检测图像；所述卷积层a1的输出值为特征B

所述卷积层a2的输入值为特征B

所述卷积层a3的输入值为特征B

所述卷积层a4的输入值为特征B

进一步地，所述S102：对已提取的若干特征进行特征融合，得到融合特征；具体采用尺度融合模块(SFM，Scale Fusion Module)，对已提取的若干特征进行特征融合，得到融合特征。

进一步地，所述采用尺度融合模块SFM，其网络结构包括：依次连接的卷积层b1、上采样层c1、加法器d1、卷积层b2、上采样层c2、加法器d2、卷积层b3、上采样层c3、加法器d3和卷积层b4；

卷积层b1，还通过卷积层f1与卷积层a4连接；

加法器d1，还通过卷积层f2与卷积层a3连接；

加法器d2，还通过卷积层f3与卷积层a2连接；

加法器d3，还通过卷积层f4与卷积层a1连接；

卷积层b2和卷积层b3，还与加法器d4连接；

卷积层b1、卷积层b4和加法器d4，还与拼接器连接。

进一步地，所述采用尺度融合模块SFM，对已提取的若干特征进行特征融合，得到融合特征；工作原理包括：

通过ResNet-101的卷积操作得到了不同尺度的特征B

对特征B

对特征F

将特征S

应理解地，为了解决交通场景目标检测中的多尺度目标检测问题，本发明设计了尺度融合模块来集成不同尺度的特征。尺度融合模块的结构如图2所示。

首先，输入图像通过ResNet-101卷积块的卷积操作得到了不同尺度的特征{B

尺度融合模块主要是利用特征金字塔网络的思想，通过融合高分辨率的低层次特征和具有高级语义信息的高层次特征来获得更强大的语义特征。因此，尺度融合模块能够很好地应对多尺度目标检测问题。

进一步地，所述S102：对融合特征进行特征增强处理，得到初步分类特征和初步回归特征；具体是：采用注意力聚合模块(AAM，Attention Aggregation Module)，对融合特征进行特征增强处理，得到初步分类特征和初步回归特征。

进一步地，所述注意力聚合模块AAM，其网络结构包括：

若干个依次串联的注意力聚合子模块；

如图3所示，每个注意力聚合子模块，均包括：依次串联的尺度注意力单元、空间注意力单元和通道注意力单元；其中，每个子模块的通道注意力单元的输出端，还与当前子模块的尺度注意力单元的输入端连接。

进一步地，所述尺度注意力单元，是通过鉴别融合特征中的三个尺度来增强特征表示。

示例性地，所述尺度注意力单元，用公式表达为：

其中，

进一步地，所述空间注意力单元，不仅对每个空间位置进行关注，并且还自适应地将多个特征层聚集在一起，以学习更具鉴别性的表示。

示例性地，所述空间注意力单元，用公式表达为：

其中，

进一步地，所述通道注意力单元，用来关注通道的每个任务(分类和回归)以及表示每个通道在下一阶段的重要性。

示例性地，所述通道注意力单元，用公式表达为：

其中，

应理解地，一般来说，骨干网络提取完特征后再经过一些简单的卷积操作即可得到最终的三个预测结果。然而，这样直接获得预测结果的方法虽然简单，但最终的检测效果却不理想。因此，本发明提出了注意力聚合模块来增强头部的预测能力。

注意力聚合模块作为头部的增强模块，通过聚合尺度注意力、空间注意力和通道注意力来提高检测头的表示能力。实验结果表明，该模块在极少时间消耗的情况下，提高了检测的精度。由于注意力聚合模块是由多个块叠加而成的，所以上一个块的输出也就是下一个块的输入。本发明通过多次试验发现叠加四个块能够达到最好的检测性能。

进一步地，所述S103：对初步分类特征进行边界特征提取，得到边界分类特征和边界回归特征；具体包括：采用边界特征提取模块(BFEM，Boundary Feature ExtractionModule)，对初步分类特征进行边界特征提取，得到边界分类特征和边界回归特征。

进一步地，所述边界特征提取模块BFEM，其网络结构包括：

依次连接的卷积层g1、最大池化层和卷积层g2。

进一步地，所述采用边界特征提取模块BFEM，对初步分类特征进行边界特征提取，得到边界分类特征和边界回归特征；具体工作原理包括：

找出目标的四个边界点和中心点，并根据四个边界点和中心点，确定目标边界框的位置；

根据目标边界框的位置，将每条边平均划分为六个点，对每个点的特征值进行最大池化操作，得到输出边界特征图；

再对输出边界特征图进行卷积操作，得到边界分类特征和边界回归特征。

实际上，在日常的交通场景中具有大量复杂的背景信息，这些信息的存在会对交通场景目标检测造成很大的干扰。然而，在目标的边界上通常具有少量的前景信息。因此，为了进一步增强头部的分类和回归，本发明提出了边界特征提取模块来有效地提取边界特征。本发明通过找出目标的四个临界点和中心点来确定目标边界框的位置。然后根据目标边界框的位置将每个边界平均划分为六个点，并对这六个点的特征值进行最大池化操作，进而得到输出边界特征图。输出边界特征图

其中

边界特征提取模块的结构如图4所示。边界特征提取模块主要是通过对边界感知特征图中的每个k通道做最大池化操作来获得输出边界特征图。然后再将5k通道的输出边界特征图经过卷积操作得到最终的边界特征。本发明将获得的边界特征(cls2和reg)分别与分类特征(cls1)和回归特征(cp1和wh1)进行融合，并将融合后的结果(cls+、cp+和wh+)用于检测头部的最终预测。

进一步地，所述将初步分类特征与边界分类特征进行融合，得到最终分类特征；具体采用的融合方式为乘积融合。

进一步地，所述将初步回归特征与边界回归特征进行融合，得到最终回归特征；具体采用的融合方式为拼接融合。

进一步地，所述S104：基于最终分类特征和训练后的分类器，得到最终的分类预测结果；其中，训练后的分类器，训练步骤包括：

构建分类器；构建训练集；所述训练集，包括：已知分类标签的图像分类特征；利用训练集对分类器进行训练，得到训练后的分类器。

进一步地，所述S104：基于最终回归特征和训练后的回归器，得到最终的回归预测结果；其中，训练后的分类器，训练步骤包括：

构建回归器；构建训练集；所述训练集，包括：已知回归标签的图像回归特征；利用训练集对回归器进行训练，得到训练后的分类器。

回归标签，指的是目标的真实边界框和中心点。利用损失函数来估量模型的预测值与真实值的不一致程度，损失函数越小，模型的鲁棒性就越好。本发明中的损失函数由分类损失和回归损失组成，其中分类损失指的是类分数损失，回归损失指的是中心点偏移损失和边界框尺寸偏移损失。

本发明在BDD100K和KITTI目标检测基准上来训练和评估本发明的模型，并且通过对比其他先进的方法来证明本发明方法的优越性。实验中，本发明使用的数据集均采用PASCAL VOC格式，并且将mAP和FPS作为交通场景目标检测精度和速度的评价指标。测试结果如下表所示，本发明的方法实现了最佳的检测性能。

本发明方法在BDD100K测试集上的检测结果的可视化如图5(a)～图5(p)所示。本发明展示了该方法分别在白天、下雨的白天、夜晚和下雨的夜晚中的检测结果。结果表明本发明的方法能够在复杂背景信息的干扰下有效地检测出不同尺度的交通场景目标。

图6(a)～图6(c)展示了本发明的方法在KITTI数据集上的精度-召回率曲线。

表1在BDD100K测试集上与其他先进方法的比较

表2在KITTI测试集上与其他交通场景目标检测方法的比较

综上所述，本发明的方法能够准确地对交通场景目标进行定位与分类，不仅克服了复杂背景信息的干扰，还解决了多尺度检测问题，最终实现了检测精度与检测速度之间的权衡。

实施例二

本实施例提供了一种交通场景目标检测系统；

一种交通场景目标检测系统，包括：

特征提取模块，其被配置为：获取交通场景中的待检测图像；对待检测图像进行特征提取，提取出若干特征；

此处需要说明的是，上述特征提取模块、特征融合与增强模块、边界特征提取模块和预测模块对应于实施例一中的步骤S101至S104，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种交通场景目标检测方法及系统 [P] . 中国专利： CN113869165A . 2021-12-31
2. 一种基于深度学习的交通场景目标检测方法及系统 [P] . 中国专利： CN111428625A . 2020-07-17
3. TARGET DETECTION SYSTEM USING AN ACTIVE THRESHOLD VALUE BASED ON A VIBRATION SENSOR, CAPABLE OF REDUCING THE RATE OF FALSE ALARM BY GRADATIONALLY INFORMING THE RISK OF A TARGET STATE, AND A TARGET DETECTION METHOD THEREOF [P] . 韩国专利： KR101302060B1 . 2013-08-29

机译：利用基于振动传感器的主动阈值的目标检测系统，该方法能够通过逐步通知目标状态的风险来降低假警报的发生率，并提供了一种目标检测方法
4. Object detection method and system for scene change analysis in TV and IR data [P] . 美国专利： US6049363A . 2000-04-11

机译：电视和红外数据中场景变化分析的目标检测方法和系统
5. A method of performing a risk-based traffic scene analysis by an advanced driver support system and a vehicle provided with the system performing the analysis [P] . 日本专利： JP6232004B2 . 2017-11-15

机译：一种通过高级驾驶员支持系统执行基于风险的交通场景分析的方法以及具有该系统的车辆