首页> 中国专利> 基于关键区块提取的渐进式目标检测方法和装置

基于关键区块提取的渐进式目标检测方法和装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提出一种基于关键区块提取的渐进式目标检测方法和装置，其中，方法包括：获取待处理图像，并获取待处理图像的图像摘要信息；将图像摘要信息输入已训练的关键区块提取模型，获取关键区块列表；对关键区块列表中每个候选区块进行目标检测，获取每个候选区块的位置信息和类别信息；将每个候选区块的位置信息和类别信息根据每个候选区块的位置信息映射回全局坐标，并执行冗余检测结果移除操作，输出检测结果。由此，实现在像素信息量巨大的十亿像素图片中，快速并且准确地检测出各种尺度大小的物体目标，使得针对十亿像素图片的目标检测任务能够在近实时的速度下完成，并保证可靠的检测精度，保证后续视觉分析任务能够高效进行。

著录项

公开/公告号CN113112479A

专利类型发明专利
公开/公告日2021-07-13

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN202110406473.1
发明设计人丁贵广;陈凯;郭雨晨;王泽润;
展开▼

申请日2021-04-15
分类号G06T7/00(20170101);G06T7/187(20170101);G06T7/70(20170101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11201 北京清亦华知识产权代理事务所(普通合伙);
代理人王萌
地址 100084 北京市海淀区清华园
入库时间 2023-06-19 11:49:09

说明书

技术领域

本发明涉及计算机多媒体技术领域中的大规模多媒体信息处理和目标检测技术领域，尤其涉及一种基于关键区块提取的渐进式目标检测方法和装置。

背景技术

目标检测技术在诸多现实场景中有着广泛的需求，其最基本的任务目标是在一张给定的图片中找到目标物体的位置和类别。目标检测技术通常作为高级视觉任务的基础和初步预处理步骤，为后续的智能分析任务提供重要的结构化数据。在现实场景中，如何构建准确、高效的目标检测模型是目标检测技术中最重要的一步。目前的目标检测器通常能够对图片进行特征抽取，定位图片中出现的常见物体，获取其在图片中的位置信息和类别信息。由于现实场景往往比较复杂，数据量也很大，图片内容可能受到光照、拍摄角度等影响呈现出广泛的多样性。目标物体的位置、尺度、姿态千变万化，背景及环境因素的复杂性等因素都会给目标检测技术带来了不少挑战。因此，需要运用强大的特征模型才能满足目标检测技术在现实场景中的真正应用。

传统的基于滑动窗口手工特征匹配的检测方法速度较慢、鲁棒性较差，无法满足实际应用的需求。近年来，以卷积神经网络(Convolutional Neural Network)为代表的深度学习技术得到了迅速的发展，在计算机视觉领域的各类任务中取得了成功。基于深度学习的目标检测技术也应运而生，在目标检测结果的精度和速度方面都得到了显著的提升，基于Pascal VOC和MS COCO等目标检测数据集进行模型训练也成为获取目标检测器的常用手段。以Faster R-CNN为代表的两阶段检测器开创了目标检测方法的先河，此后以SSD、YOLO为代表的单阶段检测器在降低部分精度的同时大幅度提升了目标检测的速度，使得实时检测的需求得以满足。为了克服一些锚框先验条件对检测结果的影响，许多基于非锚框方案的检测器也被逐渐提出，促进一些形状角度不规则的物体也能够得到正确的检测。

然而，目前现有的目标检测方法依然存在一些难以克服的弊端和挑战。比如针对图片中尺度较小的目标，检测器往往很难捕捉到其特征，容易获得较低的召回率。此外，目前检测器训练时使用的图片通常是普通大小的图像数据，即长宽像素值在2000像素以内的图片，这导致目标检测器在使用时的图片分辨率也受到限制，过大或过小的图片都可能获得不可知的检测结果。

随着摄像技术的发展，摄影设备的分辨率越来越高，许多专业领域的摄像机可以拍摄十亿像素级别的图片和视频，能够覆盖宽广的视角范围。对十亿像素级别的图片进行目标检测，有着深远的意义。在公共安防领域，往往会在公共场合设置十亿像素级别的摄像机输出重点关注区域的监控视频，并通过人工智能算法分析人群流量信息、人群交互行为，异常事件检测等。这些任务的基础是正确地检测到视频中的关键目标，比如行人、非机动车和车辆等。在这种情况下，目标检测算法需要能够对十亿像素级别的视频或图像帧进行目标检测，同时在满足一定精度效果的前提下尽可能提升检测速度，以满足实时效率，避免阻塞后续分析任务的进行。

然而，目前普通的目标检测方法无法直接应用到十亿像素级别的图片中，无法直接实现这种快速又准确的检测。其根本原因在于，由于十亿像素级别的图片拥有巨大的分辨率，像素容量非常大，无法被直接载入到目前的并行计算设备中。如果将图片进行缩放，则图片中的目标尺度会变得极其狭小，很难被捕捉并检测到。即使是针对原图进行检测，图中的目标尺度变化也可能非常强烈。这些挑战都将直接导致检测精度的降低。已经有研究者通过将十亿像素级别图片划分成不同的区域，对每个区域进行检测并合并所有区域的检测结果。但这类方案的最大问题在于如何设定分块区域的大小，以及如何确保不同区域之间的检测结果得到合理的整合。当分块数量较多时，很可能将导致检测步骤的时间花费较为冗长，通常需要几秒甚至十几秒的时间才能完成一张图片的检测。针对十亿像素级别图片的目标检测技术尚未实现推理速度接近实时的检测方案，这很大程度阻碍了针对十亿像素级别图像和视频的智能分析能力。

事实上，尽管十亿像素级别图片包含众多目标物体，但这些物体在图片中的空间分布通常是不均匀的，往往会聚集在特定的区域内，而那些不包含目标物体的区域可以被忽略。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

本发明提出一种基于关键区块提取的渐进式目标检测方法和装置，解决在目标识别任务中，针对十亿像素级别图片进行目标检测遇到的图片容量巨大、目标尺度变化范围剧烈的技术问题，以实现在像素信息量巨大的十亿像素图片中，快速并且准确地检测出各种尺度大小的物体目标，使得针对十亿像素图片的目标检测任务能够在近实时的速度下完成，并保证可靠的检测精度，从而保证后续视觉分析任务能够高效进行。

本发明第一方面实施例提出了一种基于关键区块提取的渐进式目标检测方法，包括：

获取待处理图像，并获取所述待处理图像的图像摘要信息；

将所述图像摘要信息输入已训练的关键区块提取模型，获取关键区块列表；

对所述关键区块列表中每个候选区块进行目标检测，获取所述每个候选区块的位置信息和类别信息；

将所述每个候选区块的位置信息和类别信息根据所述每个候选区块的位置信息映射回全局坐标，并执行冗余检测结果移除操作，输出检测结果。

本发明实施例的基于关键区块提取的渐进式目标检测方法，通过获取待处理图像，并获取待处理图像的图像摘要信息；将图像摘要信息输入已训练的关键区块提取模型，获取关键区块列表；对关键区块列表中每个候选区块进行目标检测，获取每个候选区块的位置信息和类别信息；将每个候选区块的位置信息和类别信息根据每个候选区块的位置信息映射回全局坐标，并执行冗余检测结果移除操作，输出检测结果。由此，实现在像素信息量巨大的十亿像素图片中，快速并且准确地检测出各种尺度大小的物体目标，使得针对十亿像素图片的目标检测任务能够在近实时的速度下完成，并保证可靠的检测精度，保证后续视觉分析任务能够高效进行。

可选地，在本发明的一个实施例中，将所述图像摘要信息输入已训练的关键区块提取模型，获取关键区块列表，包括：

将所述图像摘要信息输入已训练的关键区块提取模型，使用网络的前向传播方法抽取特征信息，并通过各个候选区块分支的卷积核计算，获取所述每个候选区块的位置信息与有效目标数量信息。

可选地，在本发明的一个实施例中，所述的方法，还包括：

获取待训练图像；其中，所述待训练图像包括关键区块标签；

对所述待训练图像进行预处理后输入神经网络进行训练，获取关键区块训练列表；

通过损失函数计算所述关键区块训练列表和所述关键区块标签的误差值，通过反向传播技术不断调整所述神经网络的网络参数，直到所述误差值维持在预设阈值，生成所述关键区块提取模型。

可选地，在本发明的一个实施例中，所述损失函数为：

其中，x为关键区块训练列表输出值与关键区块标签的误差值。

可选地，在本发明的一个实施例中，所述的方法，还包括：

获取每一个输入图像样本对所有候选区块的损失函数值，并生成梯度信息，对所述梯度信息的反向传播和更新操作。

本发明第二方面实施例提出了另一种基于关键区块提取的渐进式目标检测装置，包括：

第一获取模块，用于获取待处理图像，并获取所述待处理图像的图像摘要信息；

第二获取模块，用于将所述图像摘要信息输入已训练的关键区块提取模型，获取关键区块列表；

检测模块，用于对所述关键区块列表中每个候选区块进行目标检测，获取所述每个候选区块的位置信息和类别信息；

处理模块，用于将所述每个候选区块的位置信息和类别信息根据所述每个候选区块的位置信息映射回全局坐标，并执行冗余检测结果移除操作，输出检测结果。

本发明实施例的基于关键区块提取的渐进式目标检测装置，通过获取待处理图像，并获取待处理图像的图像摘要信息；将图像摘要信息输入已训练的关键区块提取模型，获取关键区块列表；对关键区块列表中每个候选区块进行目标检测，获取每个候选区块的位置信息和类别信息；将每个候选区块的位置信息和类别信息根据每个候选区块的位置信息映射回全局坐标，并执行冗余检测结果移除操作，输出检测结果。由此，实现在像素信息量巨大的十亿像素图片中，快速并且准确地检测出各种尺度大小的物体目标，使得针对十亿像素图片的目标检测任务能够在近实时的速度下完成，并保证可靠的检测精度，保证后续视觉分析任务能够高效进行。

可选地，在本发明的一个实施例中，所述第二获取模块，具体用于：

可选地，在本发明的一个实施例中，所述的装置，还包括：

第三获取模块，用于获取待训练图像；其中，所述待训练图像包括关键区块标签；

训练模块，用于对所述待训练图像进行预处理后输入神经网络进行训练，获取关键区块训练列表；

生成模块，用于通过损失函数计算所述关键区块训练列表和所述关键区块标签的误差值，通过反向传播技术不断调整所述神经网络的网络参数，直到所述误差值维持在预设阈值，生成所述关键区块提取模型。

可选地，在本发明的一个实施例中，所述损失函数为：

其中，x为关键区块训练列表输出值与关键区块标签的误差值。

可选地，在本发明的一个实施例中，所述的装置，还包括：

更新模块，用于获取每一个输入图像样本对所有候选区块的损失函数值，并生成梯度信息，对所述梯度信息的反向传播和更新操作。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例一所提供的基于关键区块提取的渐进式目标检测方法的流程示意图；

图2为本发明实施例中基于关键区块检测的渐进式目标检测方法示意图；

图3为本发明实施例中的基于有效目标数量估计的关键区块提取模型训练示意图；

图4为本发明实施例二所提供的基于关键区块提取的渐进式目标检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于关键区块提取的渐进式目标检测方法和装置。

在本发明中，就提出了基于关键区块提取的渐进式目标检测方案，能够成功应用到十亿像素级别的图片中，快速提取图片中的关键区块，并在区块内部执行并行检测，最终输出全图的准确结果。实验结果表明，利用十亿像素级别图像的关键区块提取模型，能够减少大量不必要的信息处理步骤，加速在十亿像素级别图像的目标检测速度，并获得可靠的检测精度，能够推动目标检测技术在十亿像素级别图像和视频方向的实际应用需求。

也就是说，本发明针对在像素信息量巨大的十亿像素图片中，快速并且准确地检测出各种尺度大小的物体目标，使得针对十亿像素图片的目标检测任务能够在近实时的速度下完成，并保证可靠的检测精度，从而保证后续视觉分析任务能够高效进行。

图1为本发明实施例一所提供的基于关键区块提取的渐进式目标检测方法的流程示意图。

如图1所示，该基于关键区块提取的渐进式目标检测方法可以包括以下步骤：

步骤101，获取待处理图像，并获取待处理图像的图像摘要信息。

步骤102，将图像摘要信息输入已训练的关键区块提取模型，获取关键区块列表。

本发明实施例中，如图2所示，基于区域信息量评估的关键区块提取模型，能够根据十亿像素图片的摘要信息，快速提取包含有效目标的关键区块列表，用于后续分析处理，进一步根据可提供并行检测的精致目标检测器，能够对关键区块列表执行快速而精确的目标检测，输出目标的位置信息和类别信息。

本发明实施例中，将图像摘要信息输入已训练的关键区块提取模型，使用网络的前向传播方法抽取特征信息，并通过各个候选区块分支的卷积核计算，获取每个候选区块的位置信息与有效目标数量信息。

其中，对图像进行摘要提取操作，通常使用图像处理方法进行缩放操作，获取其缩略图信息作为图像摘要信息。

在本发明实施例的一种可能的实现方式中，获取待训练图像；其中，待训练图像包括关键区块标签；对所述待训练图像进行预处理后输入神经网络进行训练，获取关键区块训练列表；通过损失函数计算关键区块训练列表和关键区块标签的误差值，通过反向传播技术不断调整神经网络的网络参数，直到误差值维持在预设阈值，生成关键区块提取模型。

具体地，在训练阶段，利用训练数据对指定的深度卷积神经网络进行训练，让深度卷积神经网络能够准确抽取图片信息，输出对图中不同区块包含的有效目标数量的估计能力，支撑后续的区块排序和关键区块生成步骤。首先收集足够数量的十亿像素目标检测数据集，包含十亿像素级别的图片以及图片中目标的位置信息和类别信息。接下来，训练的各个步骤可以总结如下。第一，构建基本的深度卷积神经网络模型，模型的最后一层中预置区块候选锚框，每个区块候选框连接一个卷积层计算该候选区块的数值信息。第二，利用目标检测数据集中目标的位置信息，聚合位于不同候选区块的有效目标数量，作为训练数据的标签信息。第三，设定平滑的L1损失函数，接收网络模型不同候选区块分支输出值与标签值作为输入，优化相关参数。第四，利用卷积神经网络的前向传播和反向传播机制，不断输入训练数据图片和相关的标注信息，利用损失函数作为指导更新当前模型的参数，使之具备更强的信息抽取能力，具备更准确估计特定区块内有效目标数量的能力。第五，检查当前模型是否已经收敛，如果收敛则停止训练输出模型；如果没有收敛则回到第二步继续训练网络。其中最重要的是设计预置的候选区块以及针对候选区块进行数值回归的损失函数，使网络模型具备快速准备估计有效目标数量的能力，克服十亿像素级别图片大容量信息带来的挑战。

具体地，首先需要准备足量数据来训练关键区块提取网络，关键区块提取网络的目的在于从一张十亿像素级别图片中快速划分出包含大多数目标的尺度自适应的区块列表，以便后续检测器在这些区块上并行地执行细致地检测，达到准确且快速的目标。因此关键区块提取网络的重要功能是能够根据图像信息快速估计不同区域包含有效目标数量的能力。现有的数据往往不会直接对某块区域的目标数量进行标注，因此在准备数据的时候，我们会使用目标检测数据集目标的位置和类别标注信息进行聚合，获取到特定区域内目标的数量以及各个目标的尺度信息。这样，对于网络预置的候选区块，可以快速从原始信息中获取该区块所在位置所包含的有效目标数量，其中目标是否有效将根据目标大小与区块大小的比例划定，为满足后续阶段检测器的有效性，通常设置其满足一定的范围使有效目标在区块内的尺度适中。有了上述数据，就可以利用接下来的步骤进行模型训练。

具体地，在进行模型训练之前，我们首先会在骨干网络1的最后一层预置许多锚框作为候选区块。由于网络最后一层特征与网络的输入图片有直接的下采样比例映射关系，因此在网络最后一层的某块区域可以直接表达输入图片对应区域的特征信息。在本发明中，在网络最后一层各个神经元节点上预置尺度、比例各不相同的候选区块，等效于对原输入图片进行不同尺度、不同比例的裁剪操作。即每一个候选区块都对应原输入图片中特定位置和大小的一片区域。区块候选集在每个位置设置四种尺度大小的区块，最小的定义为单位区块，其余三个尺度分别为单位区块大小的2、4、8倍。根据后续任务中目标检测器的输入特性，区块候选集将比例固定为1:1大小。

具体地，在进行模型训练时，首先需要获取输入图片的特征信息，特征抽取只需要将输入图片进行预处理操作，并输入卷积神经网络模型，使用网络的前向传播方法抽取特征信息，并通过各个候选区块分支的卷积核计算出初始的有效目标数值。

进一步地，在进行模型训练时，通常会定义损失函数对模型参数进行优化，使模型更加符合当前数据的分布。普通的分类任务可以直接使用样本的类别标签作为监督信息，普通的目标检测任务可以直接使用样本中目标的位置和类别作为监督信息。在本发明中，各个候选区块包含的有效目标数量信息并不能直接从数据集的标注信息中获取，需要经过一定的聚合计算逻辑才能够获得。

具体地，对于一张十亿像素级别的图片GI，可以定义区块为其任意一个区域的裁剪，其中Crop表示裁剪操作，l

在此基础上，对于这张图片中的任一目标O

因此，遍历所有目标，找到所有被Patch

其于上述计算逻辑，可以获得针对Patch

在本发明实施例中，损失函数为：

其中，x为包含有效目标数量的标签值与网络输出的误差值。

在完成上述特征抽取和标签信息聚合计算后，可以获得两个值，一个是根据标签聚合信息计算得到的真实值Count

如公式1，在普通的L1损失函数中，对于x接近0时的导数变化较为剧烈，往往可能对模型训练造成不利的影响，我们使用平滑的L1损失函数值，对于离群点和异常值相对更不敏感，更能够控制模型的梯度量级，确保模型更容易地收敛。

在计算损失函数后，将使用框架自带的反向传播算法，根据损失函数的值计算反向传播的梯度信息，对模型中各层参数进行迭代的反向传播，确保各层参数得到正确的更新。

在本发明的实施例中，获取每一个输入图像样本对所有候选区块的损失函数值，并生成梯度信息，对梯度信息的反向传播和更新操作。

具体地，利用上述定义的损失函数，即可对关键区块提取模型进行更新，更新的过程就是对模型网络中各层的参数进行更新，使损失函数值能够最小化。为了后续介绍，首先介绍一些细节。在本发明中，骨干网络使用VGGNet模型，在网络的最后一层，本发明连接了多个预置的候选区块锚框，每个区块对应输入图像的一个区域。在实现中使用了开源的深度学习框架PyTorch，模型定义和损失函数的定义使用PyTorch内置的相关方法实现。具体来说，本发明使用随机梯度下降(SGD，Stochastic Gradient Descent)方法进行优化，每一个输入样本将对所有候选区块产生损失函数值，并生成梯度信息，利用PyTorch框架中对该梯度信息的反向传播和自动更新操作，即可实现对模型的优化，降低损失函数的大小。

在发明实施例中，本发明使用随机梯度下降法来优化关键区块提取网络，该方法是一个迭代式的训练方案。在完成一轮对模型的参数更新后，会根据当前的迭代次数更新学习速率，使之适应当前的参数学习过程。这种方案的好处在于，模型刚开始训练时使用较大的学习速度，能够帮助模型快速收敛；而训练过程经过一段时间后，减少学习速度以进行更加精细的微调学习，避免参数更新过程中的波动。

步骤103，对关键区块列表中每个候选区块进行目标检测，获取每个候选区块的位置信息和类别信息。

步骤104，将每个候选区块的位置信息和类别信息根据每个候选区块的位置信息映射回全局坐标，并执行冗余检测结果移除操作，输出检测结果。

具体地，如图2所示，将不同关键区块的检测结果根据区块自身位置信息映射回全局坐标，并执行冗余检测结果移除操作，输出针对十亿像素图片的最终检测结果。

也就是说，具体地，通过训练阶段可以得到的关键区块提取网络模型。在使用阶段，将一张图片进行输出，然后按照如下步骤进行处理。第一，对图像进行摘要提取操作，通常使用图像处理方法进行缩放操作，获取其缩略图信息作为摘要。第二，将这个图像预处理结果输入到关键区块提取网络。第三，利用关键区块提取网络的估计能力，对图像中不同尺度的候选区块进行有效目标数量估计。第四步，根据有效目标数量估计值对候选区块进行排序，并根据候选区块彼此之间的交并比重叠信息，去除冗余的重叠度较大的候选区块，最终输出按照有效目标数量从大到小排序的关键区块列表。在实际使用中，根据对速度和性能的限制，可以用一个特定的数量去截取关键区块列表的某一部分，比如只截取前64个关键区块。

本发明注意到十亿像素级别图片的目标分布是较为稀疏的，较少部分区域能够覆盖大部分的目标，因此使用关键区块提取网络模型首先对输入图片进行关键区块提取，排除了大量无效的像素信息，并且获得了与检测目标尺度相适应的区块列表。通过这个方法，使得目标检测器能够用少量时间快速分析十亿像素级别图片，并准备好包含大多数有效目标且尺度大小合适的区块列表，并行地输入到精致的目标检测器中进行目标检测，极大地提升了目标检测任务的效率。从实验结果来看，本发明所提出的基于关键区块提取的渐进式目标检测方法在十亿像素级别图片的目标检测任务上具有精度高、检测速度快、鲁棒性强等特点，也具备较强的实际应用前景。

在本发明实施例的一种可能的实现方式中，获取输入图像数据，这一步用于获取需要处理的图像，本方法的输入图像通常是像素量较大的十亿像素级别图片，通常的分辨率为25000x15000px。接着摘要信息获取，这一步与训练阶段中的摘要信息获取过程一致，本发明使用OpenCV图像处理工具实现输入图片大小的缩放，以及各通道数值的标准化等。进一步地，模型前向传播和图像特征抽取，上一步得到的图像预处理结果输入到训练阶段得到的关键区块提取网络模型中，执行网络模型的前向传播操作，获取模型在各个分支的输出值。

进一步地，区块有效目标数值估计，经过上一个步骤，针对一张输入图片，在关键区块提取网络模型中可以获取各个候选区块的有效目标数量信息。将每个候选区块的位置信息与有效目标数量信息成对地输出，提供给下一个步骤使用。接着，关键区块排序及生成，针对所有候选区块，首先根据其位置信息，移除所有超出图像边界的候选区块。由于预置的候选区块分布较为密集，移除这部分区块不会影响到最终的使用效果。然后使用一个阈值η

由此，通过一个渐进式的框架对十亿像素图片数据进行由粗到细的特征分析，实现快速、准确的目标检测，以及在训练过程中，在网络模型中预置区块候选集合，通过聚合彼此独立的目标标注信息生成区块有效目标数量标注信息，并计算相应的损失函数。该方法能够更迅速地通过图像摘要信息的深层特征估计特定区块中的有效目标数量，更加灵活并快速地处理十亿像素图片，最终得到有效的区块有效目标数量估计模型，为后续的使用过程打下良好基础，最后在使用过程中，通过输入图片的摘要信息抽取特征，并估计不同预置区块候选者的有效目标数量，并执行区块排序和冗余重叠区块移除，生成最终的关键区块列表。获取到的关键区块列表仅包含原图片少量的像素信息，但包含了绝大多数有效目标，并已经按照合适的尺度输出，为后续的精细检测打下基础，能够达到更准更快的检测结果。

与上述图1至图3实施例提供的基于关键区块提取的渐进式目标检测方法相对应，本发明还提供一种基于关键区块提取的渐进式目标检测装置，由于本发明实施例提供的基于关键区块提取的渐进式目标检测装置与上述图1至图3实施例提供的基于关键区块提取的渐进式目标检测方法相对应，因此在基于关键区块提取的渐进式目标检测方法的实施方式也适用于本发明实施例提供的基于关键区块提取的渐进式目标检测装置，在本发明实施例中不再详细描述。

图4为本发明实施例二所提供的基于关键区块提取的渐进式目标检测装置的结构示意图。

如图4所示，该基于关键区块提取的渐进式目标检测装置400应用于电子设备，包括：第一获取模块401、第二获取模块402、检测模块403和处理模块404。

第一获取模块401，用于获取待处理图像，并获取所述待处理图像的图像摘要信息。

第二获取模块402，用于将所述图像摘要信息输入已训练的关键区块提取模型，获取关键区块列表。

检测模块403，用于对所述关键区块列表中每个候选区块进行目标检测，获取所述每个候选区块的位置信息和类别信息。

处理模块404，用于将所述每个候选区块的位置信息和类别信息根据所述每个候选区块的位置信息映射回全局坐标，并执行冗余检测结果移除操作，输出检测结果。

进一步地，在本发明实施例的一种可能的实现方式中，所述第二获取模块402，具体用于：

进一步地，在本发明实施例的一种可能的实现方式中，所述的装置，还包括：第三获取模块，用于获取待训练图像；其中，所述待训练图像包括关键区块标签；训练模块，用于对所述待训练图像进行预处理后输入神经网络进行训练，获取关键区块训练列表；生成模块，用于通过损失函数计算所述关键区块训练列表和所述关键区块标签的误差值，通过反向传播技术不断调整所述神经网络的网络参数，直到所述误差值维持在预设阈值，生成所述关键区块提取模型。

进一步地，在本发明实施例的一种可能的实现方式中，所述损失函数为：

其中，x为关键区块训练列表输出值与关键区块标签的误差值。

进一步地，在本发明实施例的一种可能的实现方式中，所述的装置，还包括：更新模块，用于获取每一个输入图像样本对所有候选区块的损失函数值，并生成梯度信息，对所述梯度信息的反向传播和更新操作。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于关键区块提取的渐进式目标检测方法和装置 [P] . 中国专利： CN113112479A . 2021-07-13
2. 一种基于关键点匹配的双波段融合目标提取方法 [P] . 中国专利： CN111161308A . 2020-05-15
3. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring [P] . 美国专利： US10430691B1 . 2019-10-01

机译：基于CNN的目标检测器的学习方法和学习装置，适用于客户要求的关键性能指标，使用目标对象合并网络和目标区域估计网络，以及用于多摄像机的测试方法和测试装置或环视监控
4. Learn CNN-based object detectors applicable to user requirements, such as key performance indicators, using target object integration networks and target object prediction networks for use in multiple cameras or surround view monitoring. Method and learning device, and testing method and testing device using the same [P] . 日本专利： JP2020119547A . 2020-08-06

机译：使用目标对象集成网络和目标对象预测网络来学习适用于用户要求（例如关键性能指标）的基于CNN的对象检测器，以用于多台摄像机或全景监视。方法和学习装置，以及使用该方法和学习装置的测试方法和测试装置
5. CNN LEARNING METHOD AND LEARNING DEVICE FOR FLUCTUATION-ROBUST OBJECT DETECTOR BASED ON CNN USING TARGET OBJECT ESTIMATING NETWORK ADAPTABLE TO CUSTOMERS' REQUIREMENTS SUCH AS KEY PERFORMANCE INDEX AND TESTING METHOD AND TESTING DEVICE USING THE SAME [P] . 韩国专利： KR20200091323A . 2020-07-30

机译：基于目标神经网络的CNN波动-鲁棒性目标检测器的CNN学习方法和学习装置，可根据客户的需求作为关键性能指标，测试方法和测试装置