首页> 中国专利> 一种基于尺度匹配的弱小人物目标检测方法

一种基于尺度匹配的弱小人物目标检测方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供了一种基于尺度匹配的弱小人物目标检测方法，该方法包括将网络预训练数据集上人物的尺度分布迁移为目标训练集上弱小人物尺度分布的步骤；训练目标检测模型时，首先在尺度迁移后的预训练数据集上预先训练得到初步的目标检测模型，然后再在目标训练集上训练得到最终的目标检测模型。本发明方法通过尺度匹配，使得模型能够更好地研究和利用微小尺度上的信息，使卷积神经网络或其他模型在弱小目标表示上更加精确，有效提高了现有技术检测器的检测性能。

著录项

公开/公告号CN110728214A

专利类型发明专利
公开/公告日2020-01-24

原文格式PDF
申请/专利权人中国科学院大学;
展开▼

申请/专利号CN201910918836.2
发明设计人韩振军;余学辉;宫宇琦;蒋楠;韩许盟;彭潇珂;王岿然;焦建彬;叶齐祥;万方;
展开▼

申请日2019-09-26
分类号G06K9/00(20060101);G06K9/42(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11426 北京康思博达知识产权代理事务所(普通合伙);
代理人孙建玲;刘冬梅
地址 100049 北京市石景山区玉泉路19号甲
入库时间 2023-12-17 05:18:29

法律信息

法律状态公告日

法律状态信息

法律状态
2020-08-18

授权

授权
2020-02-25

实质审查的生效 IPC(主分类):G06K9/00 申请日:20190926

实质审查的生效
2020-01-24

公开

公开

说明书

技术领域

本发明涉及计算机视觉和图像处理领域，尤其涉及一种基于尺度匹配的弱小人物目标检测方法。

背景技术

行人检测是计算机视觉领域的一个重要课题，具有广泛的应用领域，包括监视、驾驶辅助、移动机器人和海上快速救援。随着深度卷积神经网络的兴起，行人检测取得了前所未有的进展，然而，对弱小人物的检测还远远没有达到很好的成果。与适当尺度的物体不同，由于微小物体的相对大小和绝对大小都非常小，信号噪声比很低，微小目标的检测任务更具有挑战性。如果是视频是来自于视频中的图像，经过视频编解码过程后，图像模糊导致微小物体与背景混在一起，这使得微小目标的获得更为困难。总的来说，低信噪比会严重降低特征表达能力，因此是计算机视觉检测任务一个值得挑战的难题。

随着卷积神经网络(CNN)技术的飞速发展，研究者们专门针对微小物体的问题寻找检测框架。Lin等人提出了一种将具有横向连接且有自顶向下的特征融合通路的结构作为一种良好的多尺度特征表达方法名为特征金字塔网络。张等人提出了一种尺度公平的人脸检测框架，较好地处理不同尺度的人脸。Hu等人表明上下文是至关重要的，并且定义了使用大量大型接收字段的模板。Zhao等人提出了一种合理使用上下文的金字塔场景解析网络。Shrivastava等人提出了一种能显著提高小目标性能的在线硬实例挖掘方法。

然而，不论采用何种检测框架，共通的是，用于训练的数据越多，检测器的性能表现越好。但是，为特定任务收集数据的成本非常高，包括数据获取，数据的清洗，数据的标注等等一系列的环节均需要投入大量的物力财力才能形成一个比较有效的数据集，此时我们可以采用另外一些方法达到相似的目的。通常的方法是在公开的外部数据集(预训练数据集)上预先训练好的一个模型，然后在任务指定的数据集上对其进行微调。由于这些外部数据集的数据量很大，预先训练的模型有时会在一定程度上提高性能。但是，当这些额外数据集的域与任务指定数据集的域相差很大时，性能提升是有限的。使用具有大量数据的额外公共数据集来帮助训练特定任务的模型的方法就至关重要。

对于我们具体想解决的弱小人物目标检测的问题，目前还没有一个公开的外部数据集可以达到大部分标准均为弱小人物(如尺度小于20像素的弱小人物)的标准，因此在目标数据集和预训练数据集上的尺度分布不同的问题会成为限制预训练模型在数据集上取得比较好性能的主要因素。

本发明的目的在于提供一种简单有效的弱小人物目标检测方法，以解决上述弱小人物目标检测中存在的问题，如缺乏弱小人物相关的目标数据集、以及当前公开的预训练数据集对弱小人物检测时存在的性能提升有限的问题。

发明内容

为了克服上述问题，本发明人进行了锐意研究，受到人的认知过程的启发，即当人类一直识别某一大小的物体时，人类会逐渐提升这一大小或者相似大小的物体的识别能力，本发明人出了一个简单有效的方法，称为尺度匹配。该方法是对目标数据集的对象尺度和预训练数据集上的对象尺度进行一致化操作。尺度匹配的本质是能够更好地研究和利用微小尺度上的信息，使卷积神经网络或其他模型在弱小目标表示上更加精确。例如对于目标数据集D，我们定义其中物体尺度的概率密度函数为P_size(s；D)，s代表概率分布中的尺度变化自变量，然后定义一个尺度迁移为T，其用于将外部数据集E的尺度分布迁移为目标数据集D中的尺度分布。P_size(s；T(E))≈P_size(s；D)。经验证，本发明中的尺度匹配方法能够有效提高现有技术检测器的检测性能，从而完成本发明。

本发明的目的在于提供以下技术方案：

本发明的目的在于提供一种基于尺度匹配的弱小人物目标检测方法，该方法包括将网络预训练数据集上人物的尺度分布迁移为目标训练集上弱小人物尺度分布的步骤；

训练目标检测模型时，首先在尺度迁移后的预训练数据集上预先训练得到初步的目标检测模型，然后再在目标训练集上训练得到最终的目标检测模型。

进一步地，将预训练数据集上人物的尺度分布迁移为目标训练集上弱小人物的尺度分布通过包括以下的步骤实现：

步骤(1)建立目标训练集，为其中每个图片中的弱小人物添加标注框，以标注框的绝对大小为横坐标，以概率密度为纵坐标，构建目标训练集中弱小人物的尺度分布直方图H以及对应的概率密度函数P_size(s；D_train)；

步骤(2)确定预训练数据集，计算其中任意图片中标注框G_i的平均大小s；

步骤(3)从目标训练集对应的直方图中选择一个直柱体k，确定直柱体k中用于尺度匹配的标注框的大小s^；

步骤(4)将选取的直柱体k中标注框的大小s^与预训练数据集中任意图片中标注框的平均大小s作比，得到尺度迁移比c；

c←s^/s

步骤(5)根据尺度迁移比，对预训练数据集中图片进行尺度迁移。

在一种优选的实施方式中，在步骤(3)中，直方图中直柱体k的选择通过概率随机抽取的方式确定；

直柱体k中标注框的大小s^通过等概率随机抽样的方式确定。

在另一种优选的实施方式中，在步骤(3)中，直柱体k的选择通过以下方式进行：

统计出一个关于预训练数据集E的尺度分布(以标注框的绝对大小为横坐标，以概率密度为纵坐标)，在预训练数据集E中抽取到一个图片后获得图片中标注框G_i的平均大小s，然后在其统计的尺度分布中找到s对应的位置(排序)，然后映射到D_train修正后的尺度分布直方图的对应位序，取得对应的直柱体k值。

在一种优选的实施方式中，在步骤(3)中，还包括直方图H的修正过程，该过程如下：

步骤3.1)、统计目标训练集D_train中所有的标注框的大小得到S_all；

S_all←(…，As(G_ij(D_train))…)，AS为计数函数

步骤3.2)、将S_all按照升序排序；

S_sort←sorted(S_all)

步骤3.3)、对得到的统计意义上的直方图的长尾情况进行修正：

步骤3.3.1)、首先对直柱体数量K取倒数，并确定排序后S_sort中所有目标的数量N，其中，K为输入值；

N←S_sort

步骤3.3.2)、直方图第一个直柱体中目标的概率密度较低，尺寸分布呈尾状，将第一个区间合并为第一个直柱体，具体如下：

取得长尾效应的具体数量；

tail←ceil(N*P)

取得整个直方图的横轴起始值；

R[1]^-←min(S_sort)

取得第一个区间横轴的终止值；

R[1]⁺←S_sort[tail+1]

取得直方图H的第一个区间的纵轴值；

步骤3.3.3)、直方图最后一个直柱体中目标的概率密度同样较低，尺寸分布呈尾状，将最后一个区间合并为一个直柱体，具体如下：

取得最后一个区间横轴起始值；

R[K]^-←S_sort[N-tail]

取得最后一个区间横轴终止值；

R[K]⁺←max(S_sort)

取得直方图H最后一个区间的纵轴值；

步骤3.3.4)、计算除去长尾部分的剩余序列和每个区间的长度d；

S_middle←S_sort[tail+1:N-tail]

步骤3.3.5)、计算第k个的区间上下限和对应的纵坐标值(k∈2,3,4……K-1)；

R[k]^-←min(S_middle)+(k-2)*d

R[k]⁺←min(S_middle)+(k-1)*d

这样就得到了修正后的尺度概率分布直方图。

根据本发明提供的一种基于尺度匹配的弱小人物目标检测方法，具有包括以下的有益效果：

(1)本发明人在海上快速救援的背景下建立了TinyPerson数据集，这是长距离和大背景人物检测的第一个基准数据集；

(2)本发明全面分析了有关微小人物检测的挑战，并提出了尺度匹配方法，目的是调整网络预训练数据集与探测器学习数据集之间的特征分布。通过尺度匹配方法，提高了现有技术检测器(FPN)的检测性能。

附图说明

图1示出基于尺度匹配的弱小人物目标检测方法流程图；

图2示出CityPersons、MSCOCO、TinyPerson和WIDER Face数据集的图片示意图；

图3示出MSCOCO、TinyPerson和MSCOCO经过向TinyPerson尺度匹配后的概率密度函数；

图4示出单调尺度匹配方法将预训练数据集E中对象尺寸s转换为s^的示意图。

具体实施方式

下面通过附图对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

随着深度神经网络的出现和进一步发展，视觉检测任务的研究已经取得了前所未有的进展，然而，在大尺度图像中检测弱小物体(如尺度小于20像素的弱小物体)的研究还不充分，目前的主流都难以取得比较好的效果。本发明人在实验中发现，网络预训练数据集和检测器学习数据集之间的尺度不匹配会弱化特征表示能力和降低检测器性能。

为此，本发明人经过研究，提出了一种基于尺度匹配的弱小人物目标检测方法，流程如图1所示，该方法包括将预训练数据集上人物的尺度分布迁移为目标训练集上弱小人物的尺度分布：

训练目标检测模型时，首先在尺度迁移后的预训练数据集上预先训练得到初步的目标检测模型，然后再在目标训练集上训练得到最终的目标检测模型。

上述方法是一个基于目标尺度出发的、通过预训练数据集中尺度变化来提升性能的方法，为弱小目标检测提供了一种新的研究思路。该尺度匹配方法，将两个数据集之间的对象尺度对齐，利于对弱小物体的特征表示。

具体地，本发明中基于尺度匹配的弱小人物目标检测方法中，将预训练数据集上人物的尺度分布迁移为目标训练集上弱小人物的尺度分布通过包括以下的步骤实现：

步骤(2)确定预训练数据集，计算其中任意图片中标注框G_i的平均大小s；

步骤(3)从目标训练集对应的直方图中选择一个直柱体k，确定直柱体k中用于尺度匹配的标注框的大小s^；

步骤(4)将选取的直柱体k中标注框的大小s^与预训练数据集中任意图片中标注框的平均大小s作比，得到尺度迁移比c；

C←s^/s

步骤(5)根据尺度迁移比，对预训练数据集中图片进行尺度迁移。

在本发明中，对象的大小被定义为对象的边界框(本发明中同标注框)区域的平方根。我们使用G_ij＝(x_ij，y_ij，w_ij，h_ij)来描述数据集中第i个图像I_i的第j个对象的边界框，其中(x_ij，y_ij)表示左上角点的坐标，w_ij，h_ij是边界框的宽度和高度。W_i，H_i分别是I_i的宽度和高度。对象的绝对大小和相对大小计算如下：

对于我们具体想解决的弱小目标人物检测的问题，目前还没有一个公开的外部数据集可以达到大部分标准均为微小目标人物(如尺度小于20像素)的标准。为此，本发明人建立了关于弱小人物的数据集Tinyperson，如图2所示，数据集中标注框的绝对大小(AS，absolute size)的平均值小于20像素，相对大小(RS，relative size)的平均值小于0.015。

Tinyperson中的图像是从Internet收集的，总共有1610张图片和72651个标注框。首先，从不同的网站收集高分辨率的视频；其次，每隔50帧对视频中的图像进行采样；然后删除具有一定重复性(同质性)的图像。手工为72651个对象添加边界框。本数据集有以下特点：1)与其他代表性数据集相比，Tinyperson中的人非常小，这是Tinyperson的主要特征；2)Tinyperson中人的长宽比(aspact ratio)有很大的差异。由于TinyPerson中人的各种姿势和对其中人的观察视点不同，带来了更复杂的人物多样性，这导致检测更加困难。此外，TinyPerson还可以成为现有数据集的有效多样性姿势和视图补充；3)在Tinyperson，主要关注海边的人，可以用于快速海上救援和海上防御；4)在Tinyperson中有许多图像具有密集的对象(每张图像超过200人)。因此，Tinyperson也可用于其他任务，例如人员计数。

在本发明中，将Tinyperson数据集(D)等分为二，一份作为目标训练集D_train，另一份作为测试集D_test，来自相同视频的图像不能分割成相同的子集。在尺度匹配中，遵循机器学习的基本假设：随机抽样得到的目标训练集D_train的分布接近实际分布，即P_size(s；D_train)近似P_size(s；D)。目标训练集中标注框的绝对大小(AS)的平均值小于20像素，相对大小(RS)的平均值小于0.015。P_size(s；D_train)曲线图如图1中左下图所示。

在本发明中，直方图H通过以下具体步骤确定：统计目标训练集中每个图片中弱小人物标注框的绝对大小；确定划分绝对大小区间的个数K(等于后续生成的直柱体的个数)；计算每个区间的概率密度，以标注框的绝对大小为横坐标，以概率密度为纵坐标得到直方图。此时，得到的直方图H的各个区间的横坐标跨度相同。

在本发明步骤(2)中，预训练数据集可以选择WiderFace、CityPersons或MSCOCO中任意一种，优选为MSCOCO。

在WiderFace中主要关注人脸检测。面部与TinyPerson具有相似的绝对大小分布，但具有更高的分辨率和更大的相对大小。MSCOCO和CityPersons具有更高的绝对大小和相对大小。相比于上述三种现有数据集，TinyPerson中弱小人物存在更大的识别难度。

上述数据集的示意图如图2中所示，各数据集中人物目标的尺寸数据如下表1。

表1各数据集中人物目标的尺寸数据

数据集绝对大小相对大小长宽比TinyPerson18.0±17.40.012±0.0100.676±0.416MSCOCO99.5±107.50.190±0.2031.214±1.339WiderFace32.8±52.70.036±0.0520.801±0.168CityPersons79.8±67.50.055±0.0460.410±0.008

在本发明步骤(3)中，从目标训练集对应的直方图中选择一个直柱体k，确定直柱体k中用于尺度匹配的标注框的大小s^。

在一种优选的实施方式中，直方图中直柱体k的选择通过随机抽取的方式确定。直方图K个直柱体中(1，2，3…k…K)的纵坐标即概率密度不同，随机抽取到直柱体的概率与概率密度相对应，概率密度越大的直柱体越容易被抽取到，进而作为s^的取值来源，这样经过尺度迁移后的预训练数据集中人物的尺度分布与目标训练集中尺度分布存在一致性。

直柱体中标注框的尺度范围为(R[k]^-，R[k]⁺)，并认为各尺寸的标注框在其中为均匀分布，如直柱体k中标注框的尺度范围为(8,12)，认为像素8,9,10,11,12在其中均匀分布。直柱体k中标注框的大小s^的确定采用等概率随机抽样的方式。

由步骤(1)可知，直方图H的各个区间的横坐标的区间大小相同。然而，实验发现，由于目标训练集中目标的尺度主要分布在较窄的区间范围内，具有峰值，较少的分布在峰值的两端，这样，目标数据集的分布存在长尾效应(在头部称为长头，在尾部称为长尾，该现象统称为长尾效应)，如图1中左下图所示。

数据集分布的长尾效应使得直方图拟合效率低下，这意味着直方图中许多直柱体的概率接近于0。长尾区间占用较多的直柱体，目标尺度集中的区域反而占用较少的直柱体，虽然目标尺度集中区域抽取到的概率高，但会导致预训练数据集中目标的尺度迁移不够细致，得到较为粗糙的尺度迁移预训练数据集。

为此，本发明提供了一种直方图修改正方法，该方法过程如下：

1、统计目标训练集D_train中所有的标注框的大小得到S_all；

S_all←(…，As(G_ij(D_train))…)，AS为计数函数

2、将S_all按照升序排序；

S_sort←sorted(S_all)

3、对得到的统计意义上的直方图的长尾情况进行修正：

3.1、首先对直柱体数量K取倒数，并确定排序后S_sort中所有目标的数量N，其中，K为输入值；

N←S_sort

3.2、直方图第一个直柱体中目标的概率密度较低，尺寸分布呈尾状(长头)，将第一个区间合并为第一个直柱体，具体如下：

取得长尾效应的具体数量；

tail←ceil(N*P)

取得整个直方图的横轴起始值；

R[1]^-←min(S_sort)

取得第一个区间横轴的终止值；

R[1]⁺←S_sort[tail+1]

取得直方图H的第一个区间的纵轴值；

3.3、直方图最后一个直柱体中目标的概率密度同样较低，尺寸分布呈尾状(长尾)，将最后一个区间合并为一个直柱体，具体如下：

取得最后一个区间横轴起始值；

R[K]^-←S_sort[N-tail]

取得最后一个区间横轴终止值；

R[K]⁺←max(S_sort)

取得直方图H最后一个区间的纵轴值；

3.4、计算除去长尾部分的剩余序列和每个区间的长度d；

S_middle←S_sort[tail+1:N-tail]

3.5、计算第k个的区间上下限和对应的纵坐标值(k∈2,3,4……K-1)；

R[k]^-←min(S_middle)+(k-2)*d

R[k]⁺←min(S_middle)+(k-1)*d

这样就得到了修正后的尺度概率分布直方图。

其中，K定义为直方图H的直柱体数，K＝100。

将SR(稀疏率)定义为直方图H拟合有效性的度量，即计算出所有直柱体中有多少直柱体的概率接近于0：

将SR的α设置为10，1/(α*K)用作阈值。校正后的柱状图显示，Tinyperson的SR从0.67降至0.33。校正后的直方图H对分布贡献较小的长尾部分关注较少。

在本发明步骤(5)中，根据尺度迁移比，对预训练数据集中图片进行尺度迁移。

对于预训练数据集E中的所有对象，我们需要采样对象大小s，并将对象的大小调整为s^{^}。一个图像中可能有多个大小不同的对象，若只调整对象大小，这些对象将破坏图像结构。因此，本发明中，不调整单个对象的大小，而是调整图像的大小，进而使对象的大小达到s^{^}。

因此，我们对每个图像采样一个标注框平均大小s，通过图片级的缩放，保证该图像中对象的平均大小调整为s^{^}。这与本发明中尺度匹配方法中的步骤(2)“确定预训练数据集，计算其中任意图片中标注框G_i的平均大小s”相对应，也是计算任意图片中标注框的平均大小而并非图片中单个标注框的大小的原因。

依据计算出的尺度迁移比调整图片的尺度大小，图片的尺寸调整，图片中标注框的左上角点的坐标、宽度和高度也会相应的进行比例迁移：

是尺度匹配后的结果。

本发明中，通过对上述步骤(1)～步骤(5)的阐述，可知尺度迁移的算法如下：

1、将尺度迁移后的预训练数据集E^至为空集；

2、输入目标训练集D_train和直方图直柱体数量K，得到目标训练集的尺度分布，将其进行直方图长尾修正后得到修正后的直方图；

(H，sizes)←RectifiedHistogram(P_size(s；D_train))

3、从预训练数据集E中取出一张图片I_i，计算其中所有标注框G_i的平均大小s；

s←Mean(G_i)

4、从修正后的直方图中抽取一个直柱体k，直柱体k为直方图H的第k个区间；

k←H

5、由直柱体k得到直方图H中的对应的尺度范围(R[k]^-，R[k]⁺)，并认为其中为均匀分布，等概率抽样得到s^；

s^←uniform(R[k]^-，R[k]⁺)

6、计算尺度迁移比c；

c←s^/s

7、对从预训练数据集E中取出的图片I_i，进行尺度迁移；

I_i^，G_i^←ScaleImage(I_i，G_i，c)

其中，ScaleImage是一个用来按照给定尺度放缩图片中标注框的函数；

8、将新得到的I_i^，G_i^加入尺度迁移后的数据集E^；

E^←E^∪(I_i^，G_i^)

重复进行(3)至(8)步直到预训练数据集E中的所有图片迁移过程完成。如图3中示出MSCOCO、TinyPerson和MSCOCO经过向TinyPerson尺度匹配后的概率密度函数，可知，尺度匹配可以真正地将预训练数据集的目标大小分布转换为任务指定数据集。

本发明人经过试验发现，尺度匹配可以将外部数据的尺度分布转换为与任务指定的数据集相同。然而，尺度匹配可能会使原始尺度失序：对预训练数据集E中图片进行尺度匹配时，随机抽取直方图H中直柱体k，以其中的标注框的平均大小s作为尺度迁移的基准，虽然抽取的直柱体k的取值与其对应的概率密度相关，然而，仍然存在预训练数据集E中尺寸较小的标注框采样目标数据集中相对较大尺寸的标注框，尺寸较大的标注框采样目标数据集中相对较小尺寸的标注框。

例如，预训练数据集E中图片a的标注框的平均大小为100像素，图片b的标注框的平均大小为130像素，图片a在尺度迁移时抽取到的直柱体对应的标注框尺寸范围为15～20像素，图片b在尺度迁移时抽取到的直柱体对应的标注框尺寸范围为9～14像素，这样原标注框尺寸较大的图片b尺度迁移后标注框反而较图片a中小，造成了预训练数据集E中原始尺度失序的问题。

为解决预训练数据集E中原始尺度失序的问题，本发明人提出了单调尺度匹配方法，以保持预训练数据集E中原始尺度的单调变化。

单调尺度匹配过程与尺度匹配过程仅在直柱体k的选择步骤不同，单调尺度匹配过程中直柱体k的选择通过以下方式进行：

例如，s对应的位置为标注框由小大小排序队列的40％处，映射目标训练集D_train中标注框由小大小排序队列的40％处，确定该40％处对应的修正后直方图的直柱体，该直柱体即为要选择的直柱体。

如图4所示，s^的分布与P_size(s^；D_train)相同，我们通过单调尺度匹配函数f将预训练数据集E中的标注框大小s映射到s^。

对于任何S₀∈[min(s),max(s)]，单调尺度匹配计算公式为：

其中，min(s)和max(s)是预训练数据集E中最小、最大标注框大小。

在本发明中，尺度匹配或单调尺度匹配可以被设置为即插即用通用模块，在模型训练前对预训练数据集进行处理，更好地利用现有的注释数据，使检测器更鲁棒。

在本发明中，经过上述尺度匹配，将预训练数据集上人物的尺度分布迁移为目标训练集上弱小人物的尺度分布，然后利用迁移后的预训练数据集和建立的TinyPerson数据集即可实施目标检测模型的训练。

值得注意的是，在TinyPerson数据集中，存在忽略区域(ignore)，该忽略区域是一组人(不是一个人，无法准确标记)或其他一些既不能被视为前景(正样本)也不能被视为背景(负样本)的物体。为了更好的训练模型，必须处理存在的忽略区域。训练时有两种处理忽略区域的方法：1)用目标训练集中图像像素的平均值替换忽略区域；2)不要反向传播来自忽略区域的梯度。在本发明中，采用处理忽略区域的第一种方法。

实施例

实施例1

1、数据集

本发明方法拟在Tinyperson、Citypersons、MSCOCO数据集进行测试：

(1)CityPersons数据集于2017年发布，在Cityscapes基础上建立，为行人检测领域提供了一个高质量的数据集。Cityscapes数据集用于城市道路场景的语义分割任务，其包括一个很大且多样的立体视频序列，从德国和周边其他国家的多个城市采集。具有精细的像素级的标注信息，包含30个语义类别，超过5000个图像，采集自27个城市。精细的标注包括行人个体和车辆。另外20000张图像从其他23个城市采集，包括粗糙的语义标签，不标记个体标签。CityPersons在5000个精细标注的数据集上，为每个行人都建立了高质量boundingbox标记。并且CityPersons比较与其他数据集在体量大、多样性丰富和遮挡较多。

(2)MSCOCO数据集分两部分发布，前部分于2014年发布，后部分于2015年，2014年版本：82783训练图片，40504验证图片和40775测试图片，有270k的分割的人(segmentedpeople)和886k的分割的物体(segmented object)；2015年版本：165482训练图片，81208验证图片，和81434测试图片。有以下特点：1)物体分割；2)上下文识别；3)每个图像多个物体；4)超过300000张图像；5)超过200万个实例；6)80个对象类别；7)每个图像5个注释；8)100000人体的关键点。本发明中选择2015年版本MSCOCO数据集。

(3)Image Net：ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库，超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象；在至少一百万个图像中，还提供了边界框。

2、性能评测准则

为了进行算法性能的评测以及与其他方法的对比，我们选取在图像分类中被广泛使用的评测方法：基于Recall(查全率)和Precision(准确率)计算出的AP(AveragePrecision，平均准确率)。

首先介绍Recall和Precision的计算过程。在训练集上学习到分类模型之后，测试集上的每一个样本都会由分类器计算出一个得分，根据样本的得分可以判断样本是正例还是反例，对所有样本的正反例评判有如下四种情况：

a)True Positive(TP)：正确的正例，也就是正例样本被分类器正确的判定为正例样本。

b)False Positive(FP)：错误的正例，也就是反例样本被分类器错误的判定为正例样本。

c)True Negative(TN)：正确的反例，也就是反例样本被分类器正确的判定为反例样本。

d)False Negative(FN)：错误的反例，也就是正例样本被分类器错误的判定为反例样本。

有了上述四个定义之后，Recall和Precision可以用如下公式计算：

Recall＝TP/(TP+FN)(4)

Precision＝TP/(TP+FP)(5)

实验中对所有测试样本的得分排序，并且通过不断的调整正反例样本的得分阈值形成不同的Recall和Precision。本发明中由于实验数据类别太多，实验中没有给出每一类目标对应的Recall-Precision曲线，而是采用了图片分类使用最为广泛的AP值，通过多组Recall和Precision计算出平均性能AP。

实验中定位性能的评测通过框定位确定，为了能够实现目标定位的评测，在测试集上的图片除了标定目标类别外，也对目标进行了框的标注，即标注了能够覆盖目标的最小直立框。

框定位性能的评测：在类别特征图上将大于给定阈值的区域用框标定，然后将框映射到原图，如果该框与原图中属于同一类别的目标的框IOU>0.5，则认为框定位正确，否则定位错误。对于每个类别，分别计算图片定位正确的与所有图片的百分比作为框定位的性能评测结果。

对于Citypersons来说，可以采用IOU标准进行绩效评估，因为Citypersons大多数忽略区域的大小与行人的大小相同。然而，在TinyPerson数据集中大多数忽略区域比人的大得多。因此，对于忽略区域，我们将IOU标准更改为IOD(IOD标准仅适用于忽略区域，非忽略区域仍然使用IOU标准)。

作为另一种性能指标，我们还可以采用与Recall相对应的MR(miss rate，丢失率)进行评测，MR指的是图中没有检测出正例目标的标注框占总体正例目标标注框的比例。

MR＝FN/(TP+FN)(8)

3、实验结果与分析

3.1目标绝对大小对识别的影响

对于微小的物体数据集，极小的尺寸是关键特征之一，也是主要挑战之一。为了量化绝对尺寸减小对检测性能的影响，我们将CityPersons下采样4*4来构建TinyCityPersons，其中对象的绝对大小的平均值与TinyPerson相同。然后我们分别为CityPersons和TinyCitypersons训练一个FPN(特征图金字塔网络)探测器，性能如表2所示。当物体尺寸变小时，性能显着下降。在表4中，TinyCityPersons的MR^tiny₅₀比CityPersons降低40％。微小物体的尺寸确实给探测带来了巨大的挑战。

表2

数据集MR^tiny1₅₀MR^tiny2₅₀MR^tiny3₅₀MR^tiny₅₀MR^small₅₀CityPersons56.424.298.9335.657.43Tiny CityPersons94.0472.5649.3775.4423.70

注：MR₅₀是指预测框和标定框的IOU大于0.5时的丢失率。

其中，MR^tiny1₅₀，MR^tiny2₅₀，MR^tiny3₅₀，MR^tiny₅₀和MR^small₅₀通过分别计算尺度范围在[2,8]，[8,12]，[12,20]，[2,20]，[20,32]Tiny>

3.2目标相对大小对识别的影响

尽管Tiny CityPersons拥有与TinyPerson类似的绝对大小。但由于下采样时整个图像缩小，相对大小不变，TinyPerson中的图像被捕获在真实场景的远处，TinyPerson拥有更小的相对大小。

为了更好地量化弱小相对大小的影响，我们分别通过直接3*3上采样TinyCityPersons和TinyPerson来观察两个新的数据集3*3Tiny CityPersons和3*3TinyPerson，分别训练FPN探测器。表3显示了性能结果。对于Tiny CityPersons，仅仅通过上升采样，MR^tiny₅₀和AP^tiny₅₀就分别提高29.95和16.31点，这些都接近原始CityPersons的性能。但是，对于TinyPerson，相同的上采样策略仅可以获得有限的性能提升。在实际场景中，由于大量复杂的背景，弱小的相对大小会导致更多的误报和严重的正负失衡。弱小的相对尺寸也极大地挑战了检测任务。

表3.

数据集MR^tiny₅₀AP^tiny₅₀Tiny Citypersons75.4419.083*3Tiny Citypersons45.4935.39TinyPerson85.7147.293*3TinyPerson83.2152.47

3.3尺度匹配对识别的效果

采用数据集ImageNet，MS COCO，COCO100，SM COCO和MSM COCO，分别训练FPN检测器，性能结果见表4。

表4.

实验比较，COCO100为通过将MSCOCO每个图像的较短边缘设置为100和保持宽高比，获得的新数据集，与Tinyperson拥有相似的标注框大小平均值，SM COCO为MS COCO经尺度匹配后的数据集，而MSM COCO为MS COCO经单调尺度匹配后的数据集。

一般来说，图像网络分类任务的预训练只能得到预训练网络主干，而MS COCO检测任务的预训练既可以得到预训练网络主干，也可以得到检测器的预训练头。

在检测方面，MS COCO的预训练通常比ImageNet的预训练获得更好的性能，尽管ImageNet拥有更多的数据。然而，在MS COCO上预先训练的检测器在Tinyperson中改进非常有限，因为MS COCO的对象大小与Tinyperson的对象大小非常不同，所以尺度匹配就十分重要。我们通过将MSCOCO每个图像的较短边缘设置为100和保持宽高比，获得一个新的数据集COCO100。然而，在COCO100上预训练的探测器性能更差，说明将外部数据集尺度的大小平均值转换为弱小人物数据集中的大小平均值是不够的。

利用尺度匹配将MS COCO的整体分布转化为弱小人体数据集的分布，构造了SMCOCO。通过对SM COCO进行预先培训，我们获得很好的性能提高。

利用单调尺度匹配构造了MSM COCO，对其进行变换。使用MSM COCO作为预先培训的数据集，性能进一步提高性能。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于尺度匹配的弱小人物目标检测方法 [P] . 中国专利： CN110728214B . 2020.08.18
2. 基于精确尺度匹配的弱小人体目标检测方法 [P] . 中国专利： CN111950610B . 2021.05.11
3. Methods and Software For Detecting Objects in Images Using a Multiscale Fast Region-Based Convolutional Neural Network [P] . 美国专利： US2018096457A1 . 2018-04-05

机译：基于多尺度快速区域卷积神经网络的图像目标检测方法和软件
4. TARGET DETECTION SYSTEM USING AN ACTIVE THRESHOLD VALUE BASED ON A VIBRATION SENSOR, CAPABLE OF REDUCING THE RATE OF FALSE ALARM BY GRADATIONALLY INFORMING THE RISK OF A TARGET STATE, AND A TARGET DETECTION METHOD THEREOF [P] . 韩国专利： KR101302060B1 . 2013-08-29

机译：利用基于振动传感器的主动阈值的目标检测系统，该方法能够通过逐步通知目标状态的风险来降低假警报的发生率，并提供了一种目标检测方法
5. A METHOD FOR DETECTING NEW CONTENT IN A TARGET WEB PAGE WITH REFERENCE TO A CONTROL WEB PAGE USING NORMALIZED TEMPLATE MATCHING [P] . SG98408A1 . 2003-09-19

机译：一种基于归一化模板匹配的控制网页中检测目标网页新内容的方法