首页> 中国专利> 识别图像中特定对象的方法以及使用该方法的系统

识别图像中特定对象的方法以及使用该方法的系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供了一种识别图像中特定对象的方法，包括：接收图像输入；基于预先设定的特定对象的特定特征，通过检测阶段的视觉方法，检测所接收图像中的假设特定对象，并生成包含假设特定对象的包围盒窗口；针对每个所获得的包围盒窗口，通过对所述窗口进行缩放处理以及对经过缩放处理后的窗口进行移动处理，从而获得与所获得的包围盒窗口相关联的相关窗口；以及通过验证阶段的视觉方法，计算每个与所获得的包围盒窗口相关联的相关窗口的置信度，并将具有最大置信度的相关窗口作为被验证的包含特定对象的结果输出。

著录项

公开/公告号CN102955931A

专利类型发明专利
公开/公告日2013-03-06

原文格式PDF
申请/专利权人株式会社理光;
展开▼

申请/专利号CN201110240446.8
发明设计人潘苹萍;刘丽艳;王晓萌;
展开▼

申请日2011-08-19
分类号G06K9/00;G06K9/46;
代理机构北京市柳沈律师事务所;
代理人黄小临
地址日本东京都
入库时间 2024-02-19 17:23:11

法律信息

法律状态公告日

法律状态信息

法律状态
2023-08-25

未缴年费专利权终止 IPC(主分类):G06K 9/00 专利号:ZL2011102404468 申请日:20110819 授权公告日:20151125

专利权的终止
2015-11-25

授权

授权
2013-04-03

实质审查的生效 IPC(主分类):G06K9/00 申请日:20110819

实质审查的生效
2013-03-06

公开

公开

说明书

技术领域

本发明属于图像处理和对象检测领域，涉及一种识别图像中特定对象的方法和系统。更具体地说，本发明提供了一种基于视觉采用两阶段来识别图像中特定对象的方法以及使用该方法的系统。

背景技术

基于视觉的两阶段对象检测和识别的方法大体遵循如下步骤：输入图像 -＞生成假设的包含所要检测对象的结果(以下称为假设结果)-＞验证假设结果-＞生成检测结果。生成假设结果的过程是在图像中找到可能的待识别特定对象(例如，人、车或其他动物等)所在区域，而验证假设结果则是对每个假设结果进行检验以确认其正确性，因此称之为“两阶段”的方法。通常在假设结果生成和假设结果验证阶段都有不同的方法可以应用，这在图像识别领域为公知技术，因此不在此赘述。

在现有技术“Paper-Using Segmentation to Verify Object Hypotheses (Toyota Technological Institute at Chicago，CVPR 2007)”中就应用了假设生成 +假设验证的方法进行对象检测。在假设生成阶段，使用了滑动窗口模板分类器得到候选假设及分割，以便在假设验证阶段进行验证。在每个检测到的假设结果所在的窗口，生成放大的窗口以检查相关的图像信息，但并没有其他的调整窗口区域的操作。

专利US20060050933A1描述了一个人脸识别的方法用来判断一幅图像是否为人脸图像。它集成了人脸，肤色及虹膜的检测。其中提到了在皮肤特征提取时，有皮肤区域的调整操作，但并没有具体的操作步骤。这种区域调整针对的是人脸检测结果窗口。

专利US7853072B2同样遵循了假设结果生成+假设结果验证的模式在图像中检测静态物体。该方法利用“注意力焦点”机制识别图像区域，生成假设。然后通过扩展基于HOG的SVM分类器进行假设验证，得到最终检测结果。在该专利中并没有提及窗口调整问题。

通常来讲，许多对象检测方法都采用上述两阶段的方法在图像中检测对象。在假设验证的阶段，验证通常仅在第一阶段得到的窗口内进行，或者简单地对窗口区域进行扩大，判定检测到的对象是否正确。然而，现有的各种识别方法误检率比较高。

发明内容

为了解决上面所提到的现有技术中的这些问题，本发明对现有技术的各种两阶段识别方法进行研究，对于各种两阶段识别方法的假设结果，发明人采用了广泛采取的评估方法PASCAL Challenge Evaluation Criteria方法(The 2005 PASCAL Visual Object Classes Challenge，网址 http://pascallin.ecs.soton.ac.uk/challenges/VOC/voc2005/chapter.pdf)来评判其正确性。所述PASCAL Challenge Evaluation Criteria方法具体描述如下：

利用如下公式计算预测窗口(即假设窗口)W_p与相应的最近ground truth 窗口W_gt之间的重合度R_o：

$R_{o} = \frac{Area (W_{p} \cap W_{gt})}{Area (W_{p} \cup W_{gt})}$

如果R_o＞50％，该预测窗口W_p被认为是正确的检测结果；否则该窗口被认为是“误判”结果。

基于以上的评价准则，对车辆检测(利用Haar+Adaboost检测子对车辆进行检测，对2462张正样本，4000张负样本进行训练)中假设生成阶段得到的误判结果进行统计分析，结果如下：

分类器总的误检数目 Ro：40％～50％ Ro：20％～40％ Ro：＜20％ STAGE-17 60 26[43.33％] 21[35％] 13 STAGE-18 38 25[65.79％] 11[28.95％] 2

由上表可以得出大部分的误检结果发生在ground truth的周围邻域。

基于以上对现有两阶段识别方法的研究，本发明提出了一种识别图像中特定对象的方法以及使用这种方法的识别图像中特定对象的系统。

根据本发明，提供了一种识别图像中特定对象的方法，该方法包括：接收图像输入；基于预先设定的特定对象的特定特征，通过检测阶段的视觉方法，检测所接收图像中的假设特定对象，并生成包含假设特定对象的包围盒窗口；针对每个所获得的包围盒窗口，通过对所述窗口进行缩放处理以及对经过缩放处理后的窗口进行移动处理，从而获得与所获得的包围盒窗口相关联的相关窗口；以及通过验证阶段的视觉方法，计算每个与所获得的包围盒窗口相关联的相关窗口的置信度，并将具有最大置信度的相关窗口作为被验证的包含特定对象的结果输出。

根据本发明的识别图像中特定对象的方法，其中，所述验证阶段的视觉方法是一种不同于所述检测阶段的视觉方法的视觉方法。

根据本发明的识别图像中特定对象的方法，其中所述通过对所述包围盒窗口进行缩放处理包括放大所述包围盒窗口、缩小所述包围盒窗口以及保持所述包围盒窗口不变。

根据本发明的识别图像中特定对象的方法，其中，所述对经过缩放处理后的窗口进行移动处理包括：将经过缩放处理后的窗口沿着预定的方向移动预定的距离从而获得相关窗口。

根据本发明的识别图像中特定对象的方法，其中在对所述包围盒窗口进行缩放处理过程中，保持所述包围盒窗口的中心位置和形状不变；以及在对经过缩放处理后的窗口进行移动处理过程中，保持缩放处理后的窗口的尺寸和形状不变。

根据本发明的识别图像中特定对象的方法，其中在对所述包围盒窗口进行缩放处理过程中，放大因子大于1，缩小因子小于1，并且所述缩放处理至少执行一次。

根据本发明的识别图像中特定对象的方法，所述将经过缩放处理后的窗口沿着预定的方向移动预定的距离从而获得相关窗口包括：沿着上、下、左、右、左上、左下、右上以及右下移动各自预定的距离，所述各自预定距离大于零。

根据本发明的识别图像中特定对象的方法，其中所述沿上、下、左、右方向移动的距离为所述经过缩放处理后的窗口在该移动方向上的长度的一半，而沿左上、左下、右上以及右下方向移动的距离为所述经过缩放处理后的窗口对角线长度的一半。

根据本发明的识别图像中特定对象的方法，所述相关窗口包括经过缩放获得的窗口和移动获得的窗口。

根据本发明的另一个方面，提供了一种识别图像中特定对象的系统，包括：接收装置，用于接收图像输入；检测装置，基于预先设定的特定对象的特定特征，通过检测阶段的视觉方法，检测所接收图像中的假设特定对象，并生成包含假设特定对象的包围盒窗口；相关窗口生成装置，针对每个所获得的包围盒窗口，通过对所述窗口进行缩放处理以及对经过缩放处理后的窗口进行移动处理，从而获得与所获得的包围盒窗口相关联的相关窗口；以及验证装置，通过验证阶段的视觉方法，计算每个与所获得的包围盒窗口相关联的相关窗口的置信度，并将具有最大置信度的相关窗口作为被验证的包含特定对象的结果输出。

根据本发明的识别方法，在静态图像中，运用特定的假设验证策略进行对象检测。对每个生成的预测窗口，在验证阶段，本方法不仅检测窗口区域本身，并且检查其邻域。目标是利用这种策略可以降低误判率，在可能的情况下，甚至可以提高检测率。

附图说明

图1所示的是根据本发明的识别图像中特定对象的方法流程图。

图2所示的是根据本发明的识别图像中特定对象的方法中相关窗口形成过程的流程图；

图3所示的是在假设检测结果中产生误判过程的实例的示意图。

图4所示的是根据本发明的识别图像中特定对象的方法中对包围盒窗口进行缩放处理的实例的示意图。

图5A和5B所示的是根据本发明的识别图像中特定对象的方法中对经过缩放处理后所获得的窗口向预定方向移动的实例的示意图。

图6所示的是根据本发明的识别图像中特定对象的方法中整体显示图4 和图5A和5B所示的窗口变换过程的示意图。

图7所示的是根据本发明的识别图像中特定对象的方法中相关窗口的生成过程的实例的示意图。

图8所示的是根据本发明的识别图像中特定对象的方法中预测窗口的调整和验证的实例的示意图。

具体实施方式

以下，将参照附图来详细说明本发明的具体实施例。

图1所示的是根据本发明的识别图像中特定对象的方法流程图。如图1 所示，在步骤10处，首先向图像接收装置输入一个原始图像img。然后在步骤11处，检测装置基于预先设定的所要识别的特定对象的特定特征，通过检测阶段的视觉方法，检测所接收图像中的假设特定对象，并生成包含假设特定对象的包围盒窗口。在输入图像中生成假设的具体步骤为：

1.利用Sobel算子或阈值化的方法对图像进行预处理；

2.利用基于视觉的方法生成假设检测结果

其中W_Ri表示第i个生成结果Ri的包围盒窗口，

img表示输入图像1≤i≤n，n≥1

一种典型的生成假设结果的方法示例如下：

利用对象的特征及描述子进行离线训练，以生成级联检测子。例如采取 Haar特征，用adaboost方法进行训练。

利用训练好的检测子在预处理后的图像中进行对象检测，每个检测到的结果被表示为一个矩形窗口。

所要识别的特定对象的特定特征可以根据具体要识别的特定对象来确定。这种特征的确定属于现有技术，例如要识别的特定对象如果是人，则可以采用人的脸部特征，如果是车，则可以采用车的轮廓特征等等。

但是上述生成假设识别结果的过程或产生误判。图3所示的是在假设检测结果中产生误判过程的实例的示意图。在图3中，给出了两个在图像中进行车辆检测的例子(生成假设检测结果)。在第一个例子中共有三个检测结果，而在第二个例子中有4个检测结果。基于ground truth的数据对生成的结果进行评估，每个例子中均有一个误判结果。在图中正确的检测结果表示为粗实线矩形框，而误判结果表示为细虚线矩形框。在后面的描述中，第一个例子会被再次引用，进行后续的说明。

继续参见图1。随后在步骤12处，假设验证装置对在步骤11处所产生的假设结果进行验证。该验证步骤12的过程如图1中的步骤120-124所述。首先，在步骤120处输入基于在步骤11处检测产生的假设检测结果形成的预测窗口。随后，在步骤121处，基于预测窗口生成对应的相关窗口。图2所示的是根据本发明的识别图像中特定对象的方法中相关窗口形成过程的流程图。如图2所示，为了降低两阶段识别方法的误检率，需要对每个由函数 HG(img，)生成的W_R生成其相关窗口GW(W_R)。首先，在步骤220处，输入 W_R。相关窗口GW(W_R)的生成由三个步骤构成：

首先，在步骤221处执行窗口区域变换。

对窗口区域进行变换时窗口的中心及形状保持不变。

三种变换操作定义如下

T_op＝{Enlarge，Origin，Reduce}

相应的变换因子为

$F_{t} (t_{op}) = (\begin{matrix} f_{E} > 1, if t_{op} = T_{op} [1]; \\ f_{O} = 1, if t_{op} = T_{op} [2] \\ f_{R} < 1, if t_{op} = T_{op} [3] . \end{matrix};)$

对变换操作可进行如下定义：

$T (t_{op}, f_{t}^{m}, w_{r}) = w_{tr},$ 其中t_op∈T_op，f_t＝F_t(t_op)，

m≥1，表示变换次数

w_r表示待变换窗口

w_tr表示区域变换后的窗口

区域变换窗口由以下策略生成：

其中TW(W_R)表示区域变示区域变

k表示最大变换次数. ①

$TW (W_{R}) = {W_{TR_i} | W_{TR_i} = T {(T_{op} [i], F_{t} {(T_{op} [i])}^{j}, W_{R}), 1 \leq j \leq k}}_{i = 1}^{3}$

图4所示的是根据本发明的识别图像中特定对象的方法中对包围盒窗口进行缩放变换处理的实例的示意图。其中表示区域变换窗口

变换因子为：f_E＝2.5，f_O＝1，f_R＝0.4.这些值的设定是假定R_o的值在40％左右时，通过分析误判的结果所得到的。最大变换操作次数的值为：k＝1.

这样共产生3个区域变换窗口：经2.5倍放大的窗口(图4左图)，原始窗口(图4中图)，以及经0.4倍缩小的窗口(图4右图)。其实，变换因子可以基于R_o的值由用户进行确定。一般f_E≥1，fO＝1，f_R≤1。

接着，在步骤222处，生成经过缩放处理后的窗口(即区域变换窗口) 的周边窗口。在对每个区域变换窗口生成其周边窗口的过程中，窗口的尺寸和形状保持不变。该过程表示如下：

${\forall W}_{TR} \in TW (W_{R}),$ 生成周边窗口SW(W_TR).

W_TR→SW(W_TR).

移动方向定义为

$O = {O_{i}}_{i = 1}^{n}, n \geq 1$

相应的移动距离为

$D = {D_{o [i]}}_{i = 1}^{n}, n \geq 1$

基于移动方向和移动距离的定义，窗口的移动定义如下：

MF(w_tr，o，d)＝w_sr，其中o∈O，d＝D_o，

w_tr表示区域变换窗口，

w_sr表示移动后的周边窗口.

对于一个变换窗口，其周边窗口的生成表示为：

$SW (W_{TR}) = {W_{SR_i} | W_{SR_i} = MF (W_{TR}, O [i], D_{O [i]})}_{i = 1}^{n}, n \geq 1$ ②

图5A和5B所示的是根据本发明的识别图像中特定对象的方法中对经过缩放处理后所获得的窗口向预定方向移动的实例的示意图。其中，图5A所示的是一种运动方向的实例，共有8种方向定义：上，下，左，右，左上，左下，右上，右下。实际上，用户可以根据实际需要来确定方向。对于移动距离，可以预定新窗口的中心移动到旧窗口的边界处。例如沿上、下、左、右方向移动的距离为所述经过缩放处理后的窗口在该移动方向上的长度的一半，而沿左上、左下、右上以及右下方向移动的距离为所述经过缩放处理后的窗口对角线长度的一半。图5B所示的是基于图5A.定义的运动方向生成周边窗口的过程。在发明的具体实施方式中，对每个变换后的窗口，共有 8个周边窗口被生成。这样，对图3中第一个例子中一个检测结果对应三个区域变换窗口，总共会有24个周边窗口被生成。

返回附图2。然后在步骤223处，生成对应于假设检测结果的预测窗口的相关窗口。具体过程如下：

基于①和②，可以为预测窗口W_R生成其相关窗口GW(W_R)

GW(W_R)＝TW(W_R)∪SW(W_{TR_1})∪…∪SW(W_{TR_m})，

其中W_{TR_1}，…，W_{TR_m}∈TW(W_R)，m是TW(W_R)中元素的总数目，

W_{TR_1}≠…≠W_{TR_m}.

因此，所有不重复的区域变换窗口以及相应的周边窗口都被认为是相关窗口。

以图3中所产生给出的第一例子中的每个所生成的预测窗口而言，共生成27个相关窗口。

如图2所示，最后，在步骤224处，输出所生成的所有相关窗口。图6所示的是根据本发明的识别图像中特定对象的方法中整体显示图4和图5A和 5B所示的窗口变换过程的示意图。

图7所示的是根据本发明的识别图像中特定对象的方法中相关窗口的生成过程的实例的示意图。图中粗实线矩形框表示生成的预测窗口，虚线矩形框是其中一个相关窗口。

返回图1。在步骤122处，计算每个相关窗口的置信度。然后在步骤123 处选择具有最高置信度的相关窗口。对预测窗口W_R，为GW(W_R)中的所有元素计算置信度的值，并且识别调整后的预测窗口。

置信度的计算公式定义为M(W_GR)。具体方法如下：

l：GW(W_R)中的元素数目，

${\forall W}_{GR} \in GW (W_{R}),$ 计算M(W_GR)，

$M (W_{R^{'}}) = \max_{1 \leq i \leq l} {M (W_{GR_i}) | W_{GR_i} = GW (W_{R}) [i]},$

对GW(W_R)中的每个元素，利用基于视觉的特征和方法，对其映射的图像区域计算置信度。找到具有最大置信度的元素(窗口W_R’)，将W_R’作为调整后的预测窗口，丢弃初始预测窗口W_R.。

在此步骤中用到的特征和方法，可以与假设生成阶段(图1中的步骤11) 用到的不同。一些计算置信度的原则示例如下：

1).分割提示[1]/基于形状的模板方法；

2).基于对象局部特征的置信度响应计算方法.

最后在步骤124处将具有最高置信度的相关窗口作为验证结果输出(实际上就是步骤13，为了叙述方便，采用了分开表述的形式)。

图8所示的是根据本发明的识别图像中特定对象的方法中预测窗口的调整和验证的实例的示意图。图8中的第一、第二幅图像给出了预测窗口调整的例子。第一幅图像中，粗实线矩形框表示生成的假设结果；在第二幅图像中的虚线矩形框表示调整后的预测窗口，此时对应于原始结果的粗实线矩形框已经被丢弃了。

验证调整后的窗口对应的检测结果R’是否为正确的结果。如果是，将R’ 识别为验证后的检测结果；如果不是，丢弃R’。此处用到的验证方法与置信度计算和预测窗口调整步骤中用到的方法既可以相同，也可以不同。但是，该方法应异于假设生成步骤中使用的方法。两个可能的验证方法如下：

1).检查R’的置信度的值；

2).HOG特征+SVM分类方法

在图8的第三幅图像中，调整后的预测窗口R’被验证为最终的检测结果。该结果表明，利用本发明前文提到的预测窗口调整策略，初始的有偏差的检测结果R被调整为正确的检测结果R’，并经验证确实为最终的检测结果。

最后，返回附图1，最后在步骤124处将具有最高置信度的相关窗口作为验证结果输出(实际上就是步骤13，为了叙述方便，采用了分开表述的形式)，将所有验证过的检测结果输出为最终结果。

此处，在本说明书中，根据程序被计算机执行的处理不需要根据如流程图说明的顺序以时间序列执行。即，根据程序被计算机执行的处理包括并行或单独执行的处理(例如并行处理和目标处理)。

同样地，程序可以在一台计算机(处理器)上执行，或者可以被多台计算机分布式执行。此外，程序可以被转移到在那儿执行程序的远程计算机。

本领域的普通技术人员应该理解到，根据设计要求和其他因素，只要其落入所附权利要求或其等效物的范围内，可以出现各种修改、组合、部分组合和替代。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 识别图像中特定对象的方法以及使用该方法的系统 [P] . 中国专利： CN102955931B . 2015.11.25
2. 一种针对特定对象使用的图像信息处理方法及系统 [P] . 中国专利： CN113468961A . 2021-10-01
3. THERMAL IMAGE SYSTEM CAPABLE OF CHASING A SPECIFIC PORTION OF A SUBJECT IN THERMAL IMAGES AND A METHOD USING THE SAME FOR CHASING THE SPECIFIC PORTION OF THE SUBJECT, CAPABLE OF ACCURATELY RECOGNIZING THE SPECIFIC PORTION OF THE SUBJECT IN A REAL-TIME VIDEO AND MEASURING TEMPERATURE [P] . 韩国专利： KR20130101922A . 2013-09-16

机译：能够在热图像中跟踪对象的特定部分的热图像系统以及使用该方法来跟踪对象的特定部分的方法，能够实时地，实时地，实时地识别对象的特定部分
4. Method and System for fast and Robust Identification of specific products in Images, the method comprises a step of Feature Extraction, a phase of Indexing of reference Images, a phase of recognition of Objects in the image consultationNormalizing scales of Key Points according to the area of interest of reference objects and eliminate Key Points that can contribute effectively to the process of identification based on standard scales [P] . CL2012003668A1 . 2014-08-29

机译：用于快速，稳健地识别图像中特定产品的方法和系统，该方法包括特征提取步骤，参考图像索引阶段，图像咨询中物体识别阶段，根据图像的面积归一化关键点的比例参照对象的兴趣并消除可对基于标准量表的识别过程做出有效贡献的关键点
5. Image recognition system based on a neuronal network in which an image of a given object is first read in and then used to recognize similar objects in other images using a teaching filter method [P] . 法国专利： FR2814572A1 . 2002-03-29

机译：基于神经网络的图像识别系统，其中首先读取给定对象的图像，然后使用示教滤波器方法将其用于识别其他图像中的相似对象