首页> 中国专利> 对象检测分类器生成方法和设备、图像对象检测方法和设备

对象检测分类器生成方法和设备、图像对象检测方法和设备

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了对象检测分类器生成方法和设备、图像对象检测方法和设备。该用于生成图像区域中的由一个中心单元和一个相邻单元构成的二单元结构的二单元结构特征描述符的方法包括计算步骤，用于分别计算中心单元和相邻单元中的梯度统计值，以及比较步骤，用于比较在计算步骤中所计算的中心单元和相邻单元中的梯度统计值，以便获得用于描述二单元结构的特征的二单元结构特征描述符，其中所述相邻单元是所述图像区域中包围所述中心单元并且与所述中心单元相邻的八个单元之一。

著录项

公开/公告号CN103366177A

专利类型发明专利
公开/公告日2013-10-23

原文格式PDF
申请/专利权人佳能株式会社;
展开▼

申请/专利号CN201210085214.4
发明设计人胥立丰;吴波;
展开▼

申请日2012-03-28
分类号G06K9/62(20060101);
代理机构中国国际贸易促进委员会专利商标事务所;
代理人康建忠
地址日本东京
入库时间 2024-02-19 21:14:32

法律信息

法律状态公告日

法律状态信息

法律状态
2016-12-07

授权

授权
2013-11-20

实质审查的生效 IPC(主分类):G06K9/62 申请日:20120328

实质审查的生效
2013-10-23

公开

公开

说明书

技术领域

本发明总体上涉及图像检测。特别地，本发明涉及用于生成对象检测分类器的方法和设备，并且进一步涉及用于检测图像中的对象的方法和设备。

背景技术

针对图像的对象检测(诸如人物检测)在视频监视、基于内容的图像/视频检索、视频评注以及生活协助中具有非常重要的应用。关于人物检测技术存在海量的文献。其中的大部分文献关注于分类器的生成，分类器对于对象检测是必要的且是关键的。一般来说，分类器通常与一类对象有关，并且被用于检测图像中是否存在这类对象。

成功的方法中的一个思路是以Viola和Jones在脸部检测方面的开创性工作为基础的[文献1]。在文献1中，Haar状特征经由积分图像(integral image)被计算而来，并且通过Adaboost方法来学习分类器的一种新颖的级联结构。Adaboost方法是本领域中公知的，并且提供了有效的学习过程以及对于一般化性能的强的约束[文献6]。当前，这样的基于学习的方法当前已成为主流；其中的关键问题是所使用的特征以及学习算法。

在2005年，Dalal提出了用于人物检测的归一化的梯度方向直方图(Histogram of Oriented Gradients，HOG)描述符[文献2]，如图 1A所示，图1A示出如文献2中所描述的现有技术的梯度方向直方图。每个检测窗口被分成具有8×8像素的大小的单元，并且2×2单元的组被集合成一个块，从而块彼此重叠。每个单元由9区段HOG构成，并且每个块包含其所有的单元的链接串联矢量。因此，每个块由36 维特征矢量表示，该36维特征矢量被归一化为L2单位长度。每个64 ×128个样本的图像由7×15个块表示，每个检测窗口给出总共3780 个特征，这通常被表示为特征矢量f＝[...，...，...]。这些特征然后被用于训练线性SVM分类器。文献2中公开的方法的概述如图1B所示。 HOG特征实现了非常好的人物检测的性能。

在2006年，Zhu通过积分图像以及集成的级级联的结构分类器来计算HOG特征以加速文献2中所描述的方法[文献3]。36维块特征矢量被归一化为L1单元长度，并然后用于构建SVM弱分类器。文献3中公开的方法大大提高了检测速度，同时仍保持与文献2中公开的方法类似的精确水平。

但是，文献2和3中所公开的两个方法中，HOG的每个块中的局部对比度归一化步骤对于产生良好性能是关键的。但是，归一化中的许多除法操作将大大增加计算量，对于嵌入式系统尤其如此。

近年来，对于人物检测问题，提出了一些比较特征，如关联对比较特征(Associated Pairing Comparison Features，APCF)[文献 4]以及联合颗粒评分特征(Joint Ranking of Granules Features， JROG)[文献5]。

在文献4中，APCF以颗粒空间中颜色的简单配对比较(Paring Comparison of Color，PCC)和梯度方向的简单配对比较(Paring Comparison of Gradients，PCG)为基础，并且若干PCC或PCG特征相关联以形成APCF特征。然后APCF特征被用于构建级联结构分类器，如图1D所示，其中左部示出颜色的配对比较，而右侧示出梯度的配对比较。由于颗粒空间中存在丰富的颗粒对，因此与文献3 中所公开的方法相比，这种简单的APCF特征能实现更精确的检测结果。检测速度与文献3中公开的方法类似。

JROG是APCF特征的简化形式。在文献5中，使用JROG特征来构建整体检测器和若干部分检测器以保持高检测精度，该检测精度可由于JROG的简化而下降。最终，与文献4中公开的方法相比，文献5中公开的方法能实现相当的检测精度以及更高的效率。文献4 和5中公开的这两个方法在图1E中被说明。

上述组合的二进制比较特征的一个优点是形式简单。在计算期间不需要归一化步骤。另一个优点是，与Haar状特征相比，大量的颗粒能将更丰富的信息进行编码。但是，APCF和JROG方法中的比较是在颗粒强度或者颗粒梯度朝向之间进行的，而不是在图像块内的梯度统计值(例如，HOG形式)之间进行的。从HOG的相对成功的性能，可看到图像块内的梯度统计值对于人物检测是非常很有辨别力的。同时，由于颗粒通常是像素或者具有方形形状，颗粒的宽度和高度相同，这限制了发现有用模式(Pattern)的能力。

鉴于上文，仍需要一种能够以更高的计算速度获得更有辨别力的特征的方法和设备。

此外，仍需要一种能够高效且精确地检测图像中的对象的方法和设备。

[引用的文献]

1.P.Viola and M.Jones.Rapid object detection using a boosted cascade of simple features.IEEE CVPR，2001.

2.N.Dalal and B.Triggs.Histograms of oriented gradients for human detection.IEEE CVPR，2005.

3.Q.Zhu，S.Avidan，M.Yeh，K.Cheng.Fast Human detection using a cascade of histograms of oriented gradients.IEEE CVPR， 2006.

4.G.Duan，C.Huang，H.Ai，and S.Lao.Boosting associated pairing comparison features for pedestrian detection.Ninth IEEE International Workshop on Visual Surveillance，2009.

5.C.Huang，R.Nevatia.High performance object detection by collaborative learning of joint ranking of granules features. IEEE CVPR，2010.

6.Y.Freund，R.E.Schapire.A decision-theoretic qeneralization of on-line learning and an application to boosting. Second European Conference on Computational Learning Theory，1995.

发明内容

本发明旨在解决上述问题。本发明的一个目标是提供一种能够以更高的计算速度获得更有辨别力的特征的方法和设备。

此外，本发明的另一个目标是提供能够高效且精确地获得用于图像检测的对象检测分类器的方法和设备。

另外，本发明的还另一个目标是提供能够高效且精确地检测图像中的对象的方法和设备。

根据本发明的一个方面，提供了一种生成图像区域中的二单元结构的二单元结构特征描述符的方法，该二单元结构由一中心单元和一相邻单元构成，其中，该相邻单元是在围绕该中心单元并且与该中心单元相邻的八个单元中的一个，该方法包括：计算步骤，用于计算该中心单元和该相邻单元中的梯度统计值；以及比较步骤，用于比较所计算的该中心单元和该相邻单元中的梯度统计值，以便获得用于描述该二单元结构的特征的二单元结构特征描述符，并且其中，该二单元结构特征描述符是1比特的二进制值。

根据本发明的另一个方面，提供了一种用于生成用于至少一个图像区域的对象检测分类器的方法，其中该至少一个图像区域中的每个图像区域包括至少一个二单元结构，并且每个二单元结构由一中心单元和一相邻单元构成，该相邻单元是围绕该中心单元并且与该中心单元相邻的八个单元中的一个，该方法包括：特征空间计算步骤，用于通过将上述的根据本发明的该一个方面的方法应用于该至少一个图像区域中的每一个图像区域中包含的至少一个二单元结构中的每一个，来计算特征空间；以及生成步骤，用于基于所确定的特征空间确定生成对象检测分类器。

根据本发明的还另一个方面，提供了一种用于检测图像区域中的对象的方法，该方法包括：输入步骤，用于输入要被检测的图像区域；检测步骤，用于通过应用上述的根据本发明的该另一方面的方法所生成的分类器检测在该图像区域中是否存在要被检测的对象。

根据本发明的还另一个方面，提供了一种生成图像区域中的二单元结构的二单元结构特征描述符的设备，该二单元结构由一中心单元和一相邻单元构成，其中，该相邻单元是在围绕该中心单元并且与该中心单元相邻的八个单元中的一个，该设备包括：计算单元，被配置用于计算该中心单元和该相邻单元中的梯度统计值；以及比较单元，被配置用于比较所计算的该中心单元和该相邻单元中的梯度统计值，以便获得用于描述该二单元结构的特征的二单元结构特征描述符，并且其中，该二单元结构特征描述符是1比特的二进制值。

根据本发明的另一个方面，提供了一种用于生成用于至少一个图像区域的对象检测分类器的设备，其中该至少一个图像区域中的每个图像区域包括至少一个二单元结构，并且每个二单元结构由一中心单元和一相邻单元构成，该相邻单元是围绕该中心单元并且与该中心单元相邻的八个单元中的一个，该设备包括：特征空间计算单元，被配置用于通过将上述的根据本发明的该一个方面的方法应用于该至少一个图像区域中的每一个图像区域中包含的至少一个二单元结构中的每一个，来计算特征空间；以及生成单元，被配置用于基于所确定的特征空间确定生成对象检测分类器。

根据本发明的还另一个方面，提供了一种用于检测图像区域中的对象的设备，该设备包括：输入单元，被配置用于输入要被检测的图像区域；检测单元，被配置用于通过应用上述的根据本发明的该另一方面的方法所生成的分类器检测在该图像区域中是否存在要被检测的对象。

[有利效果]

与现有技术相比，通过利用单元空间中的梯度统计值以及其中丰富的元素两者，根据本发明的方法和设备以更高计算速度获得具有最高辨别力的离散值特征。

此外，基于这样获得的特征，根据本发明的方法和装置在不降低效率的情况下更精确地获得对象检测分类器。

此外，本发明可更精确和高效地进行图像的对象检测，诸如人物对象检测。

从参照附图的示例性实施例的以下描述，本发明的其它特征将变得清晰。

附图说明

并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例，并且与描述一起用于解释本发明的原理。在附图中，相似的附图标记指示相似的项目。

图1A至1E示出现有技术中的一些方法。更具体而言，图1A示出如文献1中所描述的现有技术中的梯度方向直方图，图1B示出对比文件2中公开的方法的概略图，图1C示出文献3中公开的方法的概略图，图1D示出现有技术中的颗粒空间中的颜色和梯度朝向的简单配对比较，其中左侧部分示出颜色的配对比较，右侧部分示出梯度的配对比较，并且图1E示出文献4和5中公开的方法的概略图。

图2是用于实现本发明的设备的计算设备的布置的框图。

图3A是示出根据本发明的第一实施例的方法的流程图，并且图 3B示出若干二单元结构。

图4是示出根据本发明的第一实施例的设备的框图。

图5是示出训练过程的流程图。

图6示出LUT弱分类器。

图7是示出根据本发明的第二实施例的方法的流程图。

图8示出通过根据本发明的第二实施例的方法获得的特征的示例。

图9是示出根据本发明的第二实施例的方法中的确定步骤中的过程的流程图。

图10A示出若干示例性二单元结构，并且图10B示出若干示例性三单元结构。

图11示出根据本发明的第二实施例的设备的框图。

图12是示出根据本发明的第三实施例的方法的流程图。

图13是示出检测步骤中的过程的流程图。

图14是示出根据本发明的第三实施例的设备的框图。

具体实施方式

下文将参照附图详细描述本发明的实施例。

为了使描述更清楚，首先将解释下文要使用的一些术语。

图像区域中的单元指的是图像区域中的图像块，该图像区域可包含多个图像块。一个单元可包含至少一个像素，并且当包含多于一个的像素时可具有若干种形状，诸如方形、矩形。单元的长度和宽度以像素数表示，并且可相同(例如，方形)或不同(例如，矩形)。

图2是示出用于实施根据本发明的对象检测分类器生成设备以及图像中的对象的检测设备的计算设备的布置的框图。为了简化起见，该设备被表示为置于单个计算设备中。但是，不管该设备被置于单个计算设备中还是被置于作为网络系统的多个计算设备中，该系统都是有效的。

如图2所示，计算设备100用于生成对象检测分类器的过程以及用于检测图像中的对象的过程。此外，计算设备100可执行图像检测。计算设备100可包括CPU 101、芯片组102、RAM 103、存储控制器 104、显示控制器105、硬盘驱动器106、CD-ROM驱动器107、以及显示器108。计算设备100还可包括连接于CPU 101和芯片组102 之间的信号线111、连接于芯片组102和RAM 103之间的信号线112、连接于芯片组102和各种外围设备之间的外围设备总线113、连接于存储控制器104和硬盘驱动器106之间的信号线114、连接于存储控制器104和CD-ROM驱动器107之间的信号线115、以及连接于显示控制器105和显示器108之间的信号线116。

客户设备120可直接或经由网络130连接到计算设备100。客户设备120可向计算设备100发送生成对象检测分类器的过程或者执行检测图像中的对象的处理所需要的指令和/或参数，并且计算设备100 可将信息返回给客户设备120或者在显示器108上显示信息。

本发明总体上涉及图像检测，诸如图像区域中的对象的检测，通常是基于学习的对象检测，并且训练和检测是上述架构中的两个主要过程。通常，利用大的样本集来生成分类器，该大的样本集包括正样本(具有对象)和负样本(不具有对象)。训练是一次性过程。然后在检测过程中，使用生成的分类器来确定测试图像是否包含对象。

在本发明的实现中，训练和检测过程都基于相应的图像区域的特征(下文将被称为LAB HOG特征)的确定来执行。LAB HOG特征的确定利用了HOG的辨别力以及特征比较的简易性两者，并且基于图像区域中包含的单元进行的。

下文将描述本发明的实现中的各个过程。

[第一实施例]

下文，将参照图3A和3B描述根据本发明的第一实施例的用于确定图像区域中的二单元结构特征描述符的方法，其中图3A示出根据本发明的第一实施例的方法的过程的流程图，并且图3B示出若干示例性的二单元模式。

在本发明的实现中，作为LAB HOG特征的确定的基本的和发明性的过程，确定图像区域中的如下这样的二单元结构的二单元结构描述符，该二单元结构由一中心单元和一相邻单元构成，其中，该相邻单元是该图像区域中的围绕该中心单元且与该中心单元相邻的八个单元中的一个，如图3B所示。

应注意，通常的情况下，两个单元(即中心单元和相邻单元)可具有相同的形状和大小，即一个单元的长度和高度可与另一个单元的长度和高度相同。可替换地，这两个单元可具有相同的宽长比。当然，这两个单元可具有不同的宽长比，这有助于找到更有辨别力的特征。

在根据本发明的第一实施例的方法的步骤S301(下文将被称为计算步骤)中，分别计算中心单元和相邻单元中的梯度统计值。

在根据本发明的第一实施例的方法的步骤S302(下文将被称为比较步骤)中，比较在计算步骤中所计算的中心单元和相邻单元中的梯度统计值，以便获得用于描述该二单元结构的特征的二单元结构特征描述符。

梯度统计值是单元中计算的梯度方向直方图中的区段的值，并且比较结果是1比特的二进制值。因此，二单元结构描述符可由1比特的二进制值表示。

更具体而言，对于一个区段，二单元特征描述符将被如下地计算：

其中，Bin_c[dir0]和Bin_n[dir1]分别指的是所计算的中心单元和相邻单元的有用区段的梯度统计值，并且dir1和dir0分别指的是HOG的有用区段索引。应注意，dir1和dir0通常用于指的是同一区段。

实际上，由于HOG通常包含若干区段，因此两个单元之间的比较可对于每个区段执行，然后获得若干1比特二进制值，每个1比特二进制值对应于一个区段，并且每个1比特二进制值均代表该二单元结构的特征。因此，所有二单元结构特征构成该二单元结构的二单元结构特征空间。

图4示出根据本发明的第一实施例的用于生成图像区域中的二单元结构的二单元特征描述符的设备，该二单元结构由一中心单元和一相邻单元构成，其中，该相邻单元是该图像区域中的围绕该中心单元且与该中心单元相邻的八个单元中的一个。

设备400可包括计算单元401，被配置用于分别计算中心单元和相邻单元中的梯度统计值；以及比较单元402，被配置用于比较所计算的中心单元和相邻单元中的梯度统计值，以便获得用于描述二单元结构的特征的二单元结构特征描述符。

[有利效果]

由于根据本发明的第一实施例的方法利用了HOG的辨别力以及比较特征的简易性，而无需归一化，因此计算速度被提高，所获得的特征将是离散值，并且精度和辨别力将得到提高。

在优选实现中，在该方法的处理中不使用归一化。但是，由于方法利用了HOG的辨别力以及比较特征的简易性两者，因此即使添加了归一化处理，该方法的效果也不会受到大的负面影响。

[第二实施例]

如上所述，分类器对于图像对象检测的性能是必要的且重要的，并且分类器的生成对于图像对象检测的性能也是关键的。

分类器通常是利用大的样本集训练生成的，该大的样本集包括正样本(对象样本)和负样本(无对象样本)，每个样本可对应于一个图像区域或者图像区域的一部分。因此，分类器还可被视为通过使用大的图像区域集被训练。训练是一次性过程。存在许多训练生成分类器的技术以及多种分类器。一种常用的分类器是级联结构的分类器，级联结构分类器包括至少一个级(stage)，并且每个级对应于由一组弱分类器构成的一个强分类器。应注意，尽管在说明书的上下文中使用“图像”和“图像区域”两者，除非另外说明，否则它们通常可彼此等同。

下文将参照图5描述分类器的训练过程的概述，图5示出级联分类器的一个级的训练。在该训练过程中，通过Adaboost方法训练生成级联结构的分类器。Adaboost方法提供了有效的学习过程以及对于一般化性能的强约束。对于级联分类器的每一级，构建由一组弱分类器构成的强分类器。在强分类器的构建期间，持续添加弱分类器，直到满足预定的质量度量。质量度量是用检测率和误检率(false positive rate)表示的。

在步骤501中，在级联分类器中添加一个新的级。

在步骤502中，准备用于训练新的级的正样本和负样本(例如，至少一个图像区域，通常是多个图像区域)。本领域公知的被称为 bootstrap的训练方案被用于负样本收集。无对象的图像的集合作为负样本的源。在每一级的训练过程之后，在整个图像集合上评价该级联分类器，并且收集被认为是误检的任何肯定预测(positive predict) 以形成负训练集合以训练下一级的强分类器。应注意，在该级的处理期间正样本和负样本通常不改变，并且该级中的正样本和负样本的数量通常与另一级中的正样本和负样本的数量不同。

在步骤503中，基于训练图像的特征空间训练生成弱分类器。一种常见类型的弱分类器是查找表(LUT)类型的弱分类器，LUT弱分类器是将特征空间划分成多个区段并且对于每个区段输出一恒定值的分段函数，如图6所示。横坐标f(x)代表特征空间中的区段，而纵坐标h(x)代表实值置信度。

在步骤504中，确定此级的阈值。更具体而言，设定初始值然后减小该初始值，直到满足目标检测率d_min。然后，将最新的值设定为阈值T，并且评估在当前级中在此阈值下的误检率f。

在步骤505中，将所评估的误检率f与每一级的最大可接受的误检率相比较。如果f小于f_max，则当前级的训练将完成，否则，将在此级中添加另一弱分类器，也就是说，步骤503到504中的过程被重复进行，直到当前级中的误检率f小于f_max。当训练过程完成时，获得此级中的强分类器。

在步骤506中，在当前级的训练完成时，将当前级联分类器的整体误检率F与目标误检率F_tg进行比较。如果F小于F_tg，整个训练过程结束，否则，将在级联分类器中添加新的一级。然后重复进行步骤502 到505中的处理，直到F小于F_tg。

最后，所有先前训练生成的各级的强分类器构成了最终级联分类器，并且在步骤507中，输出该级联分类器以供将来使用。

在弱分类器的训练期间，来自至少一个训练图像的特征空间用作训练的基础，因此该特征空间对于弱分类器以及最终的级联分类器的性能是非常关键的。更具体而言，获得特征空间的精度和效率对于弱分类器的训练生成的精度和效率而言是重要的。

在本发明中，提供了一种根据本发明的第二实施例的用于训练生成弱分类器的方法，该方法利用了根据本发明的第一实施例的方法，从而准确且高效地获得特征空间。更具体而言，在本发明的实现中，至少一个训练图像中的每一个训练图像被分成多个单元，从而获得至少一个二单元结构。然后，根据本发明的第一实施例的方法被应用于每个二单元结构，从而获得用于该至少一个训练图像的二单元特征空间。基于该特征空间，获得对应的对象检测分类器(弱分类器)，并且基于类似的过程，可获得一级所需的至少一个弱分类器以便形成级联分类器中的当前级的强分类器，从而最终的具有至少一级的级联分类器可由至少一级中的强分类器而获得。

下文，将参照图7描述根据本发明的第二实施例的分类器生成方法。

图7是示出对于用于训练的至少一个图像区域生成对象检测分类器的方法的流程图，其中每个图像区域包含至少一个二单元结构，并且每个二单元结构由一中心单元和一相邻单元构成，该相邻单元是该图像区域中的围绕该中心单元的并且与该中心单元相邻的八个单元之一。

在该方法的步骤S701(下文将被称为特征空间计算步骤)中，通过将根据本发明的第一实施例的方法应用于该用于训练的至少一个图像区域中所包含的至少一个二单元结构中的每一个二单元结构，计算该至少一个图像区域的特征空间。该特征空间包含从图像区域中包含的至少一个二单元结构获得的多个二单元结构特征描述符。

该至少一个二单元结构通常构成二单元结构空间，该二单元结构空间是通过列举如图10A所示的所有二单元结构而获得的。

如上所述，通过将中心单元与相邻单元中的梯度统计值进行比较而获得二单元结构特征描述符。每个单元中的梯度统计值是此单元中的梯度方向直方图(HOG)的一个区段的值。此区段将在此被称为有用的区段，对于二单元结构定义向量[w，h，x0，y0，dir0，x1，y1，dir1] 为其的属性信息。

这里，此向量中的w和h分别代表单元的宽度和高度。中心单元的信息由分别为左上像素的x坐标、y坐标和HOG的有用区段的x0， y0和dir0定义。相邻单元的信息由x1、y1和dir1以相同方式定义。

尽管在上述表示中，仅使用一个w和一个h来表示二单元结构中的每个单元的宽度和高度，这意味着一个单元的宽度和高度与另一个单元的宽度和高度相同，但是这仅是示例，并且一个单元的宽度和高度可与另一个单元的宽度和高度不同。

在步骤S702(下文将被称为生成步骤)中，基于所计算的特征空间来生成对象检测分类器。从特征空间生成对象检测分类器的方式没有被具体限定，并且可以是本领域中的任何常用方法。

由于在根据第二实施例的方法的过程中，通过利用根据本发明的第一实施例的方法来获得训练图像的特征空间并且将该特征空间用于生成对象检测分类器，因此根据本发明的第二实施例的方法可精确地且高效地获得更加有辨别力的特征空间，由此不管从特征空间生成对象检测分类器的方式如何，所获得的分类器的性能提高。

常规地，在从特征空间生成对象检测分类器时，对于整个获得的特征空间(诸如Haar状特征或HOG特征)使用穷举搜索方法，以发现用于弱分类器的代表性特征结构，这可能具有高计算开销并且缓慢。

由于可能不同的单元位置、单元大小和单元结构，LAB HOG特征空间的复杂性是组合性的。因此，用于Haar状特征或HOG特征的常规的穷举搜索方法不能有效地使用。因此，为了进一步改进由特征空间生成对象检测分类器，根据本发明的第二实施例的方法优选地在 Adaboost算法的每一轮中，采用启发式搜索过程以高效地选择至少一个适当的结构以用于训练弱分类器，从而获得弱对象检测分类器。

在第二实施例的实现中，生成步骤进一步包括确定步骤，该确定步骤通过启发式算法对于至少一个图像区域基于所计算的该至少一个图像区域的特征空间来确定至少一个特定单元结构特征，其中每个特定单元结构特征是N比特二进制值，N对应于构成该特定单元结构特征的二单元结构特征描述符的数量，并且该N比特二进制值中的每个比特的值对应于该特定单元结构特征中包含的N个二单元结构特征描述符之一，其中N大于等于1。所确定的至少一个特定单元结构特征被用于生成该对象检测分类器。应注意，根据本发明的第二实施例的对象检测分类器(弱分类器)可由一个或多个特定单元结构特征构成。

特定单元结构特征可对应于特定单元结构，并且在此情况下，N 可对应于构成该特定单元结构的二单元结构的数量，并且N比特二进制值中的每一比特的值对应于该特定单元结构中包含的二单元结构之一。

应注意，如上所述，图像区域的特定单元结构特征可通过直接组合该图像区域的特征空间中包含的二单元结构特征描述符而获得，或者可通过首先组合该图像区域中的二单元结构以获得特定单元结构然后计算该特定单元结构的特征来获得。这两者是等同的。

在一个示例中，图像区域的特定单元结构可通过组合该图像区域中的若干二单元结构来获得。在一个实例中，图像区域的特定单元结构可由两个三单元结构构成，并且这两个三单元结构中的每一个可由具有同一中心单元的两个二单元结构构成。这两个三单元结构的中心单元可以相同或者不同。在此情况下，特定单元结构的特征将为4比特二进制值。

此外，三单元结构中的各个单元的宽高比可相同，但是也可为不同的值以便有助于找到更有辨别力的模式。

图8中示出确定的图像区域的特定三单元结构的一个示例，并且所确定的特定单元结构的生成可被总结如下。首先比较两个三单元结构中的每一个三单元结构中的相邻单元和中心单元之间的梯度统计值，然后将两个三单元结构的二进制比较结果进行组合以形成4比特 LAB HOG特征作为该特定单元结构特征。

应注意，图8仅是为了使本发明的概念清楚的简化示例，而不是意图限制本发明的方法的具体实现。特定单元结构可以为任何其他形式。

下文，将参照图9详细描述对于N＝4的确定步骤的处理。

在步骤S901(下文将被称为二单元结构特征选择步骤)中，从所计算出的特征空间中选择具有低训练误差的第一数量的二单元结构特征描述符。

在步骤S902(下文将被称为三单元结构特征生成步骤)中，从所选择的第一数量的二单元结构特征描述符生成第二数量的三单元结构特征。

在步骤S903(下文将被称为特定单元结构特征确定步骤)中，基于第二数量的三单元结构特征确定特定单元结构特征。

下文将详细描述每个步骤中的处理。

在二单元结构特征选择步骤(S901)的处理中，构成特征空间的二单元结构特征描述符依据特定误差指标被按升序分类，并且最上面的N1个(第一数量)特征被选择作为具有低训练误差的良好特征。由于如上所述，取决于HOG中的区段的数量，一个二单元结构可对应于若干特征，因此所选择的第一数量的特征可对应于若干二单元结构。

特定误差指标相对于特征空间被确定，并且其生成方式通常与要被生成的分类器的类型有关。在LUT分类器的情况下，误差指标是与 LUT分类器对应的计算的归一化因子。

下文将描述归一化因子的计算。

在本发明的实现中，LUT弱分类器布置是针对特征空间中的每个特征构建的。2单元特征、3单元特征和LAB HOG特征的特征空间被分别划分为2区段、4区段和16区段。

如果分别对于负样本和正样本当前样本为(x₁，y₁)，...，(x_m，y_m)，其中 y_i＝-1，1，w_t，i是样本x_i的权重，其中t指示当前级中的弱分类器索引，并且LUT的区段数量为n，则构建步骤可如下：

对于每个区段，分别属于此区段的正样本和负样本的权重的总和被如下计算。

${W_{l}}^{j} = \underset{i : f (x_{i}) = j^y_{i} = l}{Σ} w_{t, i}$

其中，l＝±1，并且j＝0，...，n

区段j上的h(x)的输出被设定为：

$h (x) = \frac{1}{2} \ln (\frac{W_{+ 1}^{j} + ϵ}{W_{- 1}^{j} + ϵ})$

其中，ε是小的正常数。

然后，归一化因子被计算为：

$Z = 2 \underset{j}{Σ} W_{+ 1}^{j} W_{- 1}^{j} .$

因此，二单元结构特征描述符根据归一化因子Z按升序排序，并且前N1个特征被视为好的特征。

在三单元结构特征生成步骤(S902)的处理中，三单元结构特征计算步骤可被执行以从所选择的第一数量的二单元结构特征描述中计算得自二单元结构特征描述符的三单元结构特征，该二单元结构特征描述符分别对应于具有相同的中心单元以及不同的相邻单元的彼此不同的两个二单元结构，以便获得多个三单元结构特征，其中，多个三单元结构特征中的每一个是一个2比特二进制值，其中每个比特对应于用于计算该三单元结构特征的一个二单元结构特征描述符。然后，从该多个三单元结构特征中选择具有低训练误差的第二数量的二单元结构特征。

因为如上所述，一个二单元结构依赖于HOG中的区段的数量可对应于若干个特征描述符，因此一个二单元结构特征描述符对应于一个二单元结构，并且两个二单元结构特征描述符的组合实际上可等同于两个二单元结构的组合，并且所生成的三单元结构特征可对应于一个三单元结构。图10B中示出一些典型的三单元结构模式。

因此，三单元结构特征计算步骤可被理解为包含二单元结构组合步骤以及三单元结构特征组合步骤，其中二单元结构组合步骤旨在从与第一数量的二单元结构特征对应的二单元结构中，通过将基本二单元结构与附加二单元结构相组合来生成三单元结构，该附加二单元结构由该基本二单元结构的中心单元和附加的相邻单元构成，该附加的相邻单元是该图像区域中在该中心单元周围并且与该中心单元相邻的八个单元之一并且与该基本二单元结构中的相邻单元不同，并且该三单元结构特征组合步骤对于每个组合的三单元结构，将该三单元结构中所包含的基本二单元结构的每个二单元结构描述符与附加二单元结构的每个二单元结构描述符相组合，其中多个三单元结构特征中的每一个都为2比特二进制值，每个比特对应于组合的三单元结构中包含的基本二单元结构和附加二单元结构之一的二单元结构特征描述符。

具体来说，通过组合具有相同中心单元和不同相邻单元的两个二单元结构所获得的三单元结构，这两个二单元结构中的一个用作基本二单元结构而另一个用作附加二单元结构，并且这两个二单元结构通常彼此不同，并且该三单元结构由向量[w，h，x0，y0，dir0，x1，y1， dir1，x2，y2，dir2]定义，其中的相似符号的含义与上述用于二单元结构的符号的含义相似，其中附加二单元结构中的相邻单元的信息、即左上角像素的x坐标、y坐标以及HOG中的有用区段索引由x2、 y2和dir2定义。

尽管在上述表述中，仅使用一个w和一个h来代表三单元结构中每个单元的宽度和高度，这意味着三单元结构中的三个单元的宽度和高度都相同，但是这仅是一个示例，并且三个单元的宽度和高度可彼此不同。

每个三单元特征均是通过组合该三单元结构中包含的两个二单元结构的两个1比特二进制值来计算出的2比特二进制值。计算的细节如下：

Feature＝bit2 bit1

其中，bit1和bit2分别代表两个二单元结构中的每一个的1比特二进制值。

所有三单元特征可构成三单元特征空间。应注意，构成三单元结构的两个二单元特征通常可在同一图像区域中，这意味着构成三单元特征结构的两个不同的二单元特征结构也可在同一图像区域中。

然后，全部三单元结构特征根据错误索引按升序排序，并且前N2 个(第二数量)特征被选择作为具有低训练误差的好的特征。应注意，这里的索引除了是针对三单元特征空间被计算之外，其计算方式与用于选择第一数量的二单元结构特征描述符的索引的计算方式相似。

例如，错误索引可以是针对三单元特征空间计算的如上所述的归一化因子Z。因此，三单元特征根据该归一化因子Z按升序排序并且选择前N2个特征作为好的特征。

应注意，这样的对于三单元结构特征计算步骤的解释仅是旨在清楚地阐述三单元结构特征计算步骤的一种实现方式，并且三单元结构特征计算步骤并不因此受限。

在特定单元结构特征确定步骤(S903)的处理中，可执行三单元结构特征组合步骤以及选择步骤，其中，三单元结构特征组合步骤组合第二数量的三单元结构特征中所包含的任意两个三单元结构特征以获得多个组合单元结构特征，其中，一个组合单元结构特征是4比特二进制值，每一比特对应于相应的两个三单元结构特征中的一个所包含的两个二单元结构特征描述符中的一个，并且选择步骤选择该多个组合单元结构特征中的具有最低训练误差的组合单元结构特征作为该特定单元结构特征。组合的两个三单元结构特征可能对应于不同的三单元结构。当然，它们也可对应于同一三单元结构。

更具体而言，上述第二数量的好的三单元特征中的两个被组合，然后每个LAB HOG特征为如下计算的一个4比特值：

Feature＝bit4 bit3 bit2 bit1

其中，Bin¹和Bin²分别指的是这两个三单元特征。所有的LAB HOG 特征构成LAB HOG特征空间。

然后，具有最低错误索引的LAB HOG特征被选择，并且对应的分类器(例如LUT分类器)被选择作为所获得的弱分类器。

类似的，依赖于HOG中的区段的数量，一个三单元结构可对应于若干三单元结构特征，因此，两个三单元结构特征的组合实际上可等同于分别与这两个三单元结构特征对应的两个三单元结构的组合，从而获得与特定单元结构特征对应的特定单元结构。

应注意，构成特定单元特征的两个三单元特征可通常在同一图像区域中，这意味着构成特定单元特征结构的两个不同的三单元特征结构也可在同一图像区域中。

应注意，这里的特定错误索引除了相对于三单元特征空间被计算之外，可被以与用于选择第一数量的二单元特征结构描述符的索引的计算方式类似的方式计算。

例如，错误索引可以是LAB HOG特征归一化因子Z，该归一化因子Z可针对LAB HOG特征空间被如上所述地计算。因此，LAB HOG特征空间根据归一化因子按升序排序，并且具有最低归一化因子的特征被选择作为特定单元结构特征。

类似于前述二单元结构和三单元结构的属性信息，所获得的与特定单元结构对应的特定单元结构特征也包括属性信息，该属性信息可以为向量形式或者其他形式，包括关于该特定单元结构中所包含的二单元结构的信息，并且关于二单元结构的信息可以是包括该二单元结构的三单元结构的信息，该二单元结构中所包含的单元的位置信息、以及该二单元结构中包含的单元的计算梯度方向直方图的区段的信息。

应注意，特定单元结构中包含的单元可具有相同或不同的宽高比，并且用于组合的两个三单元结构可具有相同或不同的中心单元。

因此，如果h_t(x)是所学习的弱分类器，则正样本和负样本的权重被如下地更新：

w_t+1，i＝w_t，iexp(-y_ih_t(x_i))

w_t+1，i，w_t，i分别是在更新之前和之后的样本x_i的权重。这样的更新将使未被分类的样本具有更大的权重，并且更新后的权重将被用于下一级训练。

尽管上文描述了级联分类器的一级中所包含的弱分类器，并且该弱分类器是通过根据本发明的第二实施例的方法获得的，但是这仅是示例性的，并且根据本发明的第二实施例的方法也可被应用于生成其他类型的分类器。

图11是示出根据本发明的第二实施例的用于生成图像区域的对象检测分类器的设备的框图，其中，该图像区域包括至少一个二单元结构，并且每个二单元结构由一中心单元和一相邻单元构成，并且该相邻单元是该图像区域中的围绕该中心单元并且与该中心单元相邻的八个单元之一。

设备1100可包括特征空间计算单元1101，被配置用于通过将根据本发明的第一实施例的方法应用于图像区域中包含的至少一个二单元结构中的每一个来计算该图像区域的特征空间；以及生成单元 1102，被配置用于基于所确定的特征空间来生成对象检测分类器。

优选地，生成单元1102可包括确定单元11021，被配置用于使用启发式算法基于所计算出的特征空间来确定图像区域的特定单元结构特征，其中该特定单元结构特征对应于从该至少一个二单元结构获得的特定单元结构，并且为N比特二进制值，该N比特二进制值中的每一个比特的值对应于该特定单元结构中包含的一个二单元结构的二单元结构特征描述符，其中由该特定单元结构特征生成该对象检测分类器，并且其中N大于等于1。

优选地，该确定单元11021可包括二单元结构特征选择单元 110211，被配置用于从所计算的特征空间中选择具有低训练误差的第一数量的二单元结构特征描述符；三单元结构特征生成单元110212，被配置用于从所选择的第一数量的二单元结构特征描述符生成具有低训练误差的第二数量的三单元结构特征；以及特定单元结构特征确定单元110213，被配置用于基于第二数量的三单元结构特征来确定该特定单元结构特征。

优选地，三单元结构特征生成单元110212可进一步包括单元 1102121，被配置用于从所选择的第一数量的二单元结构特征描述符中的分别与不同的两个二单元结构对应的两个二单元结构特征描述符计算三单元结构特征，以便获得多个三单元结构特征，该不同的两个二单元结构具有相同的中心单元和不同的相邻单元，其中该多个三单元结构特征中的每一个是2比特二进制值，该2比特二进制值中的每一个比特对应于用于计算三单元结构特征的二单元结构特征描述符之一，并且其中，从该多个三单元结构特征选择具有低训练误差的第二数量的三单元结构特征。

优选地，特定单元结构特征确定单元110213可进一步包括三单元结构特征组合单元1102131，被配置用于组合该第二数量的三单元结构特征中所包含的不对应于同一三单元结构的任两个三单元结构特征，以获得多个组合单元结构特征，其中一个组合单元结构特征是4 比特二进制值，该4比特二进制值中的每一个比特是对应的两个三单元结构特征之一中所包含的两个二单元结构特征描述符之一，以及选择单元1102132，被配置用于从多个组合单元结构特征中选择具有最低训练误差的组合单元结构特征作为特定单元结构特征。

[有利效果]

由于根据本发明的第二实施例的方法利用根据本发明的第一实施例的方法来确定二单元结构的特征描述符，并由此获得最终特定单元结构特征，因此，根据本发明的第二实施例的方法实际利用了HOG 的辨别力以及特征比较的简易性，计算速度以及所获得的特征的辨别力将提高。

此外，根据本发明的第二实施例的方法采用了启发式搜索过程，而不是Haar状特征或HOG特征常用的穷举式搜索方法，从而高效地选择用于分类器的训练的适当特征。

[第三实施例]

如上所述，训练和检测是图像中对象检测的两个主要过程。在分类器已被训练生成的前提下，分类器将被用于检测图像中的对象。

下文将描述用于输入图像的检测过程的通常实现。输入图像被缩放以搜索不同大小的对象。然后，通过矩形滑动窗口从左上到右下依次扫描一个缩放后的图像，并且使用所训练生成的分类器来将每个滑动窗口分类为含有对象或者没有对象。分类通常逐级地进行，从而检测也逐级地执行。当在一级中滑动窗口被分类为(检测为)对象时，分类将结束，否则，将在下一级中分类(检测)该滑动窗口，直到该滑动窗口被分类为对象。

下文，将参照图12描述根据本发明的第三实施例的用于检测图像中的对象的方法。应注意，这样的方法通常对应于针对一级的处理。

在步骤S1201(下文将被称为输入步骤)中，输入要被检测的图像区域。

在步骤S1202(下文将被称为检测步骤)中，通过应用由本发明的第二实施例的方法所生成的分类器来检测在该图像区域中是否存在要被检测的对象。

应注意，这样的检测通常基于由至少一个弱分类器构成的一级中的强分类器执行，并且该弱分类器可通过根据本发明的第二实施例的方法获得。也就是说，术语“分类器”在下文有时指的是由一组弱分类器构成的强分类器，并且下文的描述将基于这样的基础进行。

基于分类器的检测可被以本领域公知的任何方式实现。下文将参照图13详细描述步骤S1202中的处理，并且该处理基于LUT分类器被描述。应注意，下文的处理仅是示例，而不是限制性的。

在步骤S1301(下文将被称为特征获得步骤)中，根据生成的分类器获得要被检测的图像区域的特征。

特别地，特征获得步骤(S1301)的处理可参照该对象检测分类器的属性信息确定与对象检测分类器对应的要被检测的图像区域中的特定单元结构，并且获得该特定单元结构的特征作为该图像区域的特征，其中该对象检测分类器的属性信息是关于与该对象检测分类器对应的单元结构中所包含的二单元结构的信息，关于二单元结构的信息包括二单元结构的组合信息、二单元结构中包含的单元的位置信息、以及二单元结构中包含的单元的在其中计算梯度方向直方图的区段的信息。一般来说，位置信息可包括单元的左上角像素的坐标。

更具体而言，根据分类器对应的信息，确定与分类器的单元结构以及其中的每个二单元结构的信息对应的要被检测的图像中的特定单元结构，该信息可包括二单元结构的组合顺序以及其位置和相关区段。

基于这样的信息，在PC系统以及嵌入式系统中可经由积分图像迅速地计算要被检测的图像区域的特征。

首先，将每个二单元结构中包含的两个单元之间的梯度统计值进行比较以获得二单元结构特征，并且每个比较提供一个1比特值。

其次，根据组合顺序，将二单元结构特征组合成三单元结构特征，由此获得特定单元结构的特征作为要被检测的图像区域的特征，其是 4比特LAB HOG特征值。

在步骤S1302(下文将被称为比较步骤)中，根据分类器进一步处理该特征，并且将由此获得的值与分类器对应的阈值相比较以检测图像区域中是否存在要被检测的对象。

更具体而言，根据每个弱分类器的LUT，可进一步处理所计算出的LAB HOG特征以获得对应的实值置信度作为弱分类器的对应输出。然后，将当前级中的弱分类器的这些输出进行组合，然后形成该级的强分类器的输出。应注意，该处理可针对任何其他类型的分类器类似地实施，也就是说，对于任何其他类型的分类器，所计算的LAB HOG特征可根据该分类器被进一步处理以获得与该类型的分类器对应的值，然后将至少一个弱分类器中的每一个分类器对应的值组合以获得一级的输出值。

将该级中的强分类器的输出值与在步骤S504中计算的该强分类器的阈值T进行比较。如果该输出小于该阈值T，则级联分类器将该输入的子窗口分类为无对象并且拒绝该输入的子窗口，或者使该窗口进入下一级。

图14是示出根据本发明的第三实施例的用于检测图像区域中的对象的设备的框图。

设备1400可包括输入单元1401，被配置用于输入要被检测的图像区域；以及检测单元1402，被配置用于通过应用由根据本发明的第二实施例的方法生成的分类器来检测该图像区域中是否存在要被检测的对象。

优选地，该检测单元1402可包括特征获得单元14021，被配置用于根据生成的分类器获得要被检测的图像区域的特征；以及比较单元 1402，被配置用于比较根据该分类器处理该特征所获得的值与对应的阈值，以便检测该图像区域中是否存在要被检测的对象。

优选地，该特征获得单元14021可进一步被配置为参照对象检测分类器的属性信息确定与该对象检测分类器对应的要被检测的图像区域中的特定单元结构，并且获得该该特定单元结构的信息作为该图像区域的特征，该对象检测分类器的属性信息是与该对象检测分类器对应的单元结构中包含的二单元结构的信息，该二单元结构的信息包含二单元结构的组合信息，该二单元结构中包含的单元的位置信息，以及该二单元结构中包含的单元的在其中计算梯度方向直方图的区段的信息。

[有利效果]

表1中总结了现有技术中的方法以及本发明的方法。这些方法的准确度和效率基于它们的文章中报告的结果。

表1方法比较

表2中总结了前述特征。

表2特征比较

另外，可采用多种方式来实行本发明的方法和系统。例如，可通过软件、硬件、固件或它们的任何组合来实行本发明的方法和系统。上文所述的该方法的步骤的顺序仅是说明性的，并且除非另外具体说明，否则本发明的方法的步骤不限于上文具体描述的顺序。此外，在一些实施例中，本发明还可具体化为记录介质中记录的程序，包括用于实施根据本发明的方法的机器可读指令。因此，本发明还涵盖了存储用于实施根据本发明的方法的程序的记录介质。

虽然已经参考示例实施例描述了本发明，应当理解，本发明不限于公开的示例实施例。下面的权利要求的范围将被给予最宽泛的解释，以便包含所有这些修改以及等同结构和功能。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 对象检测分类器生成方法和设备、图像对象检测方法和设备 [P] . 中国专利： CN103366177B . 2016.12.07
2. 分类器生成、更新与对象检测方法和装置及图像处理设备 [P] . 中国专利： CN106295666A . 2017-01-04
3. Image generating method, object detecting method, object detecting equipment, and image generating program [P] . 美国专利： US7747104B2 . 2010-06-29

机译：图像生成方法，对象检测方法，对象检测设备以及图像生成程序
4. Image generating method, object detecting method, object detecting equipment, and image generating program [P] . 美国专利： US2007003164A1 . 2007-01-04

机译：图像生成方法，对象检测方法，对象检测设备以及图像生成程序
5. Method and apparatus for object classifier generation, and method and apparatus for detecting object in image [P] . 美国专利： US9171210B2 . 2015-10-27

机译：用于对象分类器生成的方法和设备以及用于检测图像中的对象的方法和设备