首页> 中国专利> 对象检测分类器生成方法和设备、图像对象检测方法和设备

对象检测分类器生成方法和设备、图像对象检测方法和设备

摘要

本发明公开了对象检测分类器生成方法和设备、图像对象检测方法和设备。该用于生成图像区域中的由一个中心单元和一个相邻单元构成的二单元结构的二单元结构特征描述符的方法包括计算步骤,用于分别计算中心单元和相邻单元中的梯度统计值,以及比较步骤,用于比较在计算步骤中所计算的中心单元和相邻单元中的梯度统计值,以便获得用于描述二单元结构的特征的二单元结构特征描述符,其中所述相邻单元是所述图像区域中包围所述中心单元并且与所述中心单元相邻的八个单元之一。

著录项

  • 公开/公告号CN103366177A

    专利类型发明专利

  • 公开/公告日2013-10-23

    原文格式PDF

  • 申请/专利权人 佳能株式会社;

    申请/专利号CN201210085214.4

  • 发明设计人 胥立丰;吴波;

    申请日2012-03-28

  • 分类号G06K9/62(20060101);

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人康建忠

  • 地址 日本东京

  • 入库时间 2024-02-19 21:14:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-12-07

    授权

    授权

  • 2013-11-20

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20120328

    实质审查的生效

  • 2013-10-23

    公开

    公开

说明书

技术领域

本发明总体上涉及图像检测。特别地,本发明涉及用于生成对象 检测分类器的方法和设备,并且进一步涉及用于检测图像中的对象的 方法和设备。

背景技术

针对图像的对象检测(诸如人物检测)在视频监视、基于内容的 图像/视频检索、视频评注以及生活协助中具有非常重要的应用。关于 人物检测技术存在海量的文献。其中的大部分文献关注于分类器的生 成,分类器对于对象检测是必要的且是关键的。一般来说,分类器通 常与一类对象有关,并且被用于检测图像中是否存在这类对象。

成功的方法中的一个思路是以Viola和Jones在脸部检测方面的 开创性工作为基础的[文献1]。在文献1中,Haar状特征经由积分图 像(integral image)被计算而来,并且通过Adaboost方法来学习分 类器的一种新颖的级联结构。Adaboost方法是本领域中公知的,并且 提供了有效的学习过程以及对于一般化性能的强的约束[文献6]。当 前,这样的基于学习的方法当前已成为主流;其中的关键问题是所使 用的特征以及学习算法。

在2005年,Dalal提出了用于人物检测的归一化的梯度方向直方 图(Histogram of Oriented Gradients,HOG)描述符[文献2],如图 1A所示,图1A示出如文献2中所描述的现有技术的梯度方向直方图。 每个检测窗口被分成具有8×8像素的大小的单元,并且2×2单元的 组被集合成一个块,从而块彼此重叠。每个单元由9区段HOG构成, 并且每个块包含其所有的单元的链接串联矢量。因此,每个块由36 维特征矢量表示,该36维特征矢量被归一化为L2单位长度。每个64 ×128个样本的图像由7×15个块表示,每个检测窗口给出总共3780 个特征,这通常被表示为特征矢量f=[...,...,...]。这些特征然后被用 于训练线性SVM分类器。文献2中公开的方法的概述如图1B所示。 HOG特征实现了非常好的人物检测的性能。

在2006年,Zhu通过积分图像以及集成的级级联的结构分类器来 计算HOG特征以加速文献2中所描述的方法[文献3]。36维块特征 矢量被归一化为L1单元长度,并然后用于构建SVM弱分类器。文 献3中公开的方法大大提高了检测速度,同时仍保持与文献2中公开 的方法类似的精确水平。

但是,文献2和3中所公开的两个方法中,HOG的每个块中的局 部对比度归一化步骤对于产生良好性能是关键的。但是,归一化中的 许多除法操作将大大增加计算量,对于嵌入式系统尤其如此。

近年来,对于人物检测问题,提出了一些比较特征,如关联对比 较特征(Associated Pairing Comparison Features,APCF)[文献 4]以及联合颗粒评分特征(Joint Ranking of Granules Features, JROG)[文献5]。

在文献4中,APCF以颗粒空间中颜色的简单配对比较(Paring  Comparison of Color,PCC)和梯度方向的简单配对比较(Paring  Comparison of Gradients,PCG)为基础,并且若干PCC或PCG特 征相关联以形成APCF特征。然后APCF特征被用于构建级联结构 分类器,如图1D所示,其中左部示出颜色的配对比较,而右侧示出 梯度的配对比较。由于颗粒空间中存在丰富的颗粒对,因此与文献3 中所公开的方法相比,这种简单的APCF特征能实现更精确的检测 结果。检测速度与文献3中公开的方法类似。

JROG是APCF特征的简化形式。在文献5中,使用JROG特征 来构建整体检测器和若干部分检测器以保持高检测精度,该检测精度 可由于JROG的简化而下降。最终,与文献4中公开的方法相比, 文献5中公开的方法能实现相当的检测精度以及更高的效率。文献4 和5中公开的这两个方法在图1E中被说明。

上述组合的二进制比较特征的一个优点是形式简单。在计算期间 不需要归一化步骤。另一个优点是,与Haar状特征相比,大量的颗 粒能将更丰富的信息进行编码。但是,APCF和JROG方法中的比 较是在颗粒强度或者颗粒梯度朝向之间进行的,而不是在图像块内的 梯度统计值(例如,HOG形式)之间进行的。从HOG的相对成功 的性能,可看到图像块内的梯度统计值对于人物检测是非常很有辨别 力的。同时,由于颗粒通常是像素或者具有方形形状,颗粒的宽度和 高度相同,这限制了发现有用模式(Pattern)的能力。

鉴于上文,仍需要一种能够以更高的计算速度获得更有辨别力的 特征的方法和设备。

此外,仍需要一种能够高效且精确地检测图像中的对象的方法和 设备。

[引用的文献]

1.P.Viola and M.Jones.Rapid object detection using a  boosted cascade of simple features.IEEE CVPR,2001.

2.N.Dalal and B.Triggs.Histograms of oriented gradients  for human detection.IEEE CVPR,2005.

3.Q.Zhu,S.Avidan,M.Yeh,K.Cheng.Fast Human detection  using a cascade of histograms of oriented gradients.IEEE CVPR, 2006.

4.G.Duan,C.Huang,H.Ai,and S.Lao.Boosting associated  pairing comparison features for pedestrian detection.Ninth IEEE International Workshop on Visual Surveillance,2009.

5.C.Huang,R.Nevatia.High performance object detection  by collaborative learning of joint ranking of granules features. IEEE CVPR,2010.

6.Y.Freund,R.E.Schapire.A decision-theoretic  qeneralization of on-line learning and an application to boosting. Second European Conference on Computational Learning Theory,1995.

发明内容

本发明旨在解决上述问题。本发明的一个目标是提供一种能够以 更高的计算速度获得更有辨别力的特征的方法和设备。

此外,本发明的另一个目标是提供能够高效且精确地获得用于图 像检测的对象检测分类器的方法和设备。

另外,本发明的还另一个目标是提供能够高效且精确地检测图像 中的对象的方法和设备。

根据本发明的一个方面,提供了一种生成图像区域中的二单元结 构的二单元结构特征描述符的方法,该二单元结构由一中心单元和一 相邻单元构成,其中,该相邻单元是在围绕该中心单元并且与该中心 单元相邻的八个单元中的一个,该方法包括:计算步骤,用于计算该 中心单元和该相邻单元中的梯度统计值;以及比较步骤,用于比较所 计算的该中心单元和该相邻单元中的梯度统计值,以便获得用于描述 该二单元结构的特征的二单元结构特征描述符,并且其中,该二单元 结构特征描述符是1比特的二进制值。

根据本发明的另一个方面,提供了一种用于生成用于至少一个图 像区域的对象检测分类器的方法,其中该至少一个图像区域中的每个 图像区域包括至少一个二单元结构,并且每个二单元结构由一中心单 元和一相邻单元构成,该相邻单元是围绕该中心单元并且与该中心单 元相邻的八个单元中的一个,该方法包括:特征空间计算步骤,用于 通过将上述的根据本发明的该一个方面的方法应用于该至少一个图像 区域中的每一个图像区域中包含的至少一个二单元结构中的每一个, 来计算特征空间;以及生成步骤,用于基于所确定的特征空间确定生 成对象检测分类器。

根据本发明的还另一个方面,提供了一种用于检测图像区域中的 对象的方法,该方法包括:输入步骤,用于输入要被检测的图像区域; 检测步骤,用于通过应用上述的根据本发明的该另一方面的方法所生 成的分类器检测在该图像区域中是否存在要被检测的对象。

根据本发明的还另一个方面,提供了一种生成图像区域中的二单 元结构的二单元结构特征描述符的设备,该二单元结构由一中心单元 和一相邻单元构成,其中,该相邻单元是在围绕该中心单元并且与该 中心单元相邻的八个单元中的一个,该设备包括:计算单元,被配置 用于计算该中心单元和该相邻单元中的梯度统计值;以及比较单元, 被配置用于比较所计算的该中心单元和该相邻单元中的梯度统计值, 以便获得用于描述该二单元结构的特征的二单元结构特征描述符,并 且其中,该二单元结构特征描述符是1比特的二进制值。

根据本发明的另一个方面,提供了一种用于生成用于至少一个图 像区域的对象检测分类器的设备,其中该至少一个图像区域中的每个 图像区域包括至少一个二单元结构,并且每个二单元结构由一中心单 元和一相邻单元构成,该相邻单元是围绕该中心单元并且与该中心单 元相邻的八个单元中的一个,该设备包括:特征空间计算单元,被配 置用于通过将上述的根据本发明的该一个方面的方法应用于该至少一 个图像区域中的每一个图像区域中包含的至少一个二单元结构中的每 一个,来计算特征空间;以及生成单元,被配置用于基于所确定的特 征空间确定生成对象检测分类器。

根据本发明的还另一个方面,提供了一种用于检测图像区域中的 对象的设备,该设备包括:输入单元,被配置用于输入要被检测的图 像区域;检测单元,被配置用于通过应用上述的根据本发明的该另一 方面的方法所生成的分类器检测在该图像区域中是否存在要被检测的 对象。

[有利效果]

与现有技术相比,通过利用单元空间中的梯度统计值以及其中丰 富的元素两者,根据本发明的方法和设备以更高计算速度获得具有最 高辨别力的离散值特征。

此外,基于这样获得的特征,根据本发明的方法和装置在不降低 效率的情况下更精确地获得对象检测分类器。

此外,本发明可更精确和高效地进行图像的对象检测,诸如人物 对象检测。

从参照附图的示例性实施例的以下描述,本发明的其它特征将变 得清晰。

附图说明

并入说明书中并且构成说明书的一部分的附图示出了本发明的实 施例,并且与描述一起用于解释本发明的原理。在附图中,相似的附 图标记指示相似的项目。

图1A至1E示出现有技术中的一些方法。更具体而言,图1A示 出如文献1中所描述的现有技术中的梯度方向直方图,图1B示出对 比文件2中公开的方法的概略图,图1C示出文献3中公开的方法的 概略图,图1D示出现有技术中的颗粒空间中的颜色和梯度朝向的简 单配对比较,其中左侧部分示出颜色的配对比较,右侧部分示出梯度 的配对比较,并且图1E示出文献4和5中公开的方法的概略图。

图2是用于实现本发明的设备的计算设备的布置的框图。

图3A是示出根据本发明的第一实施例的方法的流程图,并且图 3B示出若干二单元结构。

图4是示出根据本发明的第一实施例的设备的框图。

图5是示出训练过程的流程图。

图6示出LUT弱分类器。

图7是示出根据本发明的第二实施例的方法的流程图。

图8示出通过根据本发明的第二实施例的方法获得的特征的示 例。

图9是示出根据本发明的第二实施例的方法中的确定步骤中的过 程的流程图。

图10A示出若干示例性二单元结构,并且图10B示出若干示例性 三单元结构。

图11示出根据本发明的第二实施例的设备的框图。

图12是示出根据本发明的第三实施例的方法的流程图。

图13是示出检测步骤中的过程的流程图。

图14是示出根据本发明的第三实施例的设备的框图。

具体实施方式

下文将参照附图详细描述本发明的实施例。

为了使描述更清楚,首先将解释下文要使用的一些术语。

图像区域中的单元指的是图像区域中的图像块,该图像区域可包 含多个图像块。一个单元可包含至少一个像素,并且当包含多于一个 的像素时可具有若干种形状,诸如方形、矩形。单元的长度和宽度以 像素数表示,并且可相同(例如,方形)或不同(例如,矩形)。

图2是示出用于实施根据本发明的对象检测分类器生成设备以及 图像中的对象的检测设备的计算设备的布置的框图。为了简化起见, 该设备被表示为置于单个计算设备中。但是,不管该设备被置于单个 计算设备中还是被置于作为网络系统的多个计算设备中,该系统都是 有效的。

如图2所示,计算设备100用于生成对象检测分类器的过程以及 用于检测图像中的对象的过程。此外,计算设备100可执行图像检测。 计算设备100可包括CPU 101、芯片组102、RAM 103、存储控制器 104、显示控制器105、硬盘驱动器106、CD-ROM驱动器107、以 及显示器108。计算设备100还可包括连接于CPU 101和芯片组102 之间的信号线111、连接于芯片组102和RAM 103之间的信号线112、 连接于芯片组102和各种外围设备之间的外围设备总线113、连接于 存储控制器104和硬盘驱动器106之间的信号线114、连接于存储控 制器104和CD-ROM驱动器107之间的信号线115、以及连接于显 示控制器105和显示器108之间的信号线116。

客户设备120可直接或经由网络130连接到计算设备100。客户 设备120可向计算设备100发送生成对象检测分类器的过程或者执行 检测图像中的对象的处理所需要的指令和/或参数,并且计算设备100 可将信息返回给客户设备120或者在显示器108上显示信息。

本发明总体上涉及图像检测,诸如图像区域中的对象的检测,通 常是基于学习的对象检测,并且训练和检测是上述架构中的两个主要 过程。通常,利用大的样本集来生成分类器,该大的样本集包括正样 本(具有对象)和负样本(不具有对象)。训练是一次性过程。然后 在检测过程中,使用生成的分类器来确定测试图像是否包含对象。

在本发明的实现中,训练和检测过程都基于相应的图像区域的特 征(下文将被称为LAB HOG特征)的确定来执行。LAB HOG特征 的确定利用了HOG的辨别力以及特征比较的简易性两者,并且基于 图像区域中包含的单元进行的。

下文将描述本发明的实现中的各个过程。

[第一实施例]

下文,将参照图3A和3B描述根据本发明的第一实施例的用于确 定图像区域中的二单元结构特征描述符的方法,其中图3A示出根据 本发明的第一实施例的方法的过程的流程图,并且图3B示出若干示 例性的二单元模式。

在本发明的实现中,作为LAB HOG特征的确定的基本的和发明 性的过程,确定图像区域中的如下这样的二单元结构的二单元结构描 述符,该二单元结构由一中心单元和一相邻单元构成,其中,该相邻 单元是该图像区域中的围绕该中心单元且与该中心单元相邻的八个单 元中的一个,如图3B所示。

应注意,通常的情况下,两个单元(即中心单元和相邻单元)可 具有相同的形状和大小,即一个单元的长度和高度可与另一个单元的 长度和高度相同。可替换地,这两个单元可具有相同的宽长比。当然, 这两个单元可具有不同的宽长比,这有助于找到更有辨别力的特征。

在根据本发明的第一实施例的方法的步骤S301(下文将被称为计 算步骤)中,分别计算中心单元和相邻单元中的梯度统计值。

在根据本发明的第一实施例的方法的步骤S302(下文将被称为比 较步骤)中,比较在计算步骤中所计算的中心单元和相邻单元中的梯 度统计值,以便获得用于描述该二单元结构的特征的二单元结构特征 描述符。

梯度统计值是单元中计算的梯度方向直方图中的区段的值,并且 比较结果是1比特的二进制值。因此,二单元结构描述符可由1比特 的二进制值表示。

更具体而言,对于一个区段,二单元特征描述符将被如下地计算:

其中,Binc[dir0]和Binn[dir1]分别指的是所计算的中心单元和相邻单 元的有用区段的梯度统计值,并且dir1和dir0分别指的是HOG的有 用区段索引。应注意,dir1和dir0通常用于指的是同一区段。

实际上,由于HOG通常包含若干区段,因此两个单元之间的比 较可对于每个区段执行,然后获得若干1比特二进制值,每个1比特 二进制值对应于一个区段,并且每个1比特二进制值均代表该二单元 结构的特征。因此,所有二单元结构特征构成该二单元结构的二单元 结构特征空间。

图4示出根据本发明的第一实施例的用于生成图像区域中的二单 元结构的二单元特征描述符的设备,该二单元结构由一中心单元和一 相邻单元构成,其中,该相邻单元是该图像区域中的围绕该中心单元 且与该中心单元相邻的八个单元中的一个。

设备400可包括计算单元401,被配置用于分别计算中心单元和 相邻单元中的梯度统计值;以及比较单元402,被配置用于比较所计 算的中心单元和相邻单元中的梯度统计值,以便获得用于描述二单元 结构的特征的二单元结构特征描述符。

[有利效果]

由于根据本发明的第一实施例的方法利用了HOG的辨别力以及 比较特征的简易性,而无需归一化,因此计算速度被提高,所获得的 特征将是离散值,并且精度和辨别力将得到提高。

在优选实现中,在该方法的处理中不使用归一化。但是,由于方 法利用了HOG的辨别力以及比较特征的简易性两者,因此即使添加 了归一化处理,该方法的效果也不会受到大的负面影响。

[第二实施例]

如上所述,分类器对于图像对象检测的性能是必要的且重要的, 并且分类器的生成对于图像对象检测的性能也是关键的。

分类器通常是利用大的样本集训练生成的,该大的样本集包括正 样本(对象样本)和负样本(无对象样本),每个样本可对应于一个 图像区域或者图像区域的一部分。因此,分类器还可被视为通过使用 大的图像区域集被训练。训练是一次性过程。存在许多训练生成分类 器的技术以及多种分类器。一种常用的分类器是级联结构的分类器, 级联结构分类器包括至少一个级(stage),并且每个级对应于由一组 弱分类器构成的一个强分类器。应注意,尽管在说明书的上下文中使 用“图像”和“图像区域”两者,除非另外说明,否则它们通常可彼 此等同。

下文将参照图5描述分类器的训练过程的概述,图5示出级联分 类器的一个级的训练。在该训练过程中,通过Adaboost方法训练生成 级联结构的分类器。Adaboost方法提供了有效的学习过程以及对于一 般化性能的强约束。对于级联分类器的每一级,构建由一组弱分类器 构成的强分类器。在强分类器的构建期间,持续添加弱分类器,直到 满足预定的质量度量。质量度量是用检测率和误检率(false positive  rate)表示的。

在步骤501中,在级联分类器中添加一个新的级。

在步骤502中,准备用于训练新的级的正样本和负样本(例如, 至少一个图像区域,通常是多个图像区域)。本领域公知的被称为 bootstrap的训练方案被用于负样本收集。无对象的图像的集合作为负 样本的源。在每一级的训练过程之后,在整个图像集合上评价该级联 分类器,并且收集被认为是误检的任何肯定预测(positive predict) 以形成负训练集合以训练下一级的强分类器。应注意,在该级的处理 期间正样本和负样本通常不改变,并且该级中的正样本和负样本的数 量通常与另一级中的正样本和负样本的数量不同。

在步骤503中,基于训练图像的特征空间训练生成弱分类器。一 种常见类型的弱分类器是查找表(LUT)类型的弱分类器,LUT弱分 类器是将特征空间划分成多个区段并且对于每个区段输出一恒定值的 分段函数,如图6所示。横坐标f(x)代表特征空间中的区段,而纵 坐标h(x)代表实值置信度。

在步骤504中,确定此级的阈值。更具体而言,设定初始值然后 减小该初始值,直到满足目标检测率dmin。然后,将最新的值设定为阈 值T,并且评估在当前级中在此阈值下的误检率f。

在步骤505中,将所评估的误检率f与每一级的最大可接受的误 检率相比较。如果f小于fmax,则当前级的训练将完成,否则,将在此 级中添加另一弱分类器,也就是说,步骤503到504中的过程被重复 进行,直到当前级中的误检率f小于fmax。当训练过程完成时,获得此 级中的强分类器。

在步骤506中,在当前级的训练完成时,将当前级联分类器的整 体误检率F与目标误检率Ftg进行比较。如果F小于Ftg,整个训练过程 结束,否则,将在级联分类器中添加新的一级。然后重复进行步骤502 到505中的处理,直到F小于Ftg

最后,所有先前训练生成的各级的强分类器构成了最终级联分类 器,并且在步骤507中,输出该级联分类器以供将来使用。

在弱分类器的训练期间,来自至少一个训练图像的特征空间用作 训练的基础,因此该特征空间对于弱分类器以及最终的级联分类器的 性能是非常关键的。更具体而言,获得特征空间的精度和效率对于弱 分类器的训练生成的精度和效率而言是重要的。

在本发明中,提供了一种根据本发明的第二实施例的用于训练生 成弱分类器的方法,该方法利用了根据本发明的第一实施例的方法, 从而准确且高效地获得特征空间。更具体而言,在本发明的实现中, 至少一个训练图像中的每一个训练图像被分成多个单元,从而获得至 少一个二单元结构。然后,根据本发明的第一实施例的方法被应用于 每个二单元结构,从而获得用于该至少一个训练图像的二单元特征空 间。基于该特征空间,获得对应的对象检测分类器(弱分类器),并 且基于类似的过程,可获得一级所需的至少一个弱分类器以便形成级 联分类器中的当前级的强分类器,从而最终的具有至少一级的级联分 类器可由至少一级中的强分类器而获得。

下文,将参照图7描述根据本发明的第二实施例的分类器生成方 法。

图7是示出对于用于训练的至少一个图像区域生成对象检测分类 器的方法的流程图,其中每个图像区域包含至少一个二单元结构,并 且每个二单元结构由一中心单元和一相邻单元构成,该相邻单元是该 图像区域中的围绕该中心单元的并且与该中心单元相邻的八个单元之 一。

在该方法的步骤S701(下文将被称为特征空间计算步骤)中,通 过将根据本发明的第一实施例的方法应用于该用于训练的至少一个图 像区域中所包含的至少一个二单元结构中的每一个二单元结构,计算 该至少一个图像区域的特征空间。该特征空间包含从图像区域中包含 的至少一个二单元结构获得的多个二单元结构特征描述符。

该至少一个二单元结构通常构成二单元结构空间,该二单元结构 空间是通过列举如图10A所示的所有二单元结构而获得的。

如上所述,通过将中心单元与相邻单元中的梯度统计值进行比较 而获得二单元结构特征描述符。每个单元中的梯度统计值是此单元中 的梯度方向直方图(HOG)的一个区段的值。此区段将在此被称为有 用的区段,对于二单元结构定义向量[w,h,x0,y0,dir0,x1,y1,dir1] 为其的属性信息。

这里,此向量中的w和h分别代表单元的宽度和高度。中心单元 的信息由分别为左上像素的x坐标、y坐标和HOG的有用区段的x0, y0和dir0定义。相邻单元的信息由x1、y1和dir1以相同方式定义。

尽管在上述表示中,仅使用一个w和一个h来表示二单元结构中 的每个单元的宽度和高度,这意味着一个单元的宽度和高度与另一个 单元的宽度和高度相同,但是这仅是示例,并且一个单元的宽度和高 度可与另一个单元的宽度和高度不同。

在步骤S702(下文将被称为生成步骤)中,基于所计算的特征空 间来生成对象检测分类器。从特征空间生成对象检测分类器的方式没 有被具体限定,并且可以是本领域中的任何常用方法。

由于在根据第二实施例的方法的过程中,通过利用根据本发明的 第一实施例的方法来获得训练图像的特征空间并且将该特征空间用于 生成对象检测分类器,因此根据本发明的第二实施例的方法可精确地 且高效地获得更加有辨别力的特征空间,由此不管从特征空间生成对 象检测分类器的方式如何,所获得的分类器的性能提高。

常规地,在从特征空间生成对象检测分类器时,对于整个获得的 特征空间(诸如Haar状特征或HOG特征)使用穷举搜索方法,以发 现用于弱分类器的代表性特征结构,这可能具有高计算开销并且缓慢。

由于可能不同的单元位置、单元大小和单元结构,LAB HOG特 征空间的复杂性是组合性的。因此,用于Haar状特征或HOG特征的 常规的穷举搜索方法不能有效地使用。因此,为了进一步改进由特征 空间生成对象检测分类器,根据本发明的第二实施例的方法优选地在 Adaboost算法的每一轮中,采用启发式搜索过程以高效地选择至少一 个适当的结构以用于训练弱分类器,从而获得弱对象检测分类器。

在第二实施例的实现中,生成步骤进一步包括确定步骤,该确定 步骤通过启发式算法对于至少一个图像区域基于所计算的该至少一个 图像区域的特征空间来确定至少一个特定单元结构特征,其中每个特 定单元结构特征是N比特二进制值,N对应于构成该特定单元结构特 征的二单元结构特征描述符的数量,并且该N比特二进制值中的每个 比特的值对应于该特定单元结构特征中包含的N个二单元结构特征描 述符之一,其中N大于等于1。所确定的至少一个特定单元结构特征 被用于生成该对象检测分类器。应注意,根据本发明的第二实施例的 对象检测分类器(弱分类器)可由一个或多个特定单元结构特征构成。

特定单元结构特征可对应于特定单元结构,并且在此情况下,N 可对应于构成该特定单元结构的二单元结构的数量,并且N比特二进 制值中的每一比特的值对应于该特定单元结构中包含的二单元结构之 一。

应注意,如上所述,图像区域的特定单元结构特征可通过直接组 合该图像区域的特征空间中包含的二单元结构特征描述符而获得,或 者可通过首先组合该图像区域中的二单元结构以获得特定单元结构然 后计算该特定单元结构的特征来获得。这两者是等同的。

在一个示例中,图像区域的特定单元结构可通过组合该图像区域 中的若干二单元结构来获得。在一个实例中,图像区域的特定单元结 构可由两个三单元结构构成,并且这两个三单元结构中的每一个可由 具有同一中心单元的两个二单元结构构成。这两个三单元结构的中心 单元可以相同或者不同。在此情况下,特定单元结构的特征将为4比 特二进制值。

此外,三单元结构中的各个单元的宽高比可相同,但是也可为不 同的值以便有助于找到更有辨别力的模式。

图8中示出确定的图像区域的特定三单元结构的一个示例,并且 所确定的特定单元结构的生成可被总结如下。首先比较两个三单元结 构中的每一个三单元结构中的相邻单元和中心单元之间的梯度统计 值,然后将两个三单元结构的二进制比较结果进行组合以形成4比特 LAB HOG特征作为该特定单元结构特征。

应注意,图8仅是为了使本发明的概念清楚的简化示例,而不是 意图限制本发明的方法的具体实现。特定单元结构可以为任何其他形 式。

下文,将参照图9详细描述对于N=4的确定步骤的处理。

在步骤S901(下文将被称为二单元结构特征选择步骤)中,从所 计算出的特征空间中选择具有低训练误差的第一数量的二单元结构特 征描述符。

在步骤S902(下文将被称为三单元结构特征生成步骤)中,从所 选择的第一数量的二单元结构特征描述符生成第二数量的三单元结构 特征。

在步骤S903(下文将被称为特定单元结构特征确定步骤)中,基 于第二数量的三单元结构特征确定特定单元结构特征。

下文将详细描述每个步骤中的处理。

在二单元结构特征选择步骤(S901)的处理中,构成特征空间的 二单元结构特征描述符依据特定误差指标被按升序分类,并且最上面 的N1个(第一数量)特征被选择作为具有低训练误差的良好特征。 由于如上所述,取决于HOG中的区段的数量,一个二单元结构可对 应于若干特征,因此所选择的第一数量的特征可对应于若干二单元结 构。

特定误差指标相对于特征空间被确定,并且其生成方式通常与要 被生成的分类器的类型有关。在LUT分类器的情况下,误差指标是与 LUT分类器对应的计算的归一化因子。

下文将描述归一化因子的计算。

在本发明的实现中,LUT弱分类器布置是针对特征空间中的每个 特征构建的。2单元特征、3单元特征和LAB HOG特征的特征空间 被分别划分为2区段、4区段和16区段。

如果分别对于负样本和正样本当前样本为(x1,y1),...,(xm,ym),其中 yi=-1,1,wt,i是样本xi的权重,其中t指示当前级中的弱分类器索引, 并且LUT的区段数量为n,则构建步骤可如下:

对于每个区段,分别属于此区段的正样本和负样本的权重的总和 被如下计算。

Wlj=Σi:f(xi)=j^yi=lwt,i

其中,l=±1,并且j=0,...,n

区段j上的h(x)的输出被设定为:

h(x)=12ln(W+1j+ϵW-1j+ϵ)

其中,ε是小的正常数。

然后,归一化因子被计算为:

Z=2ΣjW+1jW-1j.

因此,二单元结构特征描述符根据归一化因子Z按升序排序,并 且前N1个特征被视为好的特征。

在三单元结构特征生成步骤(S902)的处理中,三单元结构特征 计算步骤可被执行以从所选择的第一数量的二单元结构特征描述中计 算得自二单元结构特征描述符的三单元结构特征,该二单元结构特征 描述符分别对应于具有相同的中心单元以及不同的相邻单元的彼此不 同的两个二单元结构,以便获得多个三单元结构特征,其中,多个三 单元结构特征中的每一个是一个2比特二进制值,其中每个比特对应 于用于计算该三单元结构特征的一个二单元结构特征描述符。然后, 从该多个三单元结构特征中选择具有低训练误差的第二数量的二单元 结构特征。

因为如上所述,一个二单元结构依赖于HOG中的区段的数量可 对应于若干个特征描述符,因此一个二单元结构特征描述符对应于一 个二单元结构,并且两个二单元结构特征描述符的组合实际上可等同 于两个二单元结构的组合,并且所生成的三单元结构特征可对应于一 个三单元结构。图10B中示出一些典型的三单元结构模式。

因此,三单元结构特征计算步骤可被理解为包含二单元结构组合 步骤以及三单元结构特征组合步骤,其中二单元结构组合步骤旨在从 与第一数量的二单元结构特征对应的二单元结构中,通过将基本二单 元结构与附加二单元结构相组合来生成三单元结构,该附加二单元结 构由该基本二单元结构的中心单元和附加的相邻单元构成,该附加的 相邻单元是该图像区域中在该中心单元周围并且与该中心单元相邻的 八个单元之一并且与该基本二单元结构中的相邻单元不同,并且该三 单元结构特征组合步骤对于每个组合的三单元结构,将该三单元结构 中所包含的基本二单元结构的每个二单元结构描述符与附加二单元结 构的每个二单元结构描述符相组合,其中多个三单元结构特征中的每 一个都为2比特二进制值,每个比特对应于组合的三单元结构中包含 的基本二单元结构和附加二单元结构之一的二单元结构特征描述符。

具体来说,通过组合具有相同中心单元和不同相邻单元的两个二 单元结构所获得的三单元结构,这两个二单元结构中的一个用作基本 二单元结构而另一个用作附加二单元结构,并且这两个二单元结构通 常彼此不同,并且该三单元结构由向量[w,h,x0,y0,dir0,x1,y1, dir1,x2,y2,dir2]定义,其中的相似符号的含义与上述用于二单元 结构的符号的含义相似,其中附加二单元结构中的相邻单元的信息、 即左上角像素的x坐标、y坐标以及HOG中的有用区段索引由x2、 y2和dir2定义。

尽管在上述表述中,仅使用一个w和一个h来代表三单元结构中 每个单元的宽度和高度,这意味着三单元结构中的三个单元的宽度和 高度都相同,但是这仅是一个示例,并且三个单元的宽度和高度可彼 此不同。

每个三单元特征均是通过组合该三单元结构中包含的两个二单元 结构的两个1比特二进制值来计算出的2比特二进制值。计算的细节 如下:

Feature=bit2 bit1

其中,bit1和bit2分别代表两个二单元结构中的每一个的1比特 二进制值。

所有三单元特征可构成三单元特征空间。应注意,构成三单元结 构的两个二单元特征通常可在同一图像区域中,这意味着构成三单元 特征结构的两个不同的二单元特征结构也可在同一图像区域中。

然后,全部三单元结构特征根据错误索引按升序排序,并且前N2 个(第二数量)特征被选择作为具有低训练误差的好的特征。应注意, 这里的索引除了是针对三单元特征空间被计算之外,其计算方式与用 于选择第一数量的二单元结构特征描述符的索引的计算方式相似。

例如,错误索引可以是针对三单元特征空间计算的如上所述的归 一化因子Z。因此,三单元特征根据该归一化因子Z按升序排序并且 选择前N2个特征作为好的特征。

应注意,这样的对于三单元结构特征计算步骤的解释仅是旨在清 楚地阐述三单元结构特征计算步骤的一种实现方式,并且三单元结构 特征计算步骤并不因此受限。

在特定单元结构特征确定步骤(S903)的处理中,可执行三单元 结构特征组合步骤以及选择步骤,其中,三单元结构特征组合步骤组 合第二数量的三单元结构特征中所包含的任意两个三单元结构特征以 获得多个组合单元结构特征,其中,一个组合单元结构特征是4比特 二进制值,每一比特对应于相应的两个三单元结构特征中的一个所包 含的两个二单元结构特征描述符中的一个,并且选择步骤选择该多个 组合单元结构特征中的具有最低训练误差的组合单元结构特征作为该 特定单元结构特征。组合的两个三单元结构特征可能对应于不同的三 单元结构。当然,它们也可对应于同一三单元结构。

更具体而言,上述第二数量的好的三单元特征中的两个被组合, 然后每个LAB HOG特征为如下计算的一个4比特值:

Feature=bit4 bit3 bit2 bit1

其中,Bin1和Bin2分别指的是这两个三单元特征。所有的LAB HOG 特征构成LAB HOG特征空间。

然后,具有最低错误索引的LAB HOG特征被选择,并且对应的 分类器(例如LUT分类器)被选择作为所获得的弱分类器。

类似的,依赖于HOG中的区段的数量,一个三单元结构可对应 于若干三单元结构特征,因此,两个三单元结构特征的组合实际上可 等同于分别与这两个三单元结构特征对应的两个三单元结构的组合, 从而获得与特定单元结构特征对应的特定单元结构。

应注意,构成特定单元特征的两个三单元特征可通常在同一图像 区域中,这意味着构成特定单元特征结构的两个不同的三单元特征结 构也可在同一图像区域中。

应注意,这里的特定错误索引除了相对于三单元特征空间被计算 之外,可被以与用于选择第一数量的二单元特征结构描述符的索引的 计算方式类似的方式计算。

例如,错误索引可以是LAB HOG特征归一化因子Z,该归一化 因子Z可针对LAB HOG特征空间被如上所述地计算。因此,LAB HOG特征空间根据归一化因子按升序排序,并且具有最低归一化因子 的特征被选择作为特定单元结构特征。

类似于前述二单元结构和三单元结构的属性信息,所获得的与特 定单元结构对应的特定单元结构特征也包括属性信息,该属性信息可 以为向量形式或者其他形式,包括关于该特定单元结构中所包含的二 单元结构的信息,并且关于二单元结构的信息可以是包括该二单元结 构的三单元结构的信息,该二单元结构中所包含的单元的位置信息、 以及该二单元结构中包含的单元的计算梯度方向直方图的区段的信 息。

应注意,特定单元结构中包含的单元可具有相同或不同的宽高比, 并且用于组合的两个三单元结构可具有相同或不同的中心单元。

因此,如果ht(x)是所学习的弱分类器,则正样本和负样本的权重 被如下地更新:

wt+1,i=wt,iexp(-yiht(xi))

wt+1,i,wt,i分别是在更新之前和之后的样本xi的权重。这样的更新将 使未被分类的样本具有更大的权重,并且更新后的权重将被用于下一 级训练。

尽管上文描述了级联分类器的一级中所包含的弱分类器,并且该 弱分类器是通过根据本发明的第二实施例的方法获得的,但是这仅是 示例性的,并且根据本发明的第二实施例的方法也可被应用于生成其 他类型的分类器。

图11是示出根据本发明的第二实施例的用于生成图像区域的对 象检测分类器的设备的框图,其中,该图像区域包括至少一个二单元 结构,并且每个二单元结构由一中心单元和一相邻单元构成,并且该 相邻单元是该图像区域中的围绕该中心单元并且与该中心单元相邻的 八个单元之一。

设备1100可包括特征空间计算单元1101,被配置用于通过将根 据本发明的第一实施例的方法应用于图像区域中包含的至少一个二单 元结构中的每一个来计算该图像区域的特征空间;以及生成单元 1102,被配置用于基于所确定的特征空间来生成对象检测分类器。

优选地,生成单元1102可包括确定单元11021,被配置用于使用 启发式算法基于所计算出的特征空间来确定图像区域的特定单元结构 特征,其中该特定单元结构特征对应于从该至少一个二单元结构获得 的特定单元结构,并且为N比特二进制值,该N比特二进制值中的每 一个比特的值对应于该特定单元结构中包含的一个二单元结构的二单 元结构特征描述符,其中由该特定单元结构特征生成该对象检测分类 器,并且其中N大于等于1。

优选地,该确定单元11021可包括二单元结构特征选择单元 110211,被配置用于从所计算的特征空间中选择具有低训练误差的第 一数量的二单元结构特征描述符;三单元结构特征生成单元110212, 被配置用于从所选择的第一数量的二单元结构特征描述符生成具有低 训练误差的第二数量的三单元结构特征;以及特定单元结构特征确定 单元110213,被配置用于基于第二数量的三单元结构特征来确定该特 定单元结构特征。

优选地,三单元结构特征生成单元110212可进一步包括单元 1102121,被配置用于从所选择的第一数量的二单元结构特征描述符中 的分别与不同的两个二单元结构对应的两个二单元结构特征描述符计 算三单元结构特征,以便获得多个三单元结构特征,该不同的两个二 单元结构具有相同的中心单元和不同的相邻单元,其中该多个三单元 结构特征中的每一个是2比特二进制值,该2比特二进制值中的每一 个比特对应于用于计算三单元结构特征的二单元结构特征描述符之 一,并且其中,从该多个三单元结构特征选择具有低训练误差的第二 数量的三单元结构特征。

优选地,特定单元结构特征确定单元110213可进一步包括三单元 结构特征组合单元1102131,被配置用于组合该第二数量的三单元结 构特征中所包含的不对应于同一三单元结构的任两个三单元结构特 征,以获得多个组合单元结构特征,其中一个组合单元结构特征是4 比特二进制值,该4比特二进制值中的每一个比特是对应的两个三单 元结构特征之一中所包含的两个二单元结构特征描述符之一,以及选 择单元1102132,被配置用于从多个组合单元结构特征中选择具有最 低训练误差的组合单元结构特征作为特定单元结构特征。

[有利效果]

由于根据本发明的第二实施例的方法利用根据本发明的第一实施 例的方法来确定二单元结构的特征描述符,并由此获得最终特定单元 结构特征,因此,根据本发明的第二实施例的方法实际利用了HOG 的辨别力以及特征比较的简易性,计算速度以及所获得的特征的辨别 力将提高。

此外,根据本发明的第二实施例的方法采用了启发式搜索过程, 而不是Haar状特征或HOG特征常用的穷举式搜索方法,从而高效地 选择用于分类器的训练的适当特征。

[第三实施例]

如上所述,训练和检测是图像中对象检测的两个主要过程。在分 类器已被训练生成的前提下,分类器将被用于检测图像中的对象。

下文将描述用于输入图像的检测过程的通常实现。输入图像被缩 放以搜索不同大小的对象。然后,通过矩形滑动窗口从左上到右下依 次扫描一个缩放后的图像,并且使用所训练生成的分类器来将每个滑 动窗口分类为含有对象或者没有对象。分类通常逐级地进行,从而检 测也逐级地执行。当在一级中滑动窗口被分类为(检测为)对象时, 分类将结束,否则,将在下一级中分类(检测)该滑动窗口,直到该 滑动窗口被分类为对象。

下文,将参照图12描述根据本发明的第三实施例的用于检测图像 中的对象的方法。应注意,这样的方法通常对应于针对一级的处理。

在步骤S1201(下文将被称为输入步骤)中,输入要被检测的图 像区域。

在步骤S1202(下文将被称为检测步骤)中,通过应用由本发明 的第二实施例的方法所生成的分类器来检测在该图像区域中是否存在 要被检测的对象。

应注意,这样的检测通常基于由至少一个弱分类器构成的一级中 的强分类器执行,并且该弱分类器可通过根据本发明的第二实施例的 方法获得。也就是说,术语“分类器”在下文有时指的是由一组弱分 类器构成的强分类器,并且下文的描述将基于这样的基础进行。

基于分类器的检测可被以本领域公知的任何方式实现。下文将参 照图13详细描述步骤S1202中的处理,并且该处理基于LUT分类器 被描述。应注意,下文的处理仅是示例,而不是限制性的。

在步骤S1301(下文将被称为特征获得步骤)中,根据生成的分 类器获得要被检测的图像区域的特征。

特别地,特征获得步骤(S1301)的处理可参照该对象检测分类器 的属性信息确定与对象检测分类器对应的要被检测的图像区域中的特 定单元结构,并且获得该特定单元结构的特征作为该图像区域的特征, 其中该对象检测分类器的属性信息是关于与该对象检测分类器对应的 单元结构中所包含的二单元结构的信息,关于二单元结构的信息包括 二单元结构的组合信息、二单元结构中包含的单元的位置信息、以及 二单元结构中包含的单元的在其中计算梯度方向直方图的区段的信 息。一般来说,位置信息可包括单元的左上角像素的坐标。

更具体而言,根据分类器对应的信息,确定与分类器的单元结构 以及其中的每个二单元结构的信息对应的要被检测的图像中的特定单 元结构,该信息可包括二单元结构的组合顺序以及其位置和相关区段。

基于这样的信息,在PC系统以及嵌入式系统中可经由积分图像 迅速地计算要被检测的图像区域的特征。

首先,将每个二单元结构中包含的两个单元之间的梯度统计值进 行比较以获得二单元结构特征,并且每个比较提供一个1比特值。

其次,根据组合顺序,将二单元结构特征组合成三单元结构特征, 由此获得特定单元结构的特征作为要被检测的图像区域的特征,其是 4比特LAB HOG特征值。

在步骤S1302(下文将被称为比较步骤)中,根据分类器进一步 处理该特征,并且将由此获得的值与分类器对应的阈值相比较以检测 图像区域中是否存在要被检测的对象。

更具体而言,根据每个弱分类器的LUT,可进一步处理所计算出 的LAB HOG特征以获得对应的实值置信度作为弱分类器的对应输 出。然后,将当前级中的弱分类器的这些输出进行组合,然后形成该 级的强分类器的输出。应注意,该处理可针对任何其他类型的分类器 类似地实施,也就是说,对于任何其他类型的分类器,所计算的LAB HOG特征可根据该分类器被进一步处理以获得与该类型的分类器对 应的值,然后将至少一个弱分类器中的每一个分类器对应的值组合以 获得一级的输出值。

将该级中的强分类器的输出值与在步骤S504中计算的该强分类 器的阈值T进行比较。如果该输出小于该阈值T,则级联分类器将该 输入的子窗口分类为无对象并且拒绝该输入的子窗口,或者使该窗口 进入下一级。

图14是示出根据本发明的第三实施例的用于检测图像区域中的 对象的设备的框图。

设备1400可包括输入单元1401,被配置用于输入要被检测的图 像区域;以及检测单元1402,被配置用于通过应用由根据本发明的第 二实施例的方法生成的分类器来检测该图像区域中是否存在要被检测 的对象。

优选地,该检测单元1402可包括特征获得单元14021,被配置用 于根据生成的分类器获得要被检测的图像区域的特征;以及比较单元 1402,被配置用于比较根据该分类器处理该特征所获得的值与对应的 阈值,以便检测该图像区域中是否存在要被检测的对象。

优选地,该特征获得单元14021可进一步被配置为参照对象检测 分类器的属性信息确定与该对象检测分类器对应的要被检测的图像区 域中的特定单元结构,并且获得该该特定单元结构的信息作为该图像 区域的特征,该对象检测分类器的属性信息是与该对象检测分类器对 应的单元结构中包含的二单元结构的信息,该二单元结构的信息包含 二单元结构的组合信息,该二单元结构中包含的单元的位置信息,以 及该二单元结构中包含的单元的在其中计算梯度方向直方图的区段的 信息。

[有利效果]

表1中总结了现有技术中的方法以及本发明的方法。这些方法的 准确度和效率基于它们的文章中报告的结果。

表1方法比较

表2中总结了前述特征。

表2特征比较

另外,可采用多种方式来实行本发明的方法和系统。例如,可通 过软件、硬件、固件或它们的任何组合来实行本发明的方法和系统。 上文所述的该方法的步骤的顺序仅是说明性的,并且除非另外具体说 明,否则本发明的方法的步骤不限于上文具体描述的顺序。此外,在 一些实施例中,本发明还可具体化为记录介质中记录的程序,包括用 于实施根据本发明的方法的机器可读指令。因此,本发明还涵盖了存 储用于实施根据本发明的方法的程序的记录介质。

虽然已经参考示例实施例描述了本发明,应当理解,本发明不限 于公开的示例实施例。下面的权利要求的范围将被给予最宽泛的解释, 以便包含所有这些修改以及等同结构和功能。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号