首页> 中国专利> 一种使用聚合通道特征和软级联分类器的行人检测方法

一种使用聚合通道特征和软级联分类器的行人检测方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种使用聚合通道特征和软级联分类器的行人检测方法，包括以下步骤：步骤1：获取图像，并对图像进行预处理构成图像金字塔；步骤2：从图像金字塔中提取聚合通道特征金字塔；步骤3：在聚合通道特征金字塔上按照设定的步长滑动检测窗口，获得检测块；步骤4：使用已训练好的多个软级联分类器将步骤3获得的检测块依次分类为含有行人或不含行人的检测块；步骤5：被分类为含有行人的检测块标记为行人候选窗口，并记录每个行人候选窗口的分类得分；步骤6：去除重叠行人候选窗口；步骤7：输出行人检测结果。聚合通道特征有效描述了行人类的外观共性。多个软级联分类器组成检测器的方式较好处理了训练数据不平衡问题，提高了检测能力。

著录项

公开/公告号CN103886308A

专利类型发明专利
公开/公告日2014-06-25

原文格式PDF
申请/专利权人中南大学;
展开▼

申请/专利号CN201410150661.2
发明设计人邹北骥;傅红普;王磊;粱毅雄;陈再良;朱承璋;刘晴;乃科;
展开▼

申请日2014-04-15
分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/66(20060101);
代理机构43114 长沙市融智专利事务所;
代理人黄美成
地址 410083 湖南省长沙市岳麓区麓山南路932号
入库时间 2023-12-16 23:56:12

法律信息

法律状态公告日

法律状态信息

法律状态
2019-04-05

未缴年费专利权终止 IPC(主分类):G06K9/00 授权公告日:20170329 终止日期:20180415 申请日:20140415

专利权的终止
2017-03-29

授权

授权
2014-07-16

实质审查的生效 IPC(主分类):G06K9/00 申请日:20140415

实质审查的生效
2014-06-25

公开

公开

说明书

技术领域

本发明涉及计算机视觉的目标检测技术领域，特别涉及一种使用聚合通道特征和软级联分类器的行人检测方法。

背景技术

因为在安保监控、自动驾驶和智能机器人等领域中的关键作用，多年来行人检测一直是计算机视觉领域的热门研究课题。随着描述图像区域信息的更有效底层特征的出现和更好的行人表示模型的设计，近年来行人检测的性能得到了很大提高，但离实用要求仍有不小差距。

在计算机视觉技术中进行行人检测通常采用滑动窗口的方式。即，确定固定大小的矩形，依次从左到右，从上到下选择矩形区域；然后提取矩形区域中的特征，并将得到的特征输入分类器或者检测器进行判断，最后输出检测到行人的矩形区域。因此，影响行人检测的两个关键因素分别是底层特征和分类器或检测器。在现有最好的行人检测方法中，底层特征一般都使用获取局部信息的特征。这里将现有最好性能检测器归为以下四类：一、单一刚性模版检测器；二、单一部件结构模型检测器；三、多刚性模版检测器；四、多部件结构模型检测器。

对常用的底层特征及这四种检测器分析如下：

单纯使用像素灰度值的类Haar矩形特征因其简单性，并且可以使用积分图技术加速特征的提取，在人脸检测中得到了成功的应用。因灰度值受光照等外部影响很大，加之行人外观的复杂多变性，在行人检测中，类Harr特征的表达能力就太弱了，因此一般只用来预先大致确定包含行人的感兴趣区域，再进行后续处理。

像素梯度能获得较好的光照不变性，获取矩形区域梯度直方图的HOG特征在行人检测上表现出了很好的性能。因为采用了区域部分重叠、直方图计算三线性插值消除走样等获得不变性的措施，HOG特征的维度比较高，计算量也比较大，这些是其在实时应用中的障碍。积分通道特征可以看作是HOG特征的积分图化。该特征除了利用像素梯度之外，还使用了LUV 的像素值，这样的处理使得该特征具有了较好的表达能力，并且引入积分图让计算量降低到了可接受的程度。基于去掉很小区域和很大区域的直方图不太会影响行人检测效果的事实，聚合通道特征只计算固定大小正方形区域的直方图，采用了积分通道特征相同的通道，这样使特征的维度大大降低了，同时表达能力相对于积分通道特征还有了提高。

刚性模板将行人当作一个整体，相当于行人集外观的平均值表示。单一刚性模板检测器使用一个刚性模板描述整个行人类别，其训练是一个全局优化问题，有多种可选的优化方法、训练起来比较简单是其最大优点。但是，由于行人外观的复杂多边性，刚性模板表达能力不太好，从而造成最后的行人检测效果无法达到最佳。

部件结构模型是复杂模型的代表，它考虑到了行人可以看作多个相对独立的部件构成这个事实，不但表达各部件的外观，也表达部件之间的关系和行人的整体外观。这种模型的表达能力很强，也更符合行人的生理结构，这是其突出优点。相对于刚体模型，训练部件结构模型需要很多额外的信息，而这些信息很多是隐含的，在训练时并不能获得。隐含信息的使用造成了训练的困难，从而得到的部件结构模型往往不是最优的。

由于行人具有极大的类内差别，使用单一模型不足以描述行人这个类别。多刚性模板检测器和多部件结构模板检测器都基于将行人分解成多个较单纯的子类处理的想法。同一子类行人的外观具有较好的相似性，可以更好的描述，多模型检测器正是利用了这个优点。但是，首先要将行人划分为多个子类才可能训练出多模型检测器，这个子类划分尚是未解决的开放课题。

发明内容

本发明提供了一种使用聚合通道特征和软级联分类器的行人检测方法，其目的在于克服上述现有技术的不足，拟避开子类划分、降低训练难度、充分利用多模型的表达能力、同时维持较快的检测速度。

一种使用聚合通道特征和软级联分类器的行人检测方法，包括以下步骤：

步骤1：获取图像，并对图像进行预处理构成图像金字塔；

步骤2：从图像金字塔中提取聚合通道特征金字塔；

步骤3：在聚合通道特征金字塔上按照设定的步长滑动检测窗口，获得检测块；

步骤4：使用已训练好的多个软级联分类器将步骤3获得的检测块依次分类为含有行人或不含行人的检测块；

步骤5：被分类为含有行人的检测块标记为行人候选窗口，并记录每个行人候选窗口的分类得分；

步骤6：去除重叠行人候选窗口；

将行人候选窗口按照分类得分进行降序排列，依次计算相邻的两个行人候选窗口的重叠面积A与相邻两个行人候选窗口中较小行人候选窗口面积B的比值如果比值大于0.65，则去掉分类得分较小的行人候选窗口，直到没有任何相邻的两个行人窗口的重叠比值大于0.65为止；

步骤7：输出行人检测结果。

所述步骤1中对图像进行预处理是指将RGB图像变换为LUV颜色空间图像，并对LUV 颜色空间图像进行边缘填充使得图像的高度和宽度均为步骤3中设定步长的整数倍；按照设定的缩放系数对图像进行缩小，得到多幅尺寸依次递减的图像，形成图像金字塔；

所述缩放系数为1.01-1.05之间的实数，按照缩放系数对图像进行缩小是指缩小前的图像大小是缩小后的图像大小的1.01-1.05倍。

所述步骤2中聚合通道特征的提取过程如下：

首先，计算图像金字塔中每一幅图像的每个像素点的LUV三颜色像素梯度，取最大值作为当前像素点的像素梯度；

其次，按6个梯度方向获得每个像素点的梯度方向直方图；

所述6个梯度方向是指在梯度角度变化范围内等分为六个区间，每个梯度方向为其中一个区间；所述梯度角度变化范围为180度或360度；

比如[0-30]为第一个角度方向，…；也可以考虑为360度，则区间为60度即可。

最后，将每个像素点的LUV三颜色值、像素梯度大小以及6个梯度方向的梯度大小作为每个像素点的聚合通道特征；

单幅图像所有像素点的聚合通道特征构成了聚合通道特征矩阵，图像金字塔中每幅图像的聚合通道特征矩阵构成聚合通道特征金字塔。

所述步骤3中的滑动检测窗口是指在聚合通道特征矩阵上依次从左到右、从上到下按设定步长滑动检测窗口，设定步长小于检测窗口的长和宽，检测窗口在聚合通道特征矩阵形成若干个与检测窗口大小相同的矩形块。

所述步骤4中已训练好的多个软级联分类器的训练过程如下：

利用聚合通道特征和软级联分类器，对训练样本集进行训练以得到多个软级联分类器；

训练样本集包括：正样本集和负样本集，所述正样本集包括不少于3000个包含行人且像素大小为64X32的图像区域，所述负样本集包括不少于10万个不包含行人且像素大小为 64X32的图像区域；

所述多个软级联分类器的第一个软级联分类器使用了全部正样本集和随机抽取的数量与正样本一样的负样本子集，之后的每一个软级联行人分类使用了全部正样本集和相同数目的随机抽取的负样本子集，但是能被已经训练出的软级联分类器的组合正确分类的负样本被排除在抽样范围之外，直到所有的负样本都能被所训练出的软级联分类器正确分类，则结束训练。

所述步骤5中的分类得分由以下公式计算：

$H (x) = [Π_{p = 0}^{n - 1} H_{p} [1], Σ_{p = 0}^{n - 1} α_{p} H_{p} [2]]$

其中，α_p是第p个软级联分类器H_p的权值，H_p[1]是第p个软级联分类器H_p将软级联分类器H_p的输出值按照设定的阈值输出0或1；H_p[2]为第p个软级联分类器的输出值；

所有软级联分类器构成检测器H(x)，当检测器H(x)的第一个输出为‘1’时，检测器选择的当前窗口作为行人候选窗口，当检测器H(x)的第一个输出为‘0’时，则放弃当前窗口；检测器H(x)的第二个输出作为当前窗口的分类得分，作为去除重叠行人候选窗口的依据。

所述多个软级联分类器的个数是训练时自动确定的，无需事先指定。

所述多个软级联分类器具有相同的复杂度，相互之间是完全平等，没有使用的先后顺序。

所述多个软级联分类器对检测块的判断采用了级联方式，即，如果某个分类器给出一个检测块无行人的判断，则不再使用其他分类器，从而放弃该块进行下一个检测块的判断。

多个软级联分类器对检测块的判断采用了级联方式，即，如果某个分类器给出一个检测块无行人的判断，则不再使用其他分类器，从而放弃该块进行下一个检测块的判断。

每个软级联分类器都保留全部行人类实体，但是只能拒绝部分非行人类实体。

同一个非行人类实体可能被多个软级联分类器拒绝。

每个软级联分类器都能拒绝一些其他软级联分类器不能拒绝的非行人类实体。

有益效果

本发明提供了一种使用聚合通道特征和软级联分类器的行人检测方法，通过聚合通道特征获取图像的颜色、梯度大小和梯度方向等信息，减少了光照、分辨率等图像质量因素的负面影响，有效描述了行人类的外观共性。采用的软级联分类器基于刚性模型，能得到全局最优解。由多个软级联分类器组成检测器自动处理行人和背景之间的相似性，避免了子类划分；既提高了行人检测准确率（遗漏率35%低于现有最高水平的37%），也维持了较快的检测速度(PC机上每秒约检测2幅640*480图像)。

附图说明

图1为本发明所述方法的流程图；

图2为本发明所述方法与现有方法在Caltech Pedestrian Detection Benchmark上的比较示意图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

如图1所示，一种使用聚合通道特征和软级联分类器的行人检测方法，包括以下步骤：

步骤1：获取图像，并对图像进行预处理构成图像金字塔；

步骤2：从图像金字塔中提取聚合通道特征金字塔；

步骤3：在聚合通道特征金字塔上按照设定的步长滑动检测窗口，获得检测块；

步骤4：使用已训练好的多个软级联分类器将步骤3获得的检测块依次分类为含有行人或不含行人的检测块；

步骤5：被分类为含有行人的检测块标记为行人候选窗口，并记录每个行人候选窗口的分类得分；

步骤6：去除重叠行人候选窗口；

步骤7：输出行人检测结果。

本发明所述方法可以处理静态图像，也可以处理视频中的帧。本发明可以作为直接的应用，比如辅助驾驶中的行人检测，此时图像来自于车载摄像头。

具体实施步骤如下：

步骤一，对图像进行预处理，比如进行简单快速的全局像素强度归一化，根据检测窗口大小填充数个像素宽度的边缘。将图像转换到LUV颜色空间，按一定的缩放系数，比如1.05 对图像进行反复缩放，形成由多幅图像构成的图像金字塔。这样，使用固定大小的窗口就能检测图像中不同高度的行人；

步骤二，对金字塔上的每幅图像，按邻域半径计算各像素LUV三颜色的梯度，比如使用 1-D梯度算子[-1,0,1]及其转置计算，并取3个梯度中的最大者作为像素梯度。按6个方向量化梯度角度，获得梯度方向直方图。总共10个通道特征很好获取了图像的相关信息。分别累加4X4大小区域中的16个像素点的通道特征，放到分类器中的数据的数目就能变为没处理之前的十六分之一了，从而大大降低了特征的维度。每幅图像的特征矩阵构成了特征金字塔。

步骤三，选择64X32大小的窗口，以4的步长在每个特征矩阵上从左到右，从上到下依次滑动。如果有一定的先验知识，还可以只在可能的区域滑动窗口。这步实现了对图像的全方位、全尺度扫描。

步骤四，使用预先训练好的32个软级联分类器对当前窗口进行判断，这32个软级联分类器构成了行人检测器。此实施步骤具体包括：

预先对视角分类器按照其在训练时的表现进行排序，优先使用能拒绝更多非行人类实例的。

表现是指分类器在训练时体现出来的分类性能。比如说，A分类器比B分类器能分开的负样本更多，就说A分类器的表现更好。

将当前窗口1280（64X32/(4X4)X10=1280）维特征向量输入第一个分类器进行判断，若保留，则使用下一个分类器进行判断，直至最后一个软级联分类器。软级联分类器的判断方式为

$H_{p} (x, θ_{p}) = (\begin{matrix} [1, h_{p} (x)], & h_{p} (x) > θ_{p} \\ [0, h_{p} (x)], & h_{p} (x) \leq θ_{p} \end{matrix})$

其中，h_p(x)=f_p(φ(x))，θ_p是软级联分类器的阈值，f_p是soft-cascade基分类器，φ(x)是窗口的聚合通道特征向量，h_p是分类器f_p的得分。第一个输出为‘1’时表示软级联分类器H_p判断该窗口有行人，保留该窗口，为‘0’则放弃该窗口。p表示第p个软级联分类器

如果某一个软级联分类器拒绝了窗口，则这个步骤也完成了。

步骤五，这里综合步骤四的判断结果得到一个候选窗口，或者直接放弃当前窗口。软级联分类器一致判断的则检测器作为候选窗口，检测器的组合规则为：

$H (x) = [Π_{p = 0}^{n - 1} H_{p} [1], Σ_{p = 0}^{n - 1} α_{p} H_{p} [2]]$

所有软级联分类器构成检测器H(x)，当检测器H(x)的第一个输出为‘1’时，检测器选择的当前窗口作为行人候选窗口，当检测器H(x)的第一个输出为‘0’时，则放弃当前窗口；检测器H(x)的第二个输出作为当前窗口的分类得分，比如有的窗口得分为12，有的窗口得分为10，作为去除重叠行人候选窗口的依据。

步骤六，处理候选窗口过分重叠的情况。如果两个候选窗口的重叠面积超过了最小窗口面积的65%，则仅保留得分高的候选窗口。此操作一直持续到所有窗口的重叠面积都不到 65%，最后得到了就是检测结果窗口。

将这个检测结果包括位置，大小输出到辅助驾驶系统。大小反映了行人与车之间的大致距离，成为驾驶系统做出选择的重要依据。

如图2所示，本发明所述方法与现有方法在Caltech Pedestrian Detection Benchmark上的比较示意图；计算机视觉领域专家广泛认可Caltech Pedestrian Detection Benchmark，它是美国加州理工学院（California Institute of Technology）建立的一个行人检测性能测试平台。图2 水平轴表示测试方法在每幅图像上的误检窗口个数，即错将非行人窗口当作行人窗口的个数，垂直轴表示漏检率，或者叫遗漏率，遗漏率按下式计算：

遗漏率=1–检测到的行人窗口个数/测试图像集中真实行人窗口个数。

图2中每个方法名称(如HOG)之前的百分比表示该方法的平均遗漏率，miss rate表示遗漏率，false positive per image表示误检率。平均遗漏率是不同误检窗口个数对应的遗漏率的平均值。性能以遗漏率-误检率ROC曲线和平均遗漏率衡量，曲线下方包围的面积越小方法性能越好，平均遗漏率越小性能越好。在该平台上提交了检测结果的方法有37种，图2是针对该平台图像集中高度大于等于50个像素的所有行人的检测结果，我们的方法标记为MPO_L，为清晰考虑，图中只显示了四种典型方法的结果。我们要指出的是，MPO_L的遗漏率低于所有37种方法。该测试平台上共有18项性能测试协议，在其中的12项上超过了所有其他方法，在余下的6项上也与最好性能非常接近。

本发明通过聚合通道特征获取图像的颜色、梯度大小和梯度方向等信息，减少了光照、分辨率等图像质量因素的负面影响，有效描述了行人类的外观共性。采用的视角分类器基于刚性模型，能得到全局最优解。由多个视角分类器组成检测器自动处理行人和背景之间的相似性，避免了子类划分。采用级联方式组合多个视角分类器构成检测器，这些措施既提高行人检测准确率，也维持了较快的检测速度。

以上内容是结合具体的实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对本发明所述技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或者替换，都应当视为属于本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种使用聚合通道特征和软级联分类器的行人检测方法 [P] . 中国专利： CN103886308B . 2017.03.29
2. 一种使用聚合通道特征和软级联分类器的行人检测方法 [P] . 中国专利： CN103886308A . 2014-06-25
3. A method for the detection of a moving pedestrian on the basis of characteristic features and optical flow vectors of an image, the camera system and the motor vehicle [P] . 德国专利： DE102013012778A1 . 2015-02-05

机译：一种基于图像的特征和光流矢量的行人检测方法，摄像系统和机动车
4. M2M Haar-Like-Feature A visitor detection method with face tracking using Haar-Like-Feature in the M2M environment [P] . 韩国专利： KR20180001705A . 2018-01-05

机译： M2M Haar-Like-Feature一种在M2M环境中使用Haar-Like-Feature进行人脸跟踪的访客检测方法
5. Comprehensive Framework is a multi-directional heatsink aseismatic and adaptable to Climate Change for doors that controls movements for all kinds of pedestrian Communications Link, vertical or horizontal, in a home or abroad either home or building of general use Allowing to maintain Functional Integrity and any pedestrian Communication Link. [P] . CL2016001279A1 . 2017-01-20

机译：综合框架是一种多向散热片，可适应气候变化，适合门的使用，控制各种类型的步行通讯通道的运动，无论是在家中还是在国外，无论是在家用还是在一般用途的建筑物中，都可以保持功能完整性以及任何行人通讯链接。