首页> 中国专利> 一种使用聚合通道特征和软级联分类器的行人检测方法

一种使用聚合通道特征和软级联分类器的行人检测方法

摘要

本发明公开了一种使用聚合通道特征和软级联分类器的行人检测方法,包括以下步骤:步骤1:获取图像,并对图像进行预处理构成图像金字塔;步骤2:从图像金字塔中提取聚合通道特征金字塔;步骤3:在聚合通道特征金字塔上按照设定的步长滑动检测窗口,获得检测块;步骤4:使用已训练好的多个软级联分类器将步骤3获得的检测块依次分类为含有行人或不含行人的检测块;步骤5:被分类为含有行人的检测块标记为行人候选窗口,并记录每个行人候选窗口的分类得分;步骤6:去除重叠行人候选窗口;步骤7:输出行人检测结果。聚合通道特征有效描述了行人类的外观共性。多个软级联分类器组成检测器的方式较好处理了训练数据不平衡问题,提高了检测能力。

著录项

  • 公开/公告号CN103886308A

    专利类型发明专利

  • 公开/公告日2014-06-25

    原文格式PDF

  • 申请/专利权人 中南大学;

    申请/专利号CN201410150661.2

  • 申请日2014-04-15

  • 分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/66(20060101);

  • 代理机构43114 长沙市融智专利事务所;

  • 代理人黄美成

  • 地址 410083 湖南省长沙市岳麓区麓山南路932号

  • 入库时间 2023-12-16 23:56:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-05

    未缴年费专利权终止 IPC(主分类):G06K9/00 授权公告日:20170329 终止日期:20180415 申请日:20140415

    专利权的终止

  • 2017-03-29

    授权

    授权

  • 2014-07-16

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20140415

    实质审查的生效

  • 2014-06-25

    公开

    公开

说明书

技术领域

本发明涉及计算机视觉的目标检测技术领域,特别涉及一种使用聚合通道特征和软级联 分类器的行人检测方法。

背景技术

因为在安保监控、自动驾驶和智能机器人等领域中的关键作用,多年来行人检测一直是 计算机视觉领域的热门研究课题。随着描述图像区域信息的更有效底层特征的出现和更好的 行人表示模型的设计,近年来行人检测的性能得到了很大提高,但离实用要求仍有不小差距。

在计算机视觉技术中进行行人检测通常采用滑动窗口的方式。即,确定固定大小的矩形, 依次从左到右,从上到下选择矩形区域;然后提取矩形区域中的特征,并将得到的特征输入 分类器或者检测器进行判断,最后输出检测到行人的矩形区域。因此,影响行人检测的两个 关键因素分别是底层特征和分类器或检测器。在现有最好的行人检测方法中,底层特征一般 都使用获取局部信息的特征。这里将现有最好性能检测器归为以下四类:一、单一刚性模版 检测器;二、单一部件结构模型检测器;三、多刚性模版检测器;四、多部件结构模型检测 器。

对常用的底层特征及这四种检测器分析如下:

单纯使用像素灰度值的类Haar矩形特征因其简单性,并且可以使用积分图技术加速特征 的提取,在人脸检测中得到了成功的应用。因灰度值受光照等外部影响很大,加之行人外观 的复杂多变性,在行人检测中,类Harr特征的表达能力就太弱了,因此一般只用来预先大致 确定包含行人的感兴趣区域,再进行后续处理。

像素梯度能获得较好的光照不变性,获取矩形区域梯度直方图的HOG特征在行人检测上 表现出了很好的性能。因为采用了区域部分重叠、直方图计算三线性插值消除走样等获得不 变性的措施,HOG特征的维度比较高,计算量也比较大,这些是其在实时应用中的障碍。积 分通道特征可以看作是HOG特征的积分图化。该特征除了利用像素梯度之外,还使用了LUV 的像素值,这样的处理使得该特征具有了较好的表达能力,并且引入积分图让计算量降低到 了可接受的程度。基于去掉很小区域和很大区域的直方图不太会影响行人检测效果的事实, 聚合通道特征只计算固定大小正方形区域的直方图,采用了积分通道特征相同的通道,这样 使特征的维度大大降低了,同时表达能力相对于积分通道特征还有了提高。

刚性模板将行人当作一个整体,相当于行人集外观的平均值表示。单一刚性模板检测器 使用一个刚性模板描述整个行人类别,其训练是一个全局优化问题,有多种可选的优化方法、 训练起来比较简单是其最大优点。但是,由于行人外观的复杂多边性,刚性模板表达能力不 太好,从而造成最后的行人检测效果无法达到最佳。

部件结构模型是复杂模型的代表,它考虑到了行人可以看作多个相对独立的部件构成这 个事实,不但表达各部件的外观,也表达部件之间的关系和行人的整体外观。这种模型的表 达能力很强,也更符合行人的生理结构,这是其突出优点。相对于刚体模型,训练部件结构 模型需要很多额外的信息,而这些信息很多是隐含的,在训练时并不能获得。隐含信息的使 用造成了训练的困难,从而得到的部件结构模型往往不是最优的。

由于行人具有极大的类内差别,使用单一模型不足以描述行人这个类别。多刚性模板检 测器和多部件结构模板检测器都基于将行人分解成多个较单纯的子类处理的想法。同一子类 行人的外观具有较好的相似性,可以更好的描述,多模型检测器正是利用了这个优点。但是, 首先要将行人划分为多个子类才可能训练出多模型检测器,这个子类划分尚是未解决的开放 课题。

发明内容

本发明提供了一种使用聚合通道特征和软级联分类器的行人检测方法,其目的在于克服 上述现有技术的不足,拟避开子类划分、降低训练难度、充分利用多模型的表达能力、同时 维持较快的检测速度。

一种使用聚合通道特征和软级联分类器的行人检测方法,包括以下步骤:

步骤1:获取图像,并对图像进行预处理构成图像金字塔;

步骤2:从图像金字塔中提取聚合通道特征金字塔;

步骤3:在聚合通道特征金字塔上按照设定的步长滑动检测窗口,获得检测块;

步骤4:使用已训练好的多个软级联分类器将步骤3获得的检测块依次分类为含有行人或 不含行人的检测块;

步骤5:被分类为含有行人的检测块标记为行人候选窗口,并记录每个行人候选窗口的分 类得分;

步骤6:去除重叠行人候选窗口;

将行人候选窗口按照分类得分进行降序排列,依次计算相邻的两个行人候选窗口的重 叠面积A与相邻两个行人候选窗口中较小行人候选窗口面积B的比值如果比值大 于0.65,则去掉分类得分较小的行人候选窗口,直到没有任何相邻的两个行人窗口的重叠 比值大于0.65为止;

步骤7:输出行人检测结果。

所述步骤1中对图像进行预处理是指将RGB图像变换为LUV颜色空间图像,并对LUV 颜色空间图像进行边缘填充使得图像的高度和宽度均为步骤3中设定步长的整数倍;按照设 定的缩放系数对图像进行缩小,得到多幅尺寸依次递减的图像,形成图像金字塔;

所述缩放系数为1.01-1.05之间的实数,按照缩放系数对图像进行缩小是指缩小前的图像 大小是缩小后的图像大小的1.01-1.05倍。

所述步骤2中聚合通道特征的提取过程如下:

首先,计算图像金字塔中每一幅图像的每个像素点的LUV三颜色像素梯度,取最大值作 为当前像素点的像素梯度;

其次,按6个梯度方向获得每个像素点的梯度方向直方图;

所述6个梯度方向是指在梯度角度变化范围内等分为六个区间,每个梯度方向为其中一 个区间;所述梯度角度变化范围为180度或360度;

比如[0-30]为第一个角度方向,…;也可以考虑为360度,则区间为60度即可。

最后,将每个像素点的LUV三颜色值、像素梯度大小以及6个梯度方向的梯度大小作为 每个像素点的聚合通道特征;

单幅图像所有像素点的聚合通道特征构成了聚合通道特征矩阵,图像金字塔中每幅图像 的聚合通道特征矩阵构成聚合通道特征金字塔。

所述步骤3中的滑动检测窗口是指在聚合通道特征矩阵上依次从左到右、从上到下按设 定步长滑动检测窗口,设定步长小于检测窗口的长和宽,检测窗口在聚合通道特征矩阵形成 若干个与检测窗口大小相同的矩形块。

所述步骤4中已训练好的多个软级联分类器的训练过程如下:

利用聚合通道特征和软级联分类器,对训练样本集进行训练以得到多个软级联分类器;

训练样本集包括:正样本集和负样本集,所述正样本集包括不少于3000个包含行人且像 素大小为64X32的图像区域,所述负样本集包括不少于10万个不包含行人且像素大小为 64X32的图像区域;

所述多个软级联分类器的第一个软级联分类器使用了全部正样本集和随机抽取的数量与 正样本一样的负样本子集,之后的每一个软级联行人分类使用了全部正样本集和相同数目的 随机抽取的负样本子集,但是能被已经训练出的软级联分类器的组合正确分类的负样本被排 除在抽样范围之外,直到所有的负样本都能被所训练出的软级联分类器正确分类,则结束训 练。

所述步骤5中的分类得分由以下公式计算:

H(x)=[Πp=0n-1Hp[1],Σp=0n-1αpHp[2]]

其中,αp是第p个软级联分类器Hp的权值,Hp[1]是第p个软级联分类器Hp将软级联 分类器Hp的输出值按照设定的阈值输出0或1;Hp[2]为第p个软级联分类器的输出值;

所有软级联分类器构成检测器H(x),当检测器H(x)的第一个输出为‘1’时,检测 器选择的当前窗口作为行人候选窗口,当检测器H(x)的第一个输出为‘0’时,则放弃 当前窗口;检测器H(x)的第二个输出作为当前窗口的分类得分,作为去除重叠行 人候选窗口的依据。

所述多个软级联分类器的个数是训练时自动确定的,无需事先指定。

所述多个软级联分类器具有相同的复杂度,相互之间是完全平等,没有使用的先后顺序。

所述多个软级联分类器对检测块的判断采用了级联方式,即,如果某个分类器给出一个 检测块无行人的判断,则不再使用其他分类器,从而放弃该块进行下一个检测块的判断。

多个软级联分类器对检测块的判断采用了级联方式,即,如果某个分类器给出一个检测 块无行人的判断,则不再使用其他分类器,从而放弃该块进行下一个检测块的判断。

每个软级联分类器都保留全部行人类实体,但是只能拒绝部分非行人类实体。

同一个非行人类实体可能被多个软级联分类器拒绝。

每个软级联分类器都能拒绝一些其他软级联分类器不能拒绝的非行人类实体。

有益效果

本发明提供了一种使用聚合通道特征和软级联分类器的行人检测方法,通过聚合通道特 征获取图像的颜色、梯度大小和梯度方向等信息,减少了光照、分辨率等图像质量因素的负 面影响,有效描述了行人类的外观共性。采用的软级联分类器基于刚性模型,能得到全局最 优解。由多个软级联分类器组成检测器自动处理行人和背景之间的相似性,避免了子类划分; 既提高了行人检测准确率(遗漏率35%低于现有最高水平的37%),也维持了较快的检测速 度(PC机上每秒约检测2幅640*480图像)。

附图说明

图1为本发明所述方法的流程图;

图2为本发明所述方法与现有方法在Caltech Pedestrian Detection Benchmark上的比较示 意图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

如图1所示,一种使用聚合通道特征和软级联分类器的行人检测方法,包括以下步骤:

步骤1:获取图像,并对图像进行预处理构成图像金字塔;

步骤2:从图像金字塔中提取聚合通道特征金字塔;

步骤3:在聚合通道特征金字塔上按照设定的步长滑动检测窗口,获得检测块;

步骤4:使用已训练好的多个软级联分类器将步骤3获得的检测块依次分类为含有行人或 不含行人的检测块;

步骤5:被分类为含有行人的检测块标记为行人候选窗口,并记录每个行人候选窗口的分 类得分;

步骤6:去除重叠行人候选窗口;

将行人候选窗口按照分类得分进行降序排列,依次计算相邻的两个行人候选窗口的重 叠面积A与相邻两个行人候选窗口中较小行人候选窗口面积B的比值如果比值大 于0.65,则去掉分类得分较小的行人候选窗口,直到没有任何相邻的两个行人窗口的重叠 比值大于0.65为止;

步骤7:输出行人检测结果。

本发明所述方法可以处理静态图像,也可以处理视频中的帧。本发明可以作为直接的应 用,比如辅助驾驶中的行人检测,此时图像来自于车载摄像头。

具体实施步骤如下:

步骤一,对图像进行预处理,比如进行简单快速的全局像素强度归一化,根据检测窗口 大小填充数个像素宽度的边缘。将图像转换到LUV颜色空间,按一定的缩放系数,比如1.05 对图像进行反复缩放,形成由多幅图像构成的图像金字塔。这样,使用固定大小的窗口就能 检测图像中不同高度的行人;

步骤二,对金字塔上的每幅图像,按邻域半径计算各像素LUV三颜色的梯度,比如使用 1-D梯度算子[-1,0,1]及其转置计算,并取3个梯度中的最大者作为像素梯度。按6个方向量 化梯度角度,获得梯度方向直方图。总共10个通道特征很好获取了图像的相关信息。分别累 加4X4大小区域中的16个像素点的通道特征,放到分类器中的数据的数目就能变为没处理 之前的十六分之一了,从而大大降低了特征的维度。每幅图像的特征矩阵构成了特征金字塔。

步骤三,选择64X32大小的窗口,以4的步长在每个特征矩阵上从左到右,从上到下 依次滑动。如果有一定的先验知识,还可以只在可能的区域滑动窗口。这步实现了对图像的 全方位、全尺度扫描。

步骤四,使用预先训练好的32个软级联分类器对当前窗口进行判断,这32个软级联分 类器构成了行人检测器。此实施步骤具体包括:

预先对视角分类器按照其在训练时的表现进行排序,优先使用能拒绝更多非行人类实例 的。

表现是指分类器在训练时体现出来的分类性能。比如说,A分类器比B分类器能分开的 负样本更多,就说A分类器的表现更好。

将当前窗口1280(64X32/(4X4)X10=1280)维特征向量输入第一个分类器进行判断,若 保留,则使用下一个分类器进行判断,直至最后一个软级联分类器。软级联分类器的判断方 式为

Hp(x,θp)=[1,hp(x)],hp(x)>θp[0,hp(x)],hp(x)θp

其中,hp(x)=fp(φ(x)),θp是软级联分类器的阈值,fp是soft-cascade基分类器,φ(x)是 窗口的聚合通道特征向量,hp是分类器fp的得分。第一个输出为‘1’时表示软级联分类器Hp判 断该窗口有行人,保留该窗口,为‘0’则放弃该窗口。p表示第p个软级联分类器

如果某一个软级联分类器拒绝了窗口,则这个步骤也完成了。

步骤五,这里综合步骤四的判断结果得到一个候选窗口,或者直接放弃当前窗口。软级 联分类器一致判断的则检测器作为候选窗口,检测器的组合规则为:

H(x)=[Πp=0n-1Hp[1],Σp=0n-1αpHp[2]]

其中,αp是第p个软级联分类器Hp的权值,Hp[1]是第p个软级联分类器Hp将软级联分 类器Hp的输出值按照设定的阈值输出0或1;Hp[2]为第p个软级联分类器的输出值;

所有软级联分类器构成检测器H(x),当检测器H(x)的第一个输出为‘1’时,检测 器选择的当前窗口作为行人候选窗口,当检测器H(x)的第一个输出为‘0’时,则放弃 当前窗口;检测器H(x)的第二个输出作为当前窗口的分类得分,比如有的窗口得 分为12,有的窗口得分为10,作为去除重叠行人候选窗口的依据。

步骤六,处理候选窗口过分重叠的情况。如果两个候选窗口的重叠面积超过了最小窗口 面积的65%,则仅保留得分高的候选窗口。此操作一直持续到所有窗口的重叠面积都不到 65%,最后得到了就是检测结果窗口。

将这个检测结果包括位置,大小输出到辅助驾驶系统。大小反映了行人与车之间的大致 距离,成为驾驶系统做出选择的重要依据。

如图2所示,本发明所述方法与现有方法在Caltech Pedestrian Detection Benchmark上的 比较示意图;计算机视觉领域专家广泛认可Caltech Pedestrian Detection Benchmark,它是美 国加州理工学院(California Institute of Technology)建立的一个行人检测性能测试平台。图2 水平轴表示测试方法在每幅图像上的误检窗口个数,即错将非行人窗口当作行人窗口的个数, 垂直轴表示漏检率,或者叫遗漏率,遗漏率按下式计算:

遗漏率=1–检测到的行人窗口个数/测试图像集中真实行人窗口个数。

图2中每个方法名称(如HOG)之前的百分比表示该方法的平均遗漏率,miss rate表示遗 漏率,false positive per image表示误检率。平均遗漏率是不同误检窗口个数对应的遗漏率的 平均值。性能以遗漏率-误检率ROC曲线和平均遗漏率衡量,曲线下方包围的面积越小方法 性能越好,平均遗漏率越小性能越好。在该平台上提交了检测结果的方法有37种,图2是针 对该平台图像集中高度大于等于50个像素的所有行人的检测结果,我们的方法标记为MPOL, 为清晰考虑,图中只显示了四种典型方法的结果。我们要指出的是,MPOL的遗漏率低于所 有37种方法。该测试平台上共有18项性能测试协议,在其中的12项上超过了所有其他方法, 在余下的6项上也与最好性能非常接近。

本发明通过聚合通道特征获取图像的颜色、梯度大小和梯度方向等信息,减少了光照、 分辨率等图像质量因素的负面影响,有效描述了行人类的外观共性。采用的视角分类器基于 刚性模型,能得到全局最优解。由多个视角分类器组成检测器自动处理行人和背景之间的相 似性,避免了子类划分。采用级联方式组合多个视角分类器构成检测器,这些措施既提高行 人检测准确率,也维持了较快的检测速度。

以上内容是结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具 体实施只局限于这些说明。对本发明所述技术领域的普通技术人员来说,在不脱离本发明构 思的前提下,还可以做出若干简单推演或者替换,都应当视为属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号