首页> 中国专利> 一种基于深信度网络的人车分类方法

一种基于深信度网络的人车分类方法

摘要

本发明提出了一种基于深信度网络的人车分类方法。所述方法将训练图像归一化为灰度图像,提取HOG算子,得到HOG特征直方图,将灰度图像拉直后与HOG特征直方图串联,训练DBN,构造基于DBN的人车分类网络;将待分类图像进行归一化和HOG特征提取后,输入基于DBN的人车分类网络中分类。本发明方法的深信度网络具有多个隐含层,拥有比浅层网络更加优异的特征表达能力;将原始图像和特征直方图相结合作为输入数据,在保留图像外观信息的基础上突出了局部梯度方向的统计信息;本发明对于光照、外观大幅变化的人车图像,仍可以获得优良的分类性能。

著录项

  • 公开/公告号CN103778432A

    专利类型发明专利

  • 公开/公告日2014-05-07

    原文格式PDF

  • 申请/专利权人 南京邮电大学;

    申请/专利号CN201410007538.5

  • 发明设计人 孙宁;吴秦龙;韩光;李晓飞;

    申请日2014-01-08

  • 分类号G06K9/62(20060101);

  • 代理机构32200 南京经纬专利商标代理有限公司;

  • 代理人朱小兵

  • 地址 210003 江苏省南京市鼓楼区新模范马路66号

  • 入库时间 2024-02-19 23:58:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-02-14

    专利权的转移 IPC(主分类):G06K9/62 登记生效日:20200120 变更前: 变更后: 申请日:20140108

    专利申请权、专利权的转移

  • 2018-11-23

    专利实施许可合同备案的生效 IPC(主分类):G06K9/62 合同备案号:2018320000285 让与人:南京邮电大学 受让人:南京南邮信息产业技术研究院有限公司 发明名称:一种基于深信度网络的人车分类方法 申请公布日:20140507 授权公告日:20170201 许可种类:普通许可 备案日期:20181101 申请日:20140108

    专利实施许可合同备案的生效、变更及注销

  • 2017-02-01

    授权

    授权

  • 2014-06-11

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20140108

    实质审查的生效

  • 2014-05-07

    公开

    公开

说明书

技术领域

本发明属于图像处理和人工智能技术领域,具体涉及一种基于深信度网络的人车分类方法。 

背景技术

随着我国智慧城市建设不断走向深入,智能视频监控系统以其高清化、网络化和智能化等优点已经成为智慧城市的必不可少重要特征之一。其中,行人和车辆是智能视频监控系统重点关注的两类目标,进行人车分类信息是公安图像侦查和交通状态分析的重要组成部分。因此,基于图像分析和人工智能的人车分类方法是智能视频监控系统的关键技术,已成为国内外相关领域的研究热点。 

人车分类的一般流程包括目标图像获取、目标特征提取、构造分类器和人车分类判别等步骤。在目标特征提取方面,HOG算子、LBP算子、不变距特征和几何比例特征等方法被用来进行目标特征表征。然而,每种特征提取方法都有相应的最佳使用场合,且不可避免的要丢失原始图像的部分信息,很难在目标光照,外观,尺寸大幅变化的情况下维持有效的特征表征;在分类器方面,SVM,神经网络,贝叶斯决策等理论广泛应用于图像分类领域。其中,基于SVM的方法分类性能最佳,并且能在小样本条件下取得良好的识别性能。但是,对于智能视频监控系统中获取的海量人车图像构成的大数据图像样本,SVM方法则存在寻优时间漫长和易陷入局部最优的问题。 

发明内容

本发明所要解决的技术问题是为了克服现有技术的不足,提出一种基于深信度网络的人车分类方法。所述方法应用于智能视频监控系统中,可以对在光照、视角、分辨率等方面存在大幅差异的人车图像,实现稳健和高性能的分类功能。 

本发明为解决上述技术问题,采用如下技术方案:一种基于深信度网络的人车分类方法,包括步骤如下: 

步骤A,图像特征提取: 

将不同尺寸的训练图像归一化为同一大小的灰度图像Ig,提取灰度图像Ig的方向梯度直方图HOG算子,得到灰度图像的HOG特征直方图Hg;将灰度图像Ig拉直后与HOG特征直方图Hg串联,构成联合图像特征Vi; 

步骤B,构造深信度网络DBN: 

所述DBN基于受限波尔兹曼机RBM,确定DBN的网络层数及各层节点数量; 

步骤C,训练DBN: 

将联合图像特征Vi输入DBN,先逐层贪婪训练DBN,再使用反向传播BP算法,调整DBN参数,完成DBN的训练; 

步骤D,进行人车分类: 

将待分类图像进行归一化和HOG特征提取后,形成联合图像特征Vt,输入步骤C训练完成的DBN中,进行人车分类。 

步骤A中,所述图像特征提取,具体过程如下: 

步骤A-1,将训练图像归一化为96×144的灰度图像Ig; 

步骤A-2,使用HOG算子对Ig进行特征提取,获得1×6732维的HOG特征直方图Hg; 

步骤A-3,将Ig拉直后和Hg串联成联合图像特征Vi,为一个1×20556的向量。 

步骤B中,所述构造深信度网络DBN,具体包括以下步骤: 

步骤B-1,构造基于RBM的5层DBN,包括1个输入层,3个隐藏层和1个分类层; 

步骤B-2,指定DBN的输入层节点数为20556;第一个隐藏层节点数为500;第二个隐藏层节点数为500;第三个隐藏层节点数为2000;分类层的节点数为2。 

步骤C中,所述训练DBN,具体包括以下步骤: 

步骤C-1,使用对比散度CD算法对DBN的前4层进行逐层训练,计算3个隐藏层的输出值和各层之间的权值及偏置; 

步骤C-2,使用softmax回归模型训练DBN的分类层; 

步骤C-3,使用BP算法对整个DBN进行调整,优化DBN参数,完成DBN的全局训练。 

有益效果:本发明提出了一种基于深信度网络的人车分类方法。所述方法将训练图像归一化为灰度图像,提取HOG算子,得到HOG特征直方图,将灰度图像拉直后与HOG特征直方图串联,训练DBN,构造基于DBN的人车分类网络;将待分类图像进行归一化和HOG特征提取后,输入基于DBN的人车分类网络中分类。本发明方法的深信度网络具有多个隐含层,拥有比浅层网络更加优 异的特征表达能力;将原始图像和特征直方图相结合作为输入数据,在保留图像外观信息的基础上突出了局部梯度方向的统计信息;本发明对于光照、外观大幅变化的人车图像,仍可以获得优良的分类性能。 

附图说明

图1是本发明中基于深信度网络的人车分类方法流程图。 

图2是本发明中深信度分类网络DBN示意图。 

具体实施方式

下面结合附图,进一步具体说明本发明的一种基于深信度网络的人车分类方法。如图1所示,本发明所提供的一种基于深信度网络的人车分类方法,包括如下步骤: 

1)图像特征提取:将不同尺寸的训练图像归一化为同一大小的灰度图像,对灰度图像进行HOG算子提取,得到灰度图像对应的HOG特征直方图;将灰度图像拉直后与HOG特征直方图串联构造成联合图像特征Vi作为输入数据; 

2)构造分类网络:构造基于RBM的深信度网络(Deep Belief Net,DBN),确定DBN的网络层数及各层的节点数量; 

3)训练分类网络:将联合数据Vi作为可视层数据输入DBN,逐层贪婪训练DBN,对输入数据进行模式学习和分类推导,完成基于DBN的人车分类网络CDBN; 

4)分类时,将待分类图像进行归一化和HOG特征提取后,形成联合数据Vt,输入网络CDBN中分类,判别待分类图像是行人还是车辆。 

所述步骤1)具体包括以下步骤: 

11)将从监控视频中获取的包含目标的彩色图像归一化为96×144的灰度图像Ig; 

12)使用矩形HOG(R-HOG)算子对Ig进行特征提取。其中,HOG算子的块(block)尺寸为16×16,每块等分为不重叠的4个单元(cell),每个单元中获取的梯度方向(范围是0-180°)合并为9个区间,即20°为一个区间,也就是说一个单元的特征是一个9维向量。 

本算法进行特征提取时,将图像Ig划分为相互交叠的块,每个块与相邻块有50%的面积相互重叠。则图像Ig中存在((96-8)/8)*((144-8)/8)=187个块,每个块内有4 个单元,每个单元用一个9维特征向量表示,则每个块有4*9=36维特征。因此,每个图像Ig获取的HOG特征直方图Hg为36*187=6732维。 

13)将Ig拉直后和Hg串联成为联合图像特征Vi,是一个96*144+6732=20556维向量。 

所述步骤2)具体包括以下步骤: 

21)本发明中采用深信度网络(DBN)是目前研究和应用最为广泛的深度学习结构,深度学习与传统的浅层学习的最大区别在于:a)强调了网络结构的深度,网络层数通常达到5层以上;b)突出了特征学习的重要性,通过多个隐层的非线性变化,深度网络拥有比浅层网络更加优异的特征表达能力。DBN由多层受限波尔兹曼机(Restricted Boltzmann Machine,RBM)组成,RBM是一个两层(可见层、隐藏层)神经网络,层间全连接,层内无连接。RBM也可被视为一个无向图模型,可见层用于表示观测数据,隐藏层可视为一种特征检测器。 

综合考虑人车分类性能和训练时间开销,本发明构造基于RBM的5层深信度网络CDBN,包括1个输入层,3个隐藏层和1个分类层;最后的分类层使用Softmax回归模型产生最终的网络输出。 

22)由于采用步骤1)所述的联合图像特征,可视层节点数为联合样本的维数20556;2-4层的隐藏节点数参考文献(G.E.Hinton,R.R.Salakhutdinov,”Reducing the Dimensionality of Data with Neural Networks”,Science,Vol.313.no.5786,pp.504-507,2006)中的设置;输出层是针对人车分类的softmax回归模型,因此输出节点数为2。综上所述,如图2所示,所述CDBN各层的节点数为20556-500-500-2000-2; 

所述步骤3)具体包括以下步骤: 

31)对于深度网络的训练一直是神经网络研究领域的难点,传统基于梯度下降法的全局训练方法对于深度网络通常难以奏效,训练深层网络引起的局部最优点、梯度弥散等问题是目前全局训练方法很难克服的障碍。 

目前一种有效训练深度网络的思路是首先逐层进行贪婪训练,从而预训练得到深度网络的权重,然后采用传统的BP算法等方法进行全局的微调,最终优化整个深度网络。 

本发明中使用对比散度(Contrastive Divergence,CD)算法对CDBN的前4层进 行逐层预训练,计算3个隐藏层的输出值和各层之间的权值及偏置。CDBN中的前4层RBM被限制为一个可视层V和一个隐藏层HH,两者的联合概率密度为: 

>p(v,h)=1Ze-E(v,h)---(1)>

其中,E(v,h)是RBM的能量函数,其形式为: 

E(v,h)=-Σi∈Vaivij∈Hbjhji,jvihiwij  (2)vi,hj分别表示可视层节点i和隐藏层节点j的状态,ai,bj是相应的偏置,wij是两者之间的权重,Z是配分函数。由此,可以得出两层之间的条件概率分布,即可视层的状态vi为1的概率是: 

p(vi=1|h)=σ(ai+∑jhjwij)   (3)其中σ(x)为sigmoid函数1/(1+exp(-x))。隐藏层的状态hj为1的概率是: 

p(hj=1|v)=σ(bj+∑iviwij)   (4) 

训练的具体流程为: 

a)开始进行第一个RBM(20556—500)的训练;随机初始化模型参数θ={w,a,b},w,a,b分别是权值、可视层偏置和隐藏层偏置,并设定三个参数的学习率λwab=0.1; 

b)对可视层输入进行正向传播,利用公式(4),计算出隐藏层的输出; 

c)按照公式(3),对隐藏层的输出进行反向传播,得到; 

d)同样对进行正向传播,得到; 

e)结合参数对应的学习率,更新模式参数θ={w,a,b},参数的变化量是: 

其中,表示求取数学期望。 

f)重复计算b)到e),直至收敛。 

g)将第一个RBM训练的输出作为第二个RBM(500-500)的输入,利用上述训练方法完成第二个RBM训练。同样的,完成第三个RBM的训练。将三个RBM进行堆叠,形成CDBN的前四层网络; 

32)根据softmax模型,对CDBN第五层进行预训练。至此完成CDBN的预训练; 

33)使用BP算法对整个CDBN进行微调,优化分类网络中的各种参数,完成CDBN的训练。 

最后,在自建图像样本库NUPTPVD对本发明方法进行测试,NUPTPVD样本库共包括4000张行人图像和4000张车辆图片,共8000张图像样本。NUPTPVD库有两个来源:其一,是利用宽带无线通信技术教育部工程研究中心研制的公安智能图像云平台上采集得到的路面上的行人和车辆的图像;其二,是互联网上搜集得到的行人和车辆的图像。实验中,随机选取3000张行人图像和3000张车辆图像作为训练集,其余的作为测试集,训练深信度网络CDBN,测试本发明算法的人车分类性能。按照上述原则进行10次实验,得到的分类准确率进行平均后得到最终实验结果:行人的分类准确率为99.7%,车辆的分类准确率为99.2%。 

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号