法律状态公告日
法律状态信息
法律状态
2020-01-14
专利权的转移 IPC(主分类):G06K9/00 登记生效日:20191225 变更前: 变更后: 申请日:20150603
专利申请权、专利权的转移
2018-04-17
授权
授权
2015-11-18
实质审查的生效 IPC(主分类):G06K9/00 申请日:20150603
实质审查的生效
2015-10-21
公开
公开
技术领域
本发明涉及模式识技术领域,具体涉及基于深度学习与属性学习相结合的行人识别方法。
背景技术
行人识别在视频控制、机器人学、智能交通、多媒体检索等领域有广泛的应用前景,也是近年来计算机视觉领域的热门研究对象。但是由于行人识别涉及到大量数据的计算和分析,外加光线、视角等环境因素的干扰,传统识别算法无法提取到图像的优选特征并通过较好的语义来表达,导致识别率有限。
行人识别的一种传统识别算法为人工神经网络。它从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型。一种基于人工神经网络的训练算法为反向传播算法,它使得网络模型经过对大量训练样本进行学习的过程能够获得统计规律,从而对未知事件做出预测。人工神经网络具有较强的非线性映射能力、自学习和自适应能力、泛化能力和一定的容错能力。其缺点是在行人识别样本训练时收敛速度慢,且其训练过程是一个有监督的过程,而对训练样本的标注既费时又费力。
传统的行人识别中利用低层特征数据进行识别,例如颜色、纹理、空间结构等,纯粹地依赖于自底向上的统计数据来进行特征选择。这些低层特征计算时相对容易且可靠。其缺点是这些低层特征数据不具备较好的语义表达能力,此外,在使用底层特征数据时通常需要假设光线和视角是不变的,这不符合实际环境条件,大大影响了识别能力。
发明内容
本发明的目的在于克服上述现有技术的缺陷,在深度学习和属性学习的基础上将两者结合,提出一种基于深度学习和属性学习相结合的行人识别方法。此方法能够在无监督条件下提取图像的优选特征,并以具有较好语义表达能力的属性作为区分个体的介质,且在由于光线、视角等因素而造成部分属性缺失时对整体类别的判断没有太大影响,具有良好的识别性能。
本发明采用的技术方案如下:一种基于深度学习和属性学习相结合的行人识别方法,包括以下步骤:
步骤1,从行人识别领域专家设定的属性中选择最具代表性的、适合本行人识别的多个属性,包括服装相关属性和人体生物相关属性;
步骤2,构建一个深度学习模型并对该模型进行训练,深度学习模型采用含五层隐层的卷积神经网络模型;
步骤3,对训练好的卷积神经网络输入测试样本图像,经过多次卷积和次抽样的过程得到优选特征;
步骤4,为每个属性设计一个属性分类器,将卷积神经网络提取的优选特征输入每个分类器,通过支持向量机的模型训练方法训练分类器;
步骤5,通过训练数据统计出具有属性ak的样本中属于类别yj的比例,即
步骤6,将测试样本xt输入训练完毕的卷积神经网络得到优选特征,将优选特征输入训练完毕的各属性分类器得到样本具有属性ak的后验概率p(ak|xt),结合属性类别映射关系表,通过贝叶斯公式得到类别yj后验概率p(yj|xt),贝叶斯公式为:
进一步,所述步骤1中,从行人识别领域专家设定的属性中选择最具代表性并适合本行人识别的23个属性,包括了与服装相关的属性及与人体生物特征相关的属性。人体生物特征相关属性有6个:男性、女性、小孩、老人、长发、短发;服装相关类属性有17个:带帽、戴眼镜、长袖、短袖、无袖、有外套、上衣有花纹、短裤、长裤、裙子、下装有花纹、单色鞋、多色鞋、双肩包、单肩包、手提包、有图案。
进一步,所述步骤2中,采用含五层隐层的卷积神经网络模型具体包括:
第一层卷积层C1:设定6个特征平面,卷积核大小为5×5;
第一层次抽样层S1:设定6个特征平面,池化窗口大小为2×2;
第二层卷积层C2:设定12个特征平面,卷积核大小为5×5;
第二层次抽样层S2:设定12个特征平面,池化窗口大小为2×2;
最后一层输出层。
进一步,所述步骤2中,卷积神经网络训练步骤为:
步骤2.1,对每一隐含层的输出进行反卷积,将反卷积结果与该层的输入特征对比得到误差E;
步骤2.2,通过梯度下降算法调整卷积核权值,公式为:
步骤2.3,运用步骤2.1,步骤2.2两步,通过对所有训练样本的10次迭代训练,即对网络权值的10次更新,训练得到能够提取图像优选特征的卷积神经网络。
进一步,所述卷积神经网络中卷积核选取索贝尔算子和拉普拉斯算子,并且采用反卷积方法,利用逐层最小化重建误差法,调整神经网络权值。
进一步,所述步骤4中,支持向量机在训练过程中的核函数选用径向基函数,采用最小最大优化方法确定径向基参数σ值为3.2,进而使得各个属性分类器平均识别精度达90%以上。
本发明提出了一种基于深度学习与属性学习相结合的行人识别方法。该方法构建一个合适的卷积神经网络模型,并用训练样本对其进行训练,采用属性的概念来进行行人的识别,其有益效果是:
1、本发明与传统的行人识别方法相比,采用深度学习的方法与不采用深度学习的方法相比体现出更好的识别率,能够提取图像的优选特征,且由于卷积神经网络的训练过程是无监督的,降低了人工标注训练样本的成本。
2、本发明与传统的使用低层特征数据进行识别相比,具有更好的语义表达能力,并在有光线、视角等因素影响的情况下体现出更好的识别效果。
附图说明
下面结合附图和具体实施方式对本发明进一步详细说明。
图1是本发明所述属性学习模型示意图。
图2是本发明所述基于深度学习与属性学习相结合的行人识别方法流程示意图。
图3是本发明所述属性类别映射关系学习流程示意图。
具体实施方式
本发明基于深度学习和属性学习相结合的行人识别方法,分为深度学习、属性学习、属性类别映射关系学习和测试四个部分。其将深度学习与属性学习相结合,从而提取图像的优选特征并通过较好的语义来表示。其中,深度学习分为构建深度学习模型和模型训练两个阶段。在构建深度学习模型阶段,构造一个多层的卷积神经网络模型,初始化模型并设定模型的相关参数;在模型训练阶段将训练样本输入已构建的模型进行深度学习,通过反卷积的训练方法调整卷积神经网络的参数。在属性学习部分,为每个属性设定一个属性分类器。将从卷积神经网络模型中训练得到的优选特征输入各个分类器,通过样本的属性标签让分类器对属性进行学习。在属性类别映射关系学习部分,通过训练数据统计出具有某属性的样本中属于某类别的比例,得到属性类别映射关系表。在测试部分,将样本输入训练完毕的卷积神经网络得到样本的优选特征,将优选特征输入各个属性分类器,得到样本具有该属性的后验概率。最后根据属性后验概率和属性类别映射关系表推断图像类别的后验概率,从而判断图像所属类别。
具体是依序采用如下步骤:首先从行人识别领域专家设定的属性中选择最具代表性的、适合本行人识别的23个属性,包括服装相关属性和人体生物相关属性。接着构建一个深度学习模型,深度学习模型采用五层隐层的卷积神经网络模型。然后将训练样本输入已构建的卷积神经网络,经过多次卷积、次抽样的过程得到优选特征值,通过反卷积的方法调整网络中的权值,使网络能够提取到最本质的优选特征。为每个属性设计一个属性分类器,将卷积神经网络提取的优选特征输入每个分类器,通过支持向量机的模型训练方法训练分类器。通过训练数据统计出属性类别映射关系表。最后,将测试样本输入训练完毕的卷积神经网络得到优选特征,将优选特征输入训练完毕的各属性分类器得到样本具有该属性的后验概率,结合属性类别映射关系表,通过贝叶斯公式得到类别的后验概率,选取最大的概率对应的类别作为样本的识别类别。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
图1为本发明属性学习模型示意图。本发明的基本思想为:首先得到样本与属性之间的映射关系,再结合属性与类别之间的映射关系,得到样本与类别之间的关系。具体来说,将样本xt输入卷积神经网络得到优选特征,将优选特征输入各属性分类器得到样本xt具有属性a1,a2,…,ak的后验概率,然后结合属性类别映射关系通过贝叶斯公式得到类别的后验概率,从而判断样本所属类别。
图3为本发明提出的基于深度学习与属性学习相结合的行人识别方法流程示意图。
第一步:从行人识别领域专家设定的属性中选择最具代表性的、适合本行人识别的23个属性,包括服装相关属性和人体生物相关属性。人体生物特征相关属性有6个:男性、女性、小孩、老人、长发、短发;服装相关类属性有17个:带帽、戴眼镜、长袖、短袖、无袖、有外套、上衣有花纹、短裤、长裤、裙子、下装有花纹、单色鞋、多色鞋、双肩包、单肩包、手提包、有图案。
第二步:构建一个深度学习模型并对该模型进行训练,深度学习模型采用含五层隐层的卷积神经网络模型。设置每层隐层的特征平面个数、卷积核大小和池化矩阵大小,输入是训练样本图像,输出是调整好的网络权重,参数就是那些网络权重,初始化卷积核权值为阈值[0,1]间的随机值,偏置初始化为0,并设定网络的迭代训练次数10次,学习率为-1。将训练样本输入构建好的卷积神经网络,并通过对每两层间采用反卷积方法,利用逐层最小化重建误差法,调整神经网络权值。其中,卷积核选取索贝尔(Sobel)算子和拉普拉斯(Laplacian)算子,卷积神经网络的结构为:
第一层卷积层C1:设定6个特征平面,卷积核大小为5×5;
第一层次抽样层S1:设定6个特征平面,池化窗口大小为2×2;
第二层卷积层C2:设定12个特征平面,卷积核大小为5×5;
第二层次抽样层S2:设定12个特征平面,池化窗口大小为2×2;
最后一层为输出层;
尤其需要指出的是,经过大量反复的实验验证对比发现,采用上述卷积神经网络的结构更为合理,使得后期的卷积神经网络训练具有很好的泛化能力和识别精度,进而能够体现出更好的行人识别率。
卷积神经网络训练步骤为:
1)对每一隐含层的输出进行反卷积,将反卷积结果与该层的输入特征(即上一层的输出特征)对比得到误差E;
2)通过梯度下降算法调整卷积核权值,公式为:
3)运用1)、2)两步,通过对所有训练样本的10次迭代训练,即对网络权值的10次更新,训练得到能够精确提取图像优选特征的卷积神经网络。
第三步:对训练好的卷积神经网络输入测试样本图像,经过多次卷积和次抽样的过程得到优选特征。该步骤中输入是测试图像,输出是测试图像通过网络模型提取出的优选特征。其具体步骤为:
1)将测试图像输入卷积神经网络底层网络;
2)图像特征经过第一层卷积层C1,通过5×5大小的卷积核的卷积操作,输出6个特征平面;
3)将C1层的6个输出特征平面作为第一层次抽样层S1的输入,通过2×2大小的池化窗口进行次抽样操作,输出6个特征平面;
4)将S1层的6个输出特征平面作为第二层卷积层C2的输入,通过5×5大小的的卷积核的卷积操作,输出12个特征平面;
5)将C2层的12个输出特征平面作为第二层次抽样层S2的输入,通过2×2大小的池化窗口进行次抽样操作,输出12个特征平面,此即为网络最后一层,输出经卷积神经网络逐层提升优选出的测试图像特征。
第四步:为每个属性设计一个属性分类器,将卷积神经网络提取的优选特征输入每个分类器,通过支持向量机的模型训练方法训练分类器。
对所有属性,将具有属性ak的样本标记为正例,将不具有属性ak的样本标记为反例,由第三步卷积神经网络提取到具有明确标记的优选特征,将这些正反优选特征输入到每个支持向量机Sk进行分类器训练,得到可以区分样本具有属性ak或不具有属性ak的属性分类器,并得到样本xt具有属性ak的后验概率p(ak|xt),其中支持向量机核函数选用径向基函数
第五步:属性类别映射关系学习,参考图2。通过训练数据统计出具有属性ak的样本中属于类别yj的比例,即
表1 属性类别映射关系示例表
第六步:对测试样本进行测试,其具体步骤为:
1)将测试样本xt输入训练完毕的卷积神经网络得到优选特征;
2)将优选特征输入训练完毕的各属性分类器得到具有属性ak的后验概率p(ak|xt);
3)结合属性类别映射关系表,通过贝叶斯公式得到类别yj对于样本xt的后验概率p(yj|xt),贝叶斯公式为:
4)取最大的概率对应的类别作为样本的识别类别,样本的识别类别为
本发明验证实验采用i-LIDS行人数据库作为训练和测试数据库,该数据库包含了119个行人的479张图片,图片尺寸大小为128×64,这些图片由机场候机室内多个不重叠摄像头拍摄而来,具有姿态和光照的多变性。
本发明通过构建一个含五层隐层的卷积神经网络,采用反卷积方法对网络进行训练,并结合了属性学习的概念,将从卷积神经网络得到的优选特征输入各属性分类器,得到样本具有属性的后验概率,再结合属性类别映射关系得到类别的后验概率,从而判断样本所属类别。实验表明,本发明方法的识别准确率为80%以上,该方法与没有采用深度学习的方法相比较,由于可以提取更优选的特征,大大提高了分类准确率。并且由于属性相比于低层特征具有更好的语义表达性能,且对光线、视角的不敏感性,使得算法的识别效果更好。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
机译: 通过学习功能找到失踪人员以基于深度学习进行人员属性分类
机译: “财产识别方法”(“ PIM”)是一种新颖的算法,通过该算法,可以通过对文件(如市议会/房屋价格通知)进行图像处理来创建房地产管理局和/或产权转让数据。本发明建立了一种独特的算法,该算法结合了诸如深度学习分段和计算机视觉之类的技术来解码属性信息。该应用程序利用以某种方式配置的计算机实现的技术,以使运输商和房地产经纪人能够自动创建客户端文件。
机译: CCTV一种基于深度学习的CCTV图像识别方法