首页> 中国专利> 一种基于深度学习的步态分割与步态识别一体化方法

一种基于深度学习的步态分割与步态识别一体化方法

摘要

本发明公开一种基于深度学习的步态分割与步态识别一体化方法,该方法利用多通道神经网络分割模型对输入的一段步态视频中的多幅步态图像进行人形轮廓分割,获得一段步态视频中的多个步态图像的人形轮廓分割;然后将获得的人形轮廓通过分类卷积神经网络模型进行身份识别,输出身份识别结果。该方法对场景变化、着装变化、图像视频的角度、行走状态都有很强的鲁棒性,特别适合解决动态背景下的步态识别,可在实际的步态识别中达到非常高的识别精度;由于采用了分割与识别一体化框架,该方法同时具有非常快的识别速度,适合于实际监控下的实时步态识别。

著录项

  • 公开/公告号CN105760835A

    专利类型发明专利

  • 公开/公告日2016-07-13

    原文格式PDF

  • 申请/专利号CN201610087973.2

  • 发明设计人 黄永祯;谭铁牛;王亮;宋纯锋;

    申请日2016-02-17

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/02(20060101);

  • 代理机构12107 天津市三利专利商标代理有限公司;

  • 代理人韩新城

  • 地址 300465 天津市滨海新区天津经济技术开发区第二大街57号泰达MSD-G1-1001单元

  • 入库时间 2023-06-19 00:06:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-03-06

    授权

    授权

  • 2016-09-21

    专利申请权的转移 IPC(主分类):G06K9/00 登记生效日:20160826 变更前: 变更后: 申请日:20160217

    专利申请权、专利权的转移

  • 2016-08-10

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20160217

    实质审查的生效

  • 2016-07-13

    公开

    公开

说明书

技术领域

本发明涉及计算机视觉、模式识别及步态识别技术领域,特别是涉 及一种基于深度学习的步态分割与步态识别一体化方法。

背景技术

在步态识别方法中,绝大部分方法都需要分为步态图像分割、特征 提取和步态识别三个步骤,其中特征提取主要是基于步态能量图(Gait EnergyImage,GEI)再进行特征变化,计算复杂度较高,速度相对较慢, 且依赖于精确的分割结果。如果步态图像分割结果较差,则无法实现后 续的识别。因此,大多数传统算法要求背景静止或者背景简单,在真实 监控环境中的复杂的动态的背景条件下无法得到理想的人形分割结果。 深度卷积神经网络具有极强的自主学习能力和高度的非线性映射,这为 设计复杂的高精度高速度人形分割模型和步态识别模型提供了可能性。

发明内容

本发明的目的是针对现有技术在真实场景下步态识别遇到的问题, 提出一种能够适应复杂背景和多种着装条件,且能够直接识别步态身份 的步态分割与步态识别一体化方法。

本发明是这样实现的,一种基于深度学习的步态分割与步态识别一 体化方法,所述方法包括:

将人形分割数据库中用于人形分割训练的图像以及对应的人形分割 标注图像归一化到相同像素大小,得到用于分割训练的图像与人形分割 标注图像的成对样本;

每次将N对所述图像及对应的人形分割标注图像送入一个N通道全 卷积神经网络,得到与人形分割标注尺寸相同的N个表示人形轮廓分割 预测结果的图像表达一;采用反向传播算法和随机梯度下降法减小该图 像表达一与对应的人形分割标注图像比较得到的预测误差以训练该N 通道全卷积神经网络,经过多次迭代训练得到用于步态分割的N通道分 割卷积神经网络模型,并将该N通道分割卷积神经网络模型复制保存, 作为一个固定的分割标注生成器;

每次从选定的每段步态视频中随机选取N张步态图像,送入所述N 通道分割卷积神经网络模型得到N张表示人形轮廓预测分割结果的图 像表达二,每段步态视频对应一个身份序号用于识别;

将得到的所述N张图像表达二作为输入,并以所述选定每段步态视 频的身份序号作为输出,采用反向传播算法和随机梯度下降法减小预测 步态身份与实际步态身份间的误差来迭代训练用于步态识别的分类卷 积神经网络模型直到模型停止收敛;

将训练好的所述N通道分割卷积神经网络模型的输出端和分类卷积 神经网络模型的输入端连接,组成一个输出为步态身份预测结果的步态 分割与步态识别的一体化模型;

每次从选定的每段步态视频中随机选取N张步态图像送入所述N通 道分割卷积神经网络模型得到对应人形轮廓预测分割图像的生成标注 信息;同时利用该N张步态图像为输入,对应的人形轮廓预测分割图像 和身份序号为监督信息,采用反向传播算法和随机梯度下降法联合训练 所述步态分割与步态识别的一体化模型直到该一体化模型收敛停止;

测试时,随机选取一段步态视频中N张图像送入训练好的所述步态 分割与步态识别的一体化模型,在所述步态分割与步态识别的一体化模 型的soft-max分分类器得到最大响应所在的节点序号,作为身份序号的 预测结果。

其中,所述N通道全卷积神经网络模型的每一通道均包括有配置相 同的多层卷积层与连接所述多层卷积层的最后一层的一层反卷积层。

其中,所述分类卷积神经网络模型包括多层卷积层以及连接最后一 层卷积层的至少一层全连接层,所述全连接层的最后一层连接输出层 ----soft-max分类器。

本发明首先利用带有人形分割标记图像的人形图像训练基于多层卷 积神经网络的N通道分割卷积神经网络模型;然后利用该N通道分割 卷积神经网络模型将一段步态视频随机取多帧图像进行步态分割,并利 用得到的人形轮廓分割结果训练一个分类卷积神经网络模型进行身份 识别;最后将N通道分割卷积神经网络模型与分类卷积神经网络模型联 合学习,得到更精确的步态分割与步态识别的一体化模型,从而实现了 利用该一体化模型直接进行从步态到身份的识别。

本发明所提出的步态分割与步态识别一体化模型能够联合学习可 以实现同时更新N通道分割卷积神经网络模型和分类卷积神经网络模 型,获得更准确的步态识别结果。

本发明基于卷积神经网络的N通道分割卷积神经网络模型通过大 量复杂背景下的人形分割标注图像样本训练,可以实现在各种不同背景 下的精确的人形轮廓分割,解决了实际环境中复杂动态背景下的步态分 割问题,而这些精确的分割结果又可进一步通过分类卷积神经网络模型 构成的分类器直接识别步态身份,分割与识别一体化学习将极大地加速 步态识别的速度。

附图说明

图1是本发明提供的基于深度学习的步态分割与步态识别一体化方 法的一体化模型的训练流程图;

图2所示为利用步态分割与步态识别的一体化模型进行测试时的流 程图。

具体实施方式

下面,通过附图和实施例,对本发明的技术方案作进一步的详细描 述。

本发明提供的基于深度学习的步态分割与步态识别一体化方法,采 用深度学习技术联合训练N通道分割卷积神经网络模型(步态分割模 型)和分类卷积神经网络模型(步态识别模型),首先训练多通道步态 分割模型,然后训练步态识别模型,最后进行联合训练,从而实现了在 真实场景中的步态识别任务上取得了非常高的精度和速度。

下面,以某大型步态识别数据库为例进行说明,该大型步态识别数 据库包含138人步态视频序列,每人约36段视频,包括不同视角、背 景和着装,用于步态分割模型初始化的人形分割数据库包含约5000张 图像及对应的人形分割标注图像。

如图1所示,本发明基于深度学习的步态分割与步态识别一体化方 法,包括有一体化模型训练步骤以及运用训练好的一体化模型进行测试 的测试步骤;(其中步骤S1—S10为一体化模型训练步骤,S11为运用 训练好的一体化模型进行测试的测试步骤),具体步骤如下:

步骤S1,将人形分割数据库中用于训练的5000张图像归一化到相 同像素大小(如48*48像素),对应的人形分割标注图像(也叫作前背 景分割图像,即标注图像中的人形轮廓)也进行对应的操作,归一化至 48*48像素大小,这样就得到了用于训练的图像与人形分割标注图像的 成对的样本,共5000对;

步骤S2,每次随机选取3对图像样本,即3张用于训练的图像以及 3张对应的人形分割标注图像,依次送入一个3通道的分割全卷积神经 网络模型,经过数层卷积层与反卷积层,在最后一层得到与人形分割 标注图像的尺寸相同的图像表达一(即分割预测图像),并与对应的 人形分割标注图像进行比较得到预测误差;

例如,一个典型的3通道4层全卷积神经网络某一通道的参数配置 为:前3层为卷积层,其中第一层有64个5×5的卷积核,步长为1, 带有3×3且步长为2的空间局基层;第二层有64个5×5的卷积核, 步长为1,带有3×3且步长为2的空间局基层;第三层有64个3×3 的卷积核,步长为1;第4层为反卷积层,含有1个48×48的反卷积 核,步长为1,经过最后的反卷积层可以得到一张分割预测图像(大小 为48*48)。另外的2个通道配置与该通道相同,该网络可以同时输入 3张图像并得到3张分割预测图像,即图像表达一。

需要说明的是,所述分割全卷积神经网络模型可以是3通道,也可 以是4通道,或其它数量的通道,具体不限。对应的,当所述分割全 卷积神经网络模型的通道为其它数量的通道时,随机选取多对图像样 本的数量与该分割全卷积神经网络模型的通道数量一致;

步骤S3,采用反向传播算法和随机梯度下降法来减小所述的图像表 达一与对应的人形分割标注图像进行比较得到预测误差,以训练分割全 卷积神经网络模型,经过多次迭代训练直到该预测误差不再下降为止, 即可得到3通道分割卷积神经网络模型(即3通道步态分割模型);

步骤S4,将S3中的3通道分割卷积神经网络模型复制保存,作为 一个固定的分割标注生成器;

步骤S5,每次从所有步态视频中随机选取一段,并以该视频对应的 身份序号作为分类号,如选取第26人的视频,该身份序号即为26。对 应138人的步态视频,共有138个序号。在选中的第26人的视频中随 机选取3张步态图像,送入S3中形成的3通道分割卷积神经网络模型 得到3张图像表达二,即人形轮廓分割结果(也可以称为分割预测图像);

步骤S6,将S5得到的3张人形轮廓分割结果作为输入,并以S5 中选定视频的步态身份序号(26)作为分类输出,迭代训练一个分类卷 积神经网络模型用于步态识别,输出步态身份预测的结果,该分类卷积 神经网络模型输出层为soft-max分类器,输出响应最大的节点序号与身 份序号相对应;

具体实现上,该分类卷积神经网络模型可以是5层,如包含3层卷 积层用于提取特征,之后连接2层全连接层构成分类器,最后一层连接 soft-max分类器得到步态身份预测的结果,输出响应最大的节点序号与 身份序号相对应;

该分类卷积神经网络的结构如可以是:输入为3通道48*48大小的 图像;第一层有64个5×5的卷积核,步长为1,带有3×3且步长为2 的空间局基层;第二层有64个5×5的卷积核,步长为1,带有3×3 且步长为2的空间局基层;第三层有64个3×3的卷积核,步长为1; 第4层和第5层分别是含有1000和138个节点的全连接层,第5层后 接soft-max分类器得到对应的138个响应,并取最大响应所在的节点号 作为身份预测。例如,第26个节点响应值最大,则预测该步态是第26 人。

步骤S7,采用反向传播算法和随机梯度下降法,来减小预测步态身 份与实际步态身份之间的误差以训练该分类卷积神经网络,经过多次迭 代训练直到误差不再下降为止,得到分类卷积神经网络模型(即步态识 别模型);

步骤S8,将训练好的S3中的用于步态分割的3通道分割卷积神经 网络模型的输出端和S6中的用于步态识别的分类卷积神经网络模型的 输入端连接,组成一个步态分割与步态识别的一体化模型;该模型包含 3个通道,共9层,输入为3张48*48大小的步态图像,输出为步态身 份预测结果。

步骤S9,每次从所有步态视频中随机选取一段,并以该视频对应的 身份序号作为分类号,如选取第26人的视频,该身份序号即为26。对 应138人的步态视频,共有138个序号。在选中的第26人的视频中随 机选取3张步态图像送入S4中的分割卷积神经网络模型(分割标注生 成器)得到对应人形轮廓的生成标注信息。

步骤S10,利用S9中的3张步态图像为输入,将S9中对应的人形 轮廓预测分割图像(即图像表达二)和身份序号为监督信息,采用反向 传播算法和随机梯度下降法联合训练S8中的步态分割与步态识别一体 化模型,直到模型收敛停止;

具体的,在步态身份标注(表现为步态身份序号)与步态身份预测 之间有2处误差,分别用于校正所述分类卷积神经网络模型和分割卷积 神经网络模型;同时,在S9通过分割卷积神经网络模型(分割标注生 成器)产生的生成标注信息与预测分割图像之间有1处误差,用于校正 分割卷积神经网络。这样,共有3处误差反传共同校正该步态分割与步 态识别一体化模型。

步骤S11,参见图2所示,测试时在138人的所有视频中随机选取 一段步态视频(如第10人的视频),从中随机选取3张图像,将图像 送入训练好的一体化模型,在类卷积神经网络模型的soft-max分类器可 以得到138维的输出,得出最大响应所在的节点序号在第10维,即可 把10号作为身份序号的预测结果,这样就完成了从步态视频到身份识 别的一体化的过程。

步骤S11具体的过程为,先利用多通道神经网络分割模型对输入的 一段步态视频中的多幅步态图像进行人形轮廓分割,获得一段步态视频 中的多个步态图像的人形轮廓分割;然后将获得的人形轮廓通过分类卷 积神经网络模型进行身份识别,通过类卷积神经网络模型的soft-max分 类器输出身份识别结果。

该方法对场景变化、着装变化、图像视频的角度、行走状态都有很 强的鲁棒性,特别适合解决动态背景下的步态识别,可在实际的步态识 别中达到非常高的识别精度;由于采用了分割与识别一体化框架,该方 法同时具有非常快的识别速度,适合于实际监控下的实时步态识别。

本发明通过利用多通道分割卷积神经网络模型,同时获得一段步态 视频中的多个步态图像的人形轮廓分割结果;然后将获得的人形轮廓结 果通过一个分类卷积神经网络模型进行身份识别。该多通道分割卷积神 经网络模型的多通道分割与用于识别的分类卷积神经网络模型可以在 一个框架下联合学习,组成了输入为多幅步态图像,输出为身份识别结 果的一体化框架。

本发明方法对场景变化、着装变化、图像视频的角度、行走状态都 有很强的鲁棒性,特别适合解决动态背景下的步态识别,因而可以在实 际的步态识别中达到非常高的识别精度;由于采用了分割与识别一体化 的框架,因此该方法同时具有非常快的识别速度,适合于实际监控下的 实时步态识别。该方法可以被广泛应用于视频监控场景,如机场及海关 的安全监控、人员识别、公司考勤、罪犯检测等。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号