首页> 中国专利> 基于RGB-D数据构成的少量训练样本的手势识别方法

基于RGB-D数据构成的少量训练样本的手势识别方法

摘要

本发明公开了一种基于RGB-D数据构成的少量训练样本的手势识别方法。本发明包含了:特征提取单元,其基于RGB-D相机得到的对齐的RGB-D图像序列中提取三维稀疏SIFT特征;训练单元,其用于基于少量的手势训练样本来学习模型;识别单元,其用于对输入的连续手势进行识别。本发明能够应用在任何提供RGB-D数据的相机或设备,比如微软的Kinect,华硕的Xtion PRO或Leap公司的Leap Motion;该方法识别速度能够达到实时,可以用在人机交互、手语翻译、智能家居、游戏开发以及虚拟现实中。

著录项

  • 公开/公告号CN103530619A

    专利类型发明专利

  • 公开/公告日2014-01-22

    原文格式PDF

  • 申请/专利权人 北京交通大学;

    申请/专利号CN201310522370.7

  • 发明设计人 万军;阮秋琦;安高云;

    申请日2013-10-29

  • 分类号G06K9/00(20060101);G06K9/54(20060101);

  • 代理机构11255 北京市商泰律师事务所;

  • 代理人毛燕生

  • 地址 100044 北京市海淀区西直门外上园村3号

  • 入库时间 2024-02-19 22:49:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-14

    未缴年费专利权终止 IPC(主分类):G06K 9/00 专利号:ZL2013105223707 申请日:20131029 授权公告日:20160831

    专利权的终止

  • 2016-08-31

    授权

    授权

  • 2014-02-26

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20131029

    实质审查的生效

  • 2014-01-22

    公开

    公开

说明书

技术领域

本发明涉及手势识别方法,可以应用到人机交互、手语翻译、智能家居、游 戏开发以及虚拟现实。

背景技术

在传统手势识别中,通常都是利用普通摄像头采集手势,然后对RGB视频流 进行特征提取。在基于单目的手势识别中,由于只能够提供RGB图像,通常需要 大量的训练样本才能够达到较好的识别效果;在多目视觉中,由于需要对多个相 机进行标定以及构建三维模型,这些都需要复杂的运算量,无法达到实时的效果。

近年来,越来越多的公司开发了RGB-D相机。该相机的特点是能够实时的提 供RGB图像和深度图像。比如2010年微软发布了能够实时采集RGB-D图像的摄 像头(即Kinect);2011年华硕发布了Xtion PRO;2013年体感控制器制造公 司Leap发布的Leap Motion。

由于RGB-D相机比普通相机能够提供更加丰富的信息,为少量训练样本达到 较好的识别效果提供了可能。因此,当只有少量训练样本条件下,手势识别所面 临的困难是如何从深度信息和颜色信息中提取有效的特征。

而在现有方法中,没有基于RGB-D数据的少量样本数据来预测手势的。

发明内容

本发明针对现有手势识别方式上存在的缺陷,提供一种新的手势识别方法。

本发明解决其技术问题所采用的技术方案是:

本发明手势识别方法由特征提取单元、训练单元和识别单元组成。

在特征提取单元中,首先,对连续两帧RGB-D图像序列检测特征点;然后对 特征点邻域区域进行特征向量计算,这样每个训练或者待识别样本可以用这些特 征向量表示。特征提取单元应用到了后续的训练和识别单元中。

在训练单元中,首先,训练样本提取时空特征;其次,把所有的时空特征组 成一个大矩阵;再次,对该大矩阵进行聚类获取该聚类中心矩阵,该聚类中心矩 阵即为训练后的字典,该字典会应用到识别单元中;最后,每一个训练样本的时 空特征利用该字典进行量化得到一个直方图,即每个训练样本可以由一个直方图 表示。

在识别单元中,首先,对连续的手势分割成孤立手势,其次,对每个孤立手 势提取时空特征;再次,利用训练单元中的字典对提取的待识别孤立手势的时空 特征进行量化,使每个孤立手势由一个直方图表示;最后,把该直方图输入到最 近邻分类器得到最终的识别结果。

进一步,本发明中的特征提取单元所提取的特征名为三维稀疏SIFT特征算 子。

本发明需要的硬件包括RGB-D相机(如Kinect),电脑主机及常规配件(如 鼠标,键盘等)。

这里,本发明有下面六个优点:第一,可从少量训练样本中提取有效的特征; 第二,提供了一套完整的手势识别系统方法,包含了训练和识别过程;第三,能 够应用到所有的能够提供RGB-D数据的相机;第四,该识别方法对手势发生旋转 或尺度变化具有很好的鲁棒性;第五,该识别方法对手势中发生部分遮挡具有较 好的识别效果;第六,该识别方法能够达到实时。

本发明能够应用在任何提供RGB-D数据的相机或设备,比如微软的Kinect, 华硕的Xtion PRO或Leap公司的Leap Motion;该方法识别速度能够达到实时, 可以用在人机交互、手语翻译、智能家居、游戏开发以及虚拟现实中。

附图说明

图1为本发明的特征提取单元流程图;

图2为本发明的训练单元流程图;

图3为本发明的识别单元流程图。

具体实施方式

下面将结合附图对本发明方法作进一步说明。

本发明手势识别方法由特征提取单元、训练单元和识别单元组成。

如图1所示,本发明中,特征提取单元具体步骤如下:

步骤(1).对输入的图像序列中的每一帧都建立金字塔,包括了灰度图金子 塔和深度图金字塔。其中灰度图金字塔是由RGB图经过灰度转换而来的,而深度 图金字塔是由深度图计算而来的。该金字塔的第一层是原图,第n层是第n-1层 经过下采样得到的。

步骤(2).对t时刻的深度图金字塔,利用角点检测器(如Harris、Shi-Tomasi 等)检测金字塔每层图像中的角点。由此可以知道这些角点位于金字塔图像中的 位置信息。

步骤(3).利用光流跟踪这些角点在t+1时刻灰度图金字塔中的位置。由 此可以知道这些角点的速度。当角点的速度小于某个阈值K的时候,该角点舍弃。 同时保留速度大于该阈值K的角点,这些保留的角点即为特征点。

在该步骤中,所述阈值的取值为K=max{Sm*0.2,0.5},其中Sm是指同一层 金字塔中所有检测到角点速度的最大值。

步骤(4).检测完感特征点后,可以知道这些特征点所处金字塔的位置。在 t和t+1时刻,从灰度图金字塔和深度图金字塔上分别提取特征点位置周围的一 小块图像区域。这样就包括了四个局部图像:t时刻的局部灰度图像G1,t时刻 的局部深度图像D1,t+1时刻的局部灰度图像G2,t+1时刻的局部深度图像D2。 然后对这四个图像进行高斯滤波,得到对应的滤波后的图像G1',D1',G2',D2'。 利用G1'求水平梯度图像G1x和垂直梯度图像G1y;利用D1'也求水平和垂直梯度 图像Zx,Zy;利用G1'和G2'计算灰度图的水平光流场V1x和垂直光流场V1y;同 样利用D1'和D2'计算深度图的水平和垂直光流场VZx,VZy

步骤(5).利用G1x,G1y,Zx和Zy构建三维梯度空间,其中三维坐标中,X 方向为G1x,Y方向为G1y,Z方向由Zx和Zy构成。同样的,利用V1x,V1y,VZx和VZx构建三维运动空间,其中三维坐标中,X方向为V1x,Y方向为V1y,Z方 向由VZx和VZy构成。

步骤(6).在三维梯度和运动空间,分别在XY,YZ,XZ平面,求取SIFT描 绘算子,这样就可以计算6个SIFT描绘算子。最后这6个算子组成一个长的特 征算子,即三维稀疏SIFT算子。三维稀疏SIFT算子就是提取的特征向量。

如图2所示,本发明中,训练单元具体步骤如下:

步骤(1).对每个训练样本利用特征提取单元的方法提取特征.

步骤(2).把所有训练样本提取的特征组成一个大矩阵。

步骤(3).对该大矩阵进行聚类(如Kmeans,稀疏编码等)获取该聚类中 心矩阵,该聚类中心矩阵即为训练后的字典。

步骤(4).对每一个训练样本的时空特征利用该字典进行矢量量化,计算每 个矢量出现的次数,得到每个矢量的频数,最终得到归一化后的向量(即直方图)。

如图3所示,本发明中,识别单元具体步骤如下:

步骤(1).对连续的RGB-D图像序列,利用动态时间规整算法进行时间上的 分割,使每一段只包含一个训练手势。

步骤(2).对每个孤立手势利用特征提取单元的方法提取特征。

步骤(3).利用训练单元中的字典对每个孤立手势的特征进行矢量量化,这 样每个孤立手势可以由一个直方图表示。

步骤(4).该直方图输入到最近邻分类器(即找到与训练样本的直方图距离 最近的类别)得到最终的识别结果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号