法律状态公告日
法律状态信息
法律状态
2022-10-14
未缴年费专利权终止 IPC(主分类):G06K 9/00 专利号:ZL2013105223707 申请日:20131029 授权公告日:20160831
专利权的终止
2016-08-31
授权
授权
2014-02-26
实质审查的生效 IPC(主分类):G06K9/00 申请日:20131029
实质审查的生效
2014-01-22
公开
公开
技术领域
本发明涉及手势识别方法,可以应用到人机交互、手语翻译、智能家居、游 戏开发以及虚拟现实。
背景技术
在传统手势识别中,通常都是利用普通摄像头采集手势,然后对RGB视频流 进行特征提取。在基于单目的手势识别中,由于只能够提供RGB图像,通常需要 大量的训练样本才能够达到较好的识别效果;在多目视觉中,由于需要对多个相 机进行标定以及构建三维模型,这些都需要复杂的运算量,无法达到实时的效果。
近年来,越来越多的公司开发了RGB-D相机。该相机的特点是能够实时的提 供RGB图像和深度图像。比如2010年微软发布了能够实时采集RGB-D图像的摄 像头(即Kinect);2011年华硕发布了Xtion PRO;2013年体感控制器制造公 司Leap发布的Leap Motion。
由于RGB-D相机比普通相机能够提供更加丰富的信息,为少量训练样本达到 较好的识别效果提供了可能。因此,当只有少量训练样本条件下,手势识别所面 临的困难是如何从深度信息和颜色信息中提取有效的特征。
而在现有方法中,没有基于RGB-D数据的少量样本数据来预测手势的。
发明内容
本发明针对现有手势识别方式上存在的缺陷,提供一种新的手势识别方法。
本发明解决其技术问题所采用的技术方案是:
本发明手势识别方法由特征提取单元、训练单元和识别单元组成。
在特征提取单元中,首先,对连续两帧RGB-D图像序列检测特征点;然后对 特征点邻域区域进行特征向量计算,这样每个训练或者待识别样本可以用这些特 征向量表示。特征提取单元应用到了后续的训练和识别单元中。
在训练单元中,首先,训练样本提取时空特征;其次,把所有的时空特征组 成一个大矩阵;再次,对该大矩阵进行聚类获取该聚类中心矩阵,该聚类中心矩 阵即为训练后的字典,该字典会应用到识别单元中;最后,每一个训练样本的时 空特征利用该字典进行量化得到一个直方图,即每个训练样本可以由一个直方图 表示。
在识别单元中,首先,对连续的手势分割成孤立手势,其次,对每个孤立手 势提取时空特征;再次,利用训练单元中的字典对提取的待识别孤立手势的时空 特征进行量化,使每个孤立手势由一个直方图表示;最后,把该直方图输入到最 近邻分类器得到最终的识别结果。
进一步,本发明中的特征提取单元所提取的特征名为三维稀疏SIFT特征算 子。
本发明需要的硬件包括RGB-D相机(如Kinect),电脑主机及常规配件(如 鼠标,键盘等)。
这里,本发明有下面六个优点:第一,可从少量训练样本中提取有效的特征; 第二,提供了一套完整的手势识别系统方法,包含了训练和识别过程;第三,能 够应用到所有的能够提供RGB-D数据的相机;第四,该识别方法对手势发生旋转 或尺度变化具有很好的鲁棒性;第五,该识别方法对手势中发生部分遮挡具有较 好的识别效果;第六,该识别方法能够达到实时。
本发明能够应用在任何提供RGB-D数据的相机或设备,比如微软的Kinect, 华硕的Xtion PRO或Leap公司的Leap Motion;该方法识别速度能够达到实时, 可以用在人机交互、手语翻译、智能家居、游戏开发以及虚拟现实中。
附图说明
图1为本发明的特征提取单元流程图;
图2为本发明的训练单元流程图;
图3为本发明的识别单元流程图。
具体实施方式
下面将结合附图对本发明方法作进一步说明。
本发明手势识别方法由特征提取单元、训练单元和识别单元组成。
如图1所示,本发明中,特征提取单元具体步骤如下:
步骤(1).对输入的图像序列中的每一帧都建立金字塔,包括了灰度图金子 塔和深度图金字塔。其中灰度图金字塔是由RGB图经过灰度转换而来的,而深度 图金字塔是由深度图计算而来的。该金字塔的第一层是原图,第n层是第n-1层 经过下采样得到的。
步骤(2).对t时刻的深度图金字塔,利用角点检测器(如Harris、Shi-Tomasi 等)检测金字塔每层图像中的角点。由此可以知道这些角点位于金字塔图像中的 位置信息。
步骤(3).利用光流跟踪这些角点在t+1时刻灰度图金字塔中的位置。由 此可以知道这些角点的速度。当角点的速度小于某个阈值K的时候,该角点舍弃。 同时保留速度大于该阈值K的角点,这些保留的角点即为特征点。
在该步骤中,所述阈值的取值为K=max{Sm*0.2,0.5},其中Sm是指同一层 金字塔中所有检测到角点速度的最大值。
步骤(4).检测完感特征点后,可以知道这些特征点所处金字塔的位置。在 t和t+1时刻,从灰度图金字塔和深度图金字塔上分别提取特征点位置周围的一 小块图像区域。这样就包括了四个局部图像:t时刻的局部灰度图像G1,t时刻 的局部深度图像D1,t+1时刻的局部灰度图像G2,t+1时刻的局部深度图像D2。 然后对这四个图像进行高斯滤波,得到对应的滤波后的图像G1',D1',G2',D2'。 利用G1'求水平梯度图像G1x和垂直梯度图像G1y;利用D1'也求水平和垂直梯度 图像Zx,Zy;利用G1'和G2'计算灰度图的水平光流场V1x和垂直光流场V1y;同 样利用D1'和D2'计算深度图的水平和垂直光流场VZx,VZy。
步骤(5).利用G1x,G1y,Zx和Zy构建三维梯度空间,其中三维坐标中,X 方向为G1x,Y方向为G1y,Z方向由Zx和Zy构成。同样的,利用V1x,V1y,VZx和VZx构建三维运动空间,其中三维坐标中,X方向为V1x,Y方向为V1y,Z方 向由VZx和VZy构成。
步骤(6).在三维梯度和运动空间,分别在XY,YZ,XZ平面,求取SIFT描 绘算子,这样就可以计算6个SIFT描绘算子。最后这6个算子组成一个长的特 征算子,即三维稀疏SIFT算子。三维稀疏SIFT算子就是提取的特征向量。
如图2所示,本发明中,训练单元具体步骤如下:
步骤(1).对每个训练样本利用特征提取单元的方法提取特征.
步骤(2).把所有训练样本提取的特征组成一个大矩阵。
步骤(3).对该大矩阵进行聚类(如Kmeans,稀疏编码等)获取该聚类中 心矩阵,该聚类中心矩阵即为训练后的字典。
步骤(4).对每一个训练样本的时空特征利用该字典进行矢量量化,计算每 个矢量出现的次数,得到每个矢量的频数,最终得到归一化后的向量(即直方图)。
如图3所示,本发明中,识别单元具体步骤如下:
步骤(1).对连续的RGB-D图像序列,利用动态时间规整算法进行时间上的 分割,使每一段只包含一个训练手势。
步骤(2).对每个孤立手势利用特征提取单元的方法提取特征。
步骤(3).利用训练单元中的字典对每个孤立手势的特征进行矢量量化,这 样每个孤立手势可以由一个直方图表示。
步骤(4).该直方图输入到最近邻分类器(即找到与训练样本的直方图距离 最近的类别)得到最终的识别结果。
机译: 基于少量训练样本的信息提取方法和装置
机译: RGB-D 3D RGB-D数据和基于深度学习的3D实例分段方法和系统
机译: 用于自动配置用于训练基于机器学习的对话系统的机器学习模型的训练数据的系统和方法,该系统和方法包括基于被识别为异常的训练数据的实例来播种训练样本或策划训练数据的语料库