首页> 中国专利> 基于Kinect传感器的静态手语字母识别系统及方法

基于Kinect传感器的静态手语字母识别系统及方法

摘要

本发明涉及计算机视觉及智能人-机交互领域,具体涉及一种基于机器视觉的人-机交互系统及其交互方法。本发明结合Kinect传感器提出一种基于改进的SURF算法进行静态手语字母识别的方法。Kinect传感器采集目标区域的深度图像进行手像素区域分割可以克服光照变化、复杂背景带来的干扰;改进的SURF算法用于提取特征点,同时设置自适应半径r,在以r为半径的邻域内通过比较特征点个数、特征点间距2个指标来对SURF特征点进行逐级筛选,不仅大大提高了识别率,而且保证了识别工作在肤色、光照变化、复杂背景等环境因素以及角度变化和尺度变化方面的鲁棒性。为了克服SURF特征向量维数较高的问题,采用SVM的“一对一”分类法,对SURF特征描述符进行分类训练,得出识别的结果。

著录项

  • 公开/公告号CN103927555A

    专利类型发明专利

  • 公开/公告日2014-07-16

    原文格式PDF

  • 申请/专利权人 重庆邮电大学;

    申请/专利号CN201410191394.3

  • 发明设计人 胡章芳;罗元;张毅;杨麟;席兵;

    申请日2014-05-07

  • 分类号G06K9/62;

  • 代理机构重庆华科专利事务所;

  • 代理人康海燕

  • 地址 400065 重庆市南岸区黄桷垭崇文路2号

  • 入库时间 2023-12-17 00:25:44

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-05

    授权

    授权

  • 2014-08-13

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20140507

    实质审查的生效

  • 2014-07-16

    公开

    公开

说明书

技术领域

本发明涉及计算机视觉及智能人-机交互领域,具体涉及一种基 于机器视觉的人-机交互系统及其交互方法。

背景技术

随着计算机的广泛应用,人-机交互(Human Computer Interaction, HCI)已成为人们日常生活中的重要部分。人类自然地与自然界沟通 的认知习惯和形式是人-机交互的发展方向。因此,研究者们也正在 努力让未来的终端能听、能看、能说、能感觉。简单来说,人-机交 互就是人类与计算机交流互动。从键盘到鼠标控制,再从语音到触摸, 再到多点触控,随着人-机交互模式使用人群的扩大,并且不断向非 专业人群渗透,人-机交互方式也越来越回归“自然”。在科技技术的 变革中,人-机交互技术也有了质的进展,近年来人们对人-机交互方 式的需求也更加拟人化、自然化。根据人们的需求,研究者在人-机 交互领域做了更多的研究,因此,设计出来一种广泛的能够被大众接 受的人-机交互方式,会更好的提高人与机器之间的密切交流,同时 也能够提高交互效率。

手语识别的研究顺应了人-机交互技术的发展需要。然而由于手 语本身具有多样性、多义性以及时间和空间上的差异性等特点,加之 人手是复杂变形体以及视觉本身的不适定性,所以手语识别成为多学 科交叉的研究课题。再者由于文化背景和应用环境的不同,使得手 语识别研究无法整合到一个完整的框架当中,理论及技术未形成一个 完整的体系。研究者多是根据特定的项目要求实现某些特定的功能, 而不能将其应用到普遍的系统或研究当中。因此迫切需要对手语识别 研究领域中的一些普遍难题进行解决,使其更具通用性。

目前,手语识别已被广泛研究,尤其是基于视觉的识别方法。韩 国Inda大学和Korea Polytechnic大学的JongShill Lee、YoungJOO Lee 等人用熵分析法从背景复杂的视频流中分割出手势区域并进行手势 识别。使用链码的方法检测手势区域的轮廓,最后计算出从手势区域 的质心到轮廓边界的距离。该系统可识别6种手势,平均识别率超过 95%;6个人分别做每个手势的识别率平均达到90%-100%。印度研 究者Meenakshi Panwar在视觉手势识别的基础上提出了一种基于结 构特征的手势识别算法,通过背景去除、方向检测、拇指检测和手指 数量检测,来最终识别手势。清华大学的Shin-Han Yu,Chung-Lin  Huang采用并行马尔可夫(PHMM)方法对40个台湾手语符号进行 识别,准确率为94.04%;Rini Akmeliawatil,Melanie Po-Leen Ooi等人 采用指间带有高亮标记的视觉手套作为输入,用肤色分割结合神经网 络的方法对马来西亚手语字母进行识别,正确率为95%。这些方法都 获得了很好的识别率,但是大多数都未考虑到对光照、复杂背景、角 度变化这些环境因素的鲁棒性。重庆邮电大学信息无障碍工程研发中 心的科研人员采用Kinect传感器结合HU不变矩算法实现了基于静态 手势的智能轮椅的人-机交互,该方法通过识别预先设定的手势来控 制智能轮椅的运动,深度信息的应用有效的克服了光照、复杂背景、 角度变化这些环境因素带来的干扰。

在《重庆邮电大学学报(自然科学版)》第25卷第4期刊载的《一 种基于改进的SURF算法的静态手语字母识别方法》中公开了一种基 于最近邻匹配算法的改进的SURF算法,结合Kinect传感器进行静 态手语字母的识别,以及该方法在以智能轮椅为平台的实验结果及分 析。但是该方法为了克服复杂背景和光照变化对识别工作带来的干扰, 采用了深度图像作为待检测图像,而深度图像的像素值信息是由距离 值信息转化而来,在二值化获得手像素区域分割结果后,掌心部分由 于像素值信息极为相似,容易计算出错误的特征点,从而对下一步的 识别工作带来干扰。同时SURF特征向量是64维的,维数过高的特 征向量也会对识别工作带来一定的干扰。

发明内容

有鉴于此,为了解决上述问题,本发明公开了一种识别率高, 鲁棒性好的基于Kinect传感器的静态手语字母识别系统及方法。

本发明的目的是这样实现的:

基于Kinect传感器的静态手语字母识别系统,包括:

1)摄像模块,采用Kinect传感器获取深度图像;

2)静态手语特征提取模块,采用SURF算法提取特征点;同时 采用特征点筛选算法对SURF算法的计算结果进行优化,剔除错误特 征点;

3)静态手语识别模块,对生成的64维的SURF特征点描述符,采 用“一对一”SVM分类法,进行分类训练及识别,得出识别的结果。

进一步,所述系统还包括图像预处理模块用于将摄像装置获取的 深度图像进行一个初步的降噪处理;以及手像素区域分割模块,用二 值化方法来进行手像素区域分割。这样整个系统不会受到光照变化、 复杂背景的干扰。

本发明还提供一种识别率高,鲁棒性好的基于Kinect传感器的 静态手语字母识别方法,包括如下步骤:

1)利用摄像模块的Kinect传感器获取深度图像;

2)利用图像预处理模块,将摄像装置获取的深度图像进行一个 初步的降噪处理;利用手像素区域分割模块,通过二值化方法对获得 的深度图像进行手像素区域分割,使得手部区域成为感兴趣区域;

3)利用静态手语特征提取模块,采用SURF算法提取特征点; 同时采用特征点筛选算法对SURF算法的计算结果进行优化,剔除错 误特征点;

4)利用静态手语识别模块,对生成的64维的SURF特征点描述符, 采用“一对一”SVM分类法,进行分类训练及识别,得出识别的结果。

所述方法中,SURF算法的Hessian矩阵为:

H(x,y,σ)=Lxx(x,y,σ)Lxy(x,y,σ)Lxy(x,y,σ)Lyy(x,y,σ)

其中,Lxx、Lxy、Lyy分别是G(x,y,σ)在x、y、xy方向的2

阶偏导数:Lxx(x,y,σ)=2G(x,y,σ)x2,

Lxy(x,y,σ)=2G(x,y,σ)xy,

Lyy(x,y,σ)=2G(x,y,σ)y2,

进一步,所述方法中,SURF特征点提取为:

在Hessian矩阵与箱式滤波器进行卷积操作后,可以得到 的近似矩阵Happrox,其行列式为:

det(Happrox)=DxxDyy-(wDxy)2

其中,Dxx、Dyy、Dxy为卷积结果,ω为加权系数,此系数可通 过的F(Frobenius)范数进行约束,

ω=||Lxy(1.2)||F·||Dxx(9)||F||Lxy(1.2)||F·||Dxy(9)||F=0.9120.9

当近似矩阵Happrox行列式值为正时,证明该点是极值点;反 之,则不是极值点。对得到的每一个极值点与对应的3×3×3立体邻域 内除该点以外的26个点进行比较,通过非极大值抑制(NMS)的极 值点定位,得到关键点的准确坐标以及尺度σ。

进一步,所述方法中,特征点筛选算法为:

设实时图像和模板图像分别为I、I′,其特征点集分别为 C={C1,C2,…Cn}、C′={C1′,C2′,…Cn′},其对应的一对匹配特征点对为P、P′, 其中P∈C,P′∈C′,在半径为r的邻域内,若两幅图像只存在平移 和旋转,则应该满足以下结论:

1)邻域特征点总个数相同。即以P为中心,以r为半径的邻域 内特征点总个数,应等于以P′为中心,以r为半径的领域内特征点总 个数。

2)对应特征点的间距相同。设Ci,Cj∈C,Ci′,Cj′∈C′,Ci、Ci′是对 应的一对特征点,Cj、Cj′也是对应的特征点,则Ci与Cj的距离值应 当和Ci′与Cj′的距离值应相等,即d(Ci,Cj)=d(Ci′,Cj′)。

基于以上原理,根据以下步骤来剔除错误的特征点:

1)定义一个自适应半径r,若在以当前r为半径的邻域内,特征 点个数少于2个,则将r的值提高一倍后再计算特征点个数;若在以 当前r为半径的邻域内,特征点个数大于2个,则进行下面两个步骤。

2)计算以匹配点对P、P′为中心,半径为r的邻域内特征点的 个数。若特征点的个数相同,则P是正确的特征点,否则,P是错误 的特征点,需要进行剔除。

3)计算该特征点与其邻域内其他特征点的距离,通过这一参数 配进一步剔除错误特征点。设P、P′是已满足邻域特征点总数相等这 个条件。假设在以r半径的邻域内特征点个数为n,则将P、P′到其 邻域内其他特征点的距离按照降序排列统计后分别记为 D1={d1,d2,…dn}和D2={d2,d2,…dn},若D1与D2的偏差在允许的范围内, 则认为P是正确的特征点,否则不匹配。这样有效的剔除了掌心部位 的错误特征点。

进一步,所述方法中,SURF特征描述符为:

关键点描述分为两部分,首先,确定关键点的主方向,然后生成 相应的关键点描述符。

在以关键点为圆心,半径为6σ(σ为尺度)的圆内,计算尺寸为 4σ的Harr小波响应dx,dy,对之进行高斯加权,记为

对用直方图统计,将一个圆的360°分成72组60°大小的 扇形区域,分别统计这些扇形区域内的同时计算该区域的 梯度值,梯度值最大的扇形区域所在方向为关键点的主方向,根据的反正切值可求出关键点主方向的度数。

确定主方向后,以关键点为核心,构建一个大小为20σ的正方形 窗,与关键点对齐。将这个正方形窗划分为4×4共16个小正方形区 域,计算每个小区域内Harr小波响应dx,dy,并用高斯函数进行加 权,这样可以增加对角度变化的鲁棒性。每一个小区域内的Harr小 波响应对应的大于零和小于零的dx、dy分别累加,得到的描述符如下:

Descsqure=V(Σdx,Σdy,Σ|dx|,Σ|dy|)

为四维向量,4×4个小区域就组成了关键点的64维描述符 向量。

进一步,所述方法中,SVM“一对一”模型为:

对于m个类别则将训练出m(m-1)/2个SVM模型,分类时将待分 类样本x输入到每个SVM模型,若该样本x属于第i类,则第i类的 得分加1,最后得票最多的类别则判为该未知样本的类别。采用以下 公式:

xn=xn-minxnmaxxn-minxn

其中,x′n为第n个特征的第i维特征矢量。

将每类手语字母的SURF特征大小归一化到[0 1],以防止出现 较大范围的特征数据淹没小范围数据、过拟合等问题。

本发明的有益效果如下:

本发明通过Kinect传感器实时采集目标区域的深度图像,根据 深度图像采用灰度直方图实现手像素区域分割,之后运用基于特征点 筛选算法的改进的SURF算法进行特征点提取及生成特征向量,使用 “一对一”SVM方法训练和识别手语字母。本发明采用基于Kinect传 感器的静态手语字母识别,具有较强的扩展性,且能解决复杂背景、 光照变化等对手势检测造成影响的问题,能够准确有效的分割出手部。 后续采用了基于特征点筛选算法的改进的SURF算法,在原始SURF 算法基础上,进一部剔除了错误的特征点。同时采用“一对一”SVM 方法有效的克服了SURF特征向量维数较高的问题。本发明不仅提高 了识别率,在复杂背景、光照变化方面也有很好的鲁棒性,能够安全、 稳定地用于控制各类智能终端,实现人与智能终端之间自然、直观地 人-机交互方式。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书 中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技 术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。 本发明的目标和其他优点可以通过下面的说明书和权利要求书来实 现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合 附图对本发明作进一步的详细描述:

图1为基于Kinect传感器的静态手语字母识别系统的结构示 意图;

图2为基于特征点筛选算法的改进的SURF算法的流程示意 图;

图3本发明采用的手语字母模板;

图4为基于SVM方法的手语字母分类流程图。

具体实施方式

以下将对本发明的优选实施例进行详细的描述。

在基于Kinect传感器的静态手语字母识别系统中,首先通过 Kinect传感器采集目标区域的深度图像,通过灰度直方图方法进行 手像素区域分割,然后采用基于特征点筛选算法的改进的SURF 算法提取特征点并生成特征描述符,最后采用SVM“一对一”方法 训练得出识别结果。

其中,Kinect传感器的原理是通过自带的红外发射器和红外接 收器来扫描目标区域,从而得到深度图像。深度图像中每一点的 像素值代表传感器距离该点的距离值,采用灰度直方图方法可以 很好的确定分割阈值,通过二值化方法来进行手像素区域分割。

SURF算法是一种基于快速鲁棒特征的匹配算法。利用SURF 算法提取特征点,首先要生成原始图像的积分图像,再利用逐步放 大的箱式滤波器与之进行卷积操作,得到原始图像的尺度空间并 在其中搜索极值点,将得到的每一个极值点与对应的3×3×3立体邻 域内除该点以外的26个点进行比较,得到一个局部极大值。然后 利用3维二次方程的Taylor展开式进行曲面拟合,从而实现非极 大值抑制(NMS)的极值点定位,得到符合条件的特征点的准确 坐标以及尺度σ。然后通过一种特征点筛选算法对得到的特征点进 一步筛选,并生成特征描述符传输给SVM模型进行训练和识别。

参见图1,本实施例的基于Kinect传感器的静态手语字母识别系 统,包括摄像模块、图像预处理模块、手像素区域分割模块、静态手 语特征提取模块、静态手语识别模块。其中:

摄像模块,采用Kinect传感器采集目标区域深度图像;

图像预处理模块,用于将摄像装置获取的深度图像进行一个初步 的降噪处理;

手像素区域分割模块,通过灰度直方图中灰度值由大到小变化, 寻找像数点剧变较大的灰度值处作为手像素区域分割的阈值,再通过 二值化方法来完成手像素区域分割;

静态手语特征提取模块,用于提取手型的特征点并生成相应的特 征描述符,同时采用一种特征点筛选算法对SURF的特征提取结果进 行改进;

静态手语识别模块,采用“一对一”SVM分类法,以SURF算法生 成64维的SURF特征描述符为基准,进行分类训练,得出识别的结果。

参见图2,本实施例的基于特征点筛选算法的改进的SURF算 法的流程示意图,包括如下步骤:

1)首先要生成原始图像的积分图像,积分图像中的点(x,y)代表 原始图像中对应的点(x,y)和原点所形成的矩形中的所有的像素值 的总和。如下面公式所示:

2)利用逐步放大的箱式滤波器与之进行卷积操作,得到实时图 像的尺度空间并计算特征点的坐标及尺度,具体包括如下步骤:

21)Hessian矩阵可由下式定义:

H(x,y,σ)=Lxx(x,y,σ)Lxy(x,y,σ)Lxy(x,y,σ)Lyy(x,y,σ)

其中,Lxx、Lxy、Lyy分别是G(x,y,σ)在x、y、xy方向的2阶偏 导数:

Lxx(x,y,σ)=2G(x,y,σ)x2,

Lxy(x,y,σ)=2G(x,y,σ)xy,

Lyy(x,y,σ)=2G(x,y,σ)y2,

22)进行卷积操作后,可以得到的近似矩阵Happrox的 行列式:

det(Happrox)=DxxDyy-(wDxy)2

其中,Dxx、Dyy、Dxy为卷积结果,ω为加权系数,可通过的F(Frobenius)范数进行约束。

ω=||Lxy(1.2)||F·||Dxx(9)||F||Lxy(1.2)||F·||Dxy(9)||F=0.9120.9

23)当值为正时,证明该点是极值点;反之,则不 是极值点。

24)对得到的每一个极值点与对应的3×3×3立体邻域内除该点 以外的26个点进行比较,得到一个局部极大值。然后利用3维二 次方程的Taylor展开式进行曲面拟合,从而实现非极大值抑制 (NMS)的极值点定位,得到特征点的准确坐标以及尺度σ。

3)采用特征点筛选算法剔除错误特征点:

31)算法原理:设实时图像和模板图像分别为I、I′,其特征 点集分别为C={C1,C2,…Cn}、C′={C1′,C2′,Cn′},其对应的一对匹配特 征点对为P、P′,其中P∈C,P′∈C′,在半径为r的邻域内,若 两幅图像只存在平移和旋转,则应该满足以下结论:

(1)邻域特征点总个数相同。即以P为中心,以r为半径的 邻域内特征点总个数,应等于以P′为中心,以r为半径的领域内特 征点总个数。

(2)对应特征点的间距相同。设Ci,Cj∈C,Ci′,Cj′∈C′,Ci、Ci′ 是对应的一对特征点,Cj、Ci′也是对应的特征点,则Ci与Cj的距 离值应当和Ci′与Ci′的距离值应相等,即d(Ci,Cj)=d(Ci′,Cj′)。

32)基于以上原理,根据以下步骤来剔除错误的特征点:

(1)定义一个自适应半径r,若在以当前r为半径的邻域内, 特征点个数少于2个,则将r的值提高一倍后再计算特征点个数; 若在以当前r为半径的邻域内,特征点个数大于2个,则进行下面 两个步骤。

(2)计算以匹配点对P、P′为中心,半径为r的邻域内特征 点的个数。若特征点的个数相同,则P是正确的特征点,否则,P 是错误的特征点,需要进行剔除。

(3)计算该特征点与其邻域内其他特征点的距离,通过这一 参数配进一步剔除错误特征点。设P、P′是已满足邻域特征点总数 相等这个条件。假设在以r半径的邻域内特征点个数为n,则将P、 P′到其邻域内其他特征点的距离按照降序排列统计后分别记为 D1={d1,d2,…dn}和D2={d2,d2,dn},若D1与D2的偏差在允许的范围内, 则认为P是正确的特征点,否则不匹配。这样有效的剔除了掌心部 位的错误特征点。

4)特征点描述分为两部分,首先,确定特征点的主方向,然 后生成相应的特征点描述符。

41)在以特征点为圆心,半径为6σ(σ为尺度)的圆内,计算 尺寸为4σ的Harr小波响应dx,dy,对之进行高斯加权,记为在72组60°大小的扇形区域,分别统计这些扇形区域内的以及该区域的梯度值,梯度值最大的方向为特征点的主方向, 据的反正切值可求出特征点主方向的度数。

42)确定主方向后,将以特征点为核心,大小为20σ的正方 形窗,划分为4×4共16个小正方形区域,计算每个小区域内Harr 小波响应dx,dy,并用高斯函数进行加权。每一个小区域内的Harr 小波响应对应的大于零和小于零的dx、dy分别累加,得到的描述符 如下:

Descsqure=V(Σdx,Σdy,Σ|dx|,Σ|dy|)

为四维向量,4×4个小区域就组成了特征点的64维描 述符向量。

参见图3,本实施例采用的国际通用的手语字母模板。共 计有26个手语字母模型,分别表示英文字母A-Z。

参见图4,本实施例的基于SVM方法的手语字母分类流程 图,本发明采用“一对一”分类法,即分别在每两类别之间都训练 构造一个SVM分类模型。对于m个类别则将训练出m(m-1)/2个 SVM模型,分类时将待分类样本x逐个输入到这m(m-1)/2个模 型中,假设该样本x为第i类,则第i类的得分加1,最后获得票 数最多的类别就为该待分类样本x的类别。这种方法缩短了 SVM的训练时间,另外在增量式学习中,不需要重新训练所有 的SVM模型,只要重新训练和增加样本类相关的SVM模型。

训练模型时,本发明首先采用基于特征点筛选算法的改进的 SURF算法提取特征,生成64维的特征向量,然后利用libSVM进 行模型的训练和预测。具体包括如下步骤:

1)通过LibSVM库中的svmscale.exe将手语特征向量的每个 特征归一化到[0,1],以防止出现较大范围的特征数据淹没小范围数 据、过拟合等问题,同时避免计算过程中数值复杂度。利用下式进 行归一化:

xn=xn-minxnmaxxn-minxn

其中xn′为第n个特征的第i维特征矢量。

2)通过支持向量机的可执行文件svmtrain.exe对归一化的特 征向量进行训练,采用线性核、一对一的分类策略,得到训练模型;

3)通过svmpredict.exe对预测样本进行预测,将测试样本输 入到2)中训练的分类器中,采用“一对一”分类的“投票”策略对进 行“投票",最终票数最多的即为预测样本的类别,并输出手语字母 类别。

以上所述仅为本发明的优选并不用于限制本发明,显然,本 领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些修改和变型属于本发 明权利要求及其等同技术的范围之内,则本发明也意图包含这些 改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号