公开/公告号CN104123008A
专利类型发明专利
公开/公告日2014-10-29
原文格式PDF
申请/专利权人 哈尔滨工业大学深圳研究生院;
申请/专利号CN201410371319.5
申请日2014-07-30
分类号G06F3/01(20060101);G06K9/62(20060101);
代理机构深圳市科吉华烽知识产权事务所(普通合伙);
代理人于标
地址 518000 广东省深圳市南山区西丽镇深圳大学城哈工大校区
入库时间 2023-12-17 01:34:31
法律状态公告日
法律状态信息
法律状态
2017-11-03
授权
授权
2014-12-03
实质审查的生效 IPC(主分类):G06F3/01 申请日:20140730
实质审查的生效
2014-10-29
公开
公开
技术领域
本发明涉及人工智能领域,尤其涉及一种基于静态手势的人机交互方法及系统。
背景技术
手势交互是理想的人机交互方式之一,而手势识别技术是手势交互的重要技术手段。手势识别技术一般包括肤色分割、手势区域提取、手势特征提取、手势特征分类(识别)这四部分。在传统的手势识别技术中这几个技术模块实现各有差异,但总体存在改进空间。传统手势识别技术一般具有以下缺点:
一、传统手势识别方法中肤色分割部分一般采用将RGB颜色转换到Ycbcr或HSV颜色空间,然后通过限定阈值得到肤色分割模块。这样的肤色分割处理方法通常会因为环境光照的影响,效果变的不稳定。而且不能处理好环境中类肤色区域的干扰,对使用环境要求比较高。
二、传统手势识别方法中手势区域提取部分,很多时候直接将肤色区域认定为手势区域,即使加入手势区域判断,也一般是采用最大肤色连通区域作为手势区域,这种弱特征判断在实际应用中很难将人脸肤色区域同手势肤色区域做区分,最终导致手势识别失败
三、传统手势识别方法中手势特征提取部分,一般采用凸包面积占用比率作为手势类型的关键特征、另外还有手指个数、手势质心等也经常被用做手势类型特征。这些特征能在一定程度上为手势分类提供特征数据,但当手势种类多的时候则会体现出明显的局限性、误识率明显提高。
四、在手势特征分类这一块,传统手势识别方法中一般着重于单张图像的静态手势识别,忽视了视频数据的连续性,没能充分利用数据以进一步提高识别的可靠性。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于静态手势的人机交互方法。
本发明提供了一种基于静态手势的人机交互方法,包括手势识别方法, 在所述手势识别方法中包括:
建立实时肤色模型步骤:从图像中提取肤色块;
建立手势几何模型步骤:从肤色图像中提取手势特征,定义静态手势指令;
建立跟踪模型步骤:对手势图像做跟踪;
识别步骤:用于手势指令识别;
在所述实时肤色模型步骤中包括:
初始肤色获取步骤:利用严格肤色阈值限制和动态帧差来获取初始肤色数据块;
肤色模型计算步骤:利用已有的肤色数据库计算基于亮度索引的多高斯肤色模型,并且在手势识别过程中根据当前所获得肤色图像实时更新模型参数;
肤色判断步骤:根据计算好的肤色模型,对像素点进行肤色判断,当概率大于设定阈值时给予肤色判断,否则做非肤色判断。
作为本发明的进一步改进,在所述手势几何模型步骤中包括:
手势模型构建步骤:对所有肤色区域利用线段和圆在几何上重构手势手型;
手型肤色区域判断步骤:在已构建的手势几何模型基础上,判断该模型是否满足手的实际特征,如若合理则做手势肤色判断,否则做非手势肤色判断;
静态手势指令录入步骤:满足用户自定义手势指令。
作为本发明的进一步改进,所述跟踪模型步骤能够完成对用户1~2个手的跟踪,所述跟踪模型步骤从实时肤色模型步骤中获取输入数据,从手势几何模型步骤获取初始跟踪窗口,最终完成对特定手势肤色块的跟踪,在跟踪过程中,利用帧间信息为手势几何模型步骤、识别步骤提供手势肤色位置信息。
作为本发明的进一步改进,在所述识别步骤中,根据手势几何模型所得到的几何特征和跟踪模型得到的跟踪信息识别出特定手势指令。
作为本发明的进一步改进,该人机交互方法包括:
视频采集步骤:采集用户手势数据,并传输给核心处理步骤;
核心处理步骤:通过手势识别方法分析出视频中的手势指令,再将手势指令命令下达给指令执行步骤;
指令执行步骤:执行与手势指令相对应的指令程序。
本发明还提供了一种基于静态手势的人机交互系统,包括手势识别单元,在所述手势识别单元中包括:
实时肤色模型模块:用于从图像中提取肤色块;
手势几何模型模块:用于从肤色图像中提取手势特征,定义静态手势指令;
跟踪模型模块:用于对手势图像做跟踪;
识别模块:用于手势指令识别;
在所述实时肤色模型模块中包括:
初始肤色获取模块:利用严格肤色阈值限制和动态帧差来获取初始肤色数据块;
肤色模型计算模块:利用已有的肤色数据库计算基于亮度索引的多高斯肤色模型,并且在手势识别过程中根据当前所获得肤色图像实时更新模型参数;
肤色判断模块:根据计算好的肤色模型,对像素点进行肤色判断,当概率大于设定阈值时给予肤色判断,否则做非肤色判断。
作为本发明的进一步改进,在所述手势几何模型模块中包括:
手势模型构建模块:用于对所有肤色区域利用线段和圆在几何上重构手势手型;
手型肤色区域判断模块:用于在已构建的手势几何模型基础上,判断该模型是否满足手的实际特征,如若合理则做手势肤色判断,否则做非手势肤色判断;
静态手势指令录入模块:用于满足用户自定义手势指令。
作为本发明的进一步改进,所述跟踪模型模块能够完成对用户1~2个手的跟踪,所述跟踪模型模块从实时肤色模型模块中获取输入数据,从手势几何模型模块获取初始跟踪窗口,最终完成对特定手势肤色块的跟踪,在跟踪过程中,利用帧间信息为手势几何模型模块、识别模块提供手势肤色位置信息。
作为本发明的进一步改进,在所述识别模块中,根据手势几何模型模块所得到的几何特征和跟踪模型模块得到的跟踪信息识别出特定手势指令。
作为本发明的进一步改进,该人机交互系统包括:
视频采集单元:用于采集用户手势数据,并传输给核心处理单元;
核心处理单元:用于通过手势识别单元分析出视频中的手势指令,再 将手势指令命令下达给指令执行单元;
指令执行单元:用于执行与手势指令相对应的指令程序。
本发明的有益效果是:本发明可以让人们通过做手势实现人与机器的交互、给机器下达指令。从交互方式层面上说,本发明提供了一种新颖的、简洁的、更为人性化的人机交互方式。从系统实现方法层面说,该系统中用到的手势识别单元有效地克服了传统手势识别的稳定性差、指令量少不可扩充、严重依赖PC平台等问题。
附图说明
图1是本发明的静态手势指令示意图;
图2是本发明的人机交互系统原理框图;
图3是本发明的人机交互系统一实施例的原理框图。
具体实施方式
本发明公开了一种基于静态手势的人机交互方法,包括手势识别方法,在所述手势识别方法中包括:
建立实时肤色模型步骤:从图像中提取肤色块;
建立手势几何模型步骤:从肤色图像中提取手势特征,定义静态手势指令;
建立跟踪模型步骤:对手势图像做跟踪;
识别步骤:用于手势指令识别;
在所述实时肤色模型步骤中包括:
初始肤色获取步骤:利用严格肤色阈值限制和动态帧差来获取初始肤色数据块;
肤色模型计算步骤:利用已有的肤色数据库计算基于亮度索引的多高斯肤色模型,并且在手势识别过程中根据当前所获得肤色图像实时更新模型参数;
肤色判断步骤:根据计算好的肤色模型,对像素点进行肤色判断,当概率大于设定阈值时给予肤色判断,否则做非肤色判断。
作为本发明的一个实施例,在该实时肤色模型步骤中,首先需要建立实时肤色数据库,为多高斯概率模型提供初始数据。而实时肤色数据库建立在帧差法和严格肤色数据模型的基础上。在完成了实时肤色数据库后便可按照以下原理建立基于亮度索引的多高斯概率肤色模型。建立基于亮度索引的多高斯概率肤色模型的原理为:
计算亮度索引:Y=0.299×r+0.587×g+0.114×b
计算特征向量:
I1=(r+g+b)/3
I2=r-b
I3=(2×g-r-b)/2
I4=0.492×(b-Y)
I5=0.877×(r-Y)
高斯概率计算模型:
在所述手势几何模型步骤中包括:
手势模型构建步骤:对所有肤色区域利用线段和圆在几何上重构手势手型;
手型肤色区域判断步骤:在已构建的手势几何模型基础上,判断该模型是否满足手的实际特征(如手指和手掌有交点,手指长和手掌半径长存在比例关系等),如若合理则做手势肤色判断,否则做非手势肤色判断;
静态手势指令录入步骤:满足用户自定义手势指令。
作为本发明的一个实施例,在手势几何模型步骤中,首先需要通过边缘曲率计算出指尖点所在位置。指尖点为满足以下条件的边界点pi:
pipi-k×pipi-k≥0
其中pi为边缘连续的边界点。Ω为满足一定曲率阈值的指尖点曲率取值范围。
在指尖点确定后,需要再确定掌心位置,在本发明中采用距离变换掌心定位法。具体原理如下:
计算距离图像:
得到有效距离图像模版:
在有效距离图像模版中计算质心即为所求掌心:
通过计算所得指尖点和掌心点再加以圆和直线的相交原理,用圆来模拟手掌区域、用直线模拟手指,从而建立手势几何模型。
所述跟踪模型步骤能够完成对用户1~2个手的跟踪,所述跟踪模型步骤从实时肤色模型步骤中获取输入数据,从手势几何模型步骤获取初始跟踪窗口,最终完成对特定手势肤色块的跟踪,在跟踪过程中,利用帧间信息为手势几何模型步骤、识别步骤提供手势肤色位置信息。
作为本发明的一个实施例,在跟踪模型步骤中,通过利用Camshift算法,用来完成对手势图像的跟踪。Camshift算法需要初始搜索窗,在本发明中可以直接利用手势几何模型中的掌心区域作为初始搜索窗,而之后的跟踪过程中搜索窗的确定可以按以下流程来得到。
计算零阶距
计算一阶矩
计算搜索窗质心
调整搜索窗大小
宽:
长:1.2s
通过这种搜索窗的不断迭代最终实现对手势图像的跟踪。
在所述识别步骤中,根据手势几何模型所得到的几何特征和跟踪模型得到的跟踪信息识别出特定手势指令;具体为从手势几何模型中获得每帧图像中的手势几何模型特征参数,再综合跟踪得到的帧间连续信息做特定手势判断,即手势识别。
该人机交互方法包括:
视频采集步骤:采集用户手势数据,并传输给核心处理步骤;
核心处理步骤:通过手势识别方法分析出视频中的手势指令,再将手势指令命令下达给指令执行步骤;
指令执行步骤:执行与手势指令相对应的指令程序。
如图1至图3所示,本发明还公开了一种基于静态手势的人机交互系统,包括手势识别单元,在所述手势识别单元中包括:
实时肤色模型模块:用于从图像中提取肤色块;
手势几何模型模块:用于从肤色图像中提取手势特征,定义静态手势指令;
跟踪模型模块:用于对手势图像做跟踪;
识别模块:用于手势指令识别;
在所述实时肤色模型模块中包括:
初始肤色获取模块:利用严格肤色阈值限制和动态帧差来获取初始肤色数据块;
肤色模型计算模块:利用已有的肤色数据库计算基于亮度索引的多高斯肤色模型,并且在手势识别过程中根据当前所获得肤色图像实时更新模型参数;
肤色判断模块:根据计算好的肤色模型,对像素点进行肤色判断,当概率大于设定阈值时给予肤色判断,否则做非肤色判断。
在所述手势几何模型模块中包括:
手势模型构建模块:用于对所有肤色区域利用线段和圆在几何上重构手势手型;
手型肤色区域判断模块:用于在已构建的手势几何模型基础上,判断该模型是否满足手的实际特征(如手指和手掌有交点,手指长和手掌半径长存在比例关系等),如若合理则做手势肤色判断,否则做非手势肤色判断;
静态手势指令录入模块:用于满足用户自定义手势指令。
所述跟踪模型模块能够完成对用户1~2个手的跟踪,所述跟踪模型模块从实时肤色模型模块中获取输入数据,从手势几何模型模块获取初始跟踪窗口,最终完成对特定手势肤色块的跟踪,在跟踪过程中,利用帧间信息为手势几何模型模块、识别模块提供手势肤色位置信息,进一步优化了几何模型的计算。
在所述识别模块中,根据手势几何模型模块所得到的几何特征和跟踪模型模块得到的跟踪信息识别出特定手势指令。
该人机交互系统包括:
视频采集单元:用于采集用户手势数据,并传输给核心处理单元;
核心处理单元:用于通过手势识别单元分析出视频中的手势指令,再将手势指令命令下达给指令执行单元;
指令执行单元:用于执行与手势指令相对应的指令程序。
其中跟踪模型模块和实时肤色模型模块、手势几何模型模块存在一种对数据的相互修正的关系。识别从手势几何模型模块获得手型特征数据,结合跟踪模型得到的帧间连续信息做特定手势判断。
当用户在设备视频采集单元的视觉范围内做出特定手势指令后,视频采集单元通过视频获取模块得到视频数据,交由核心处理单元上的手势识别单元,处理流程为,首先从图像数据中分离出肤色数据块,在从肤色数据块中根据手势几何模型的可靠性得到手势肤色数据,同时跟踪模型模块也从肤色分割处获取了相应数据然后再根据几何模型确定手势肤色数据库进行特定手势命令跟踪。最终处理数据都汇总到手势命令识别器处做特定手势指令识别。
本发明的应用广泛,例如:
方案一、将特定手势指令和机器人动作指令相对应,如做出特定手势命令1的时候对应机器人向前走的动作指令。用户在机器人视觉范围内做出手势指令1,机器人视频获取单元得到带有特定手势指令1的视频数据,传到核心处理单元后,将获取的数据作为手势识别程序的输入数据,程序输出特定手势命令1。然后根据之前定义的指令对应关系,机器人获得向前走的命令,开始向前走。
方案二、将特定指令和PC上的PPT展示指令对应,如做出特定手势1的时候对应PPT切换到下一页。用户在PC的摄像头视觉范围内做出手势指令1,PC视频获取单元得到带有特定手势指令1的视频数据,传到核心处理单元后,将获取的数据作为手势识别程序的输入数据,程序输出特 定手势命令1。然后根据之前定义的指令对应关系,PPT应用将当前展示的PPT页面切换到下一页。
方案三、将特定指令和智能电视平台上的指令相对应,如做出特定手势1的时候对应电视频道的切换。用户在智能电视的摄像头视觉范围内做出手势指令1,智能电视的视频获取单元得到带有特定手势指令1的视频数据,传到核心处理单元后,将获取的数据作为手势识别程序的输入数据,程序输出特定手势命令1。然后根据之前定义的指令对应关系,电视频道实现切换。
本发明一方面改进了现有手势识别技术方案的一些缺陷,另一方面将手势识别方法应用到具体实际应用场景,为人与机器交互提供了一种更为方便、有效的交互模式、指令下达方式。对比于传统手势识别方法本发明提供了更为稳健的识别模型。能够有效降低光照带来肤色阈值难以确定的影响。在指令集选取上,提供用户自定义指令接口,在必要的情况下用户可以根据需求在合理范围内自定义手势指令。另一方面对比与传统人与机器的交互方式,本发明不需要额外的控制终端,只需要用裸手在机器视觉范围内做出相应手势指令即可实现与机器的交互、指令下达。
本发明可以让人们通过做手势实现人与机器的交互、给机器下达指令。从交互方式层面上说,本发明提供了一种新颖的、简洁的、更为人性化的人机交互方式。从系统实现方法层面说,该系统中用到的手势识别单元有效地克服了传统手势识别的稳定性差、指令量少不可扩充、严重依赖PC平台等问题。
本发明还具有如有益效果:
一、有效地改善了人与机器的交互体验。为人与机器的交互方式提供了更为人性化的体验。在使用本发明的情况下,人们可以在脱离类似遥控器这种额外控制终端的情况下,实现和机器的互动、指令下达。
二、本发明中采用的实时肤色数据库处理方案,可以有效克服光照强度变化带来的影响。通过建立多高斯概率模型,有效实现对肤色数据的判断,将该方法应用到复杂场景中,有效地降低了对类肤色数据的误判。
三、通过建立手势几何模型,可以有效做出对手势肤色区域和非手势肤色区域的判断。减弱应用环境中多肤色区域的干扰。
四、引入手势跟踪模型,可以有效增强手势识别结果的稳定性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说 明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
机译: 基于低端网络摄像机图像分析的人机交互动,静态手势识别系统
机译: 基于手势的人机交互方法,便携式电子设备以及基于手势的人机界面系统
机译: 基于手势的人机交互方法,便携式电子设备以及基于手势的人机界面系统