首页> 中国专利> 一种基于视觉跟踪和手势识别的人机交互方法

一种基于视觉跟踪和手势识别的人机交互方法

摘要

本发明公开了一种基于视觉跟踪和手势识别的人机交互方法,本发明包括一个可变焦的高清红外摄像头以及多个高清红外摄像头。本发明装置安装在屏幕的边框或边框上方。其中可变焦的高清红外摄像头采集视觉的信息,再通过视觉观察屏幕的位置和拍摄的图像进行标定,最后通过本发明装置的专用处理器实现瞳孔的识别,从而实现本发明方法的第一步视觉跟踪。本发明的第二步在视觉跟踪之后,多个高清红外摄像头在视觉观察屏幕的区域实现手势的识别,即完成人机交互。再通过摄像头对屏幕进行标定,对手势进行三维成像,并判断手势触摸点的位置和动作。本发明实现了具有视觉跟踪的手势识别人机交互系统,提供了智能的非接触式的人机交互方式。

著录项

  • 公开/公告号CN103713738A

    专利类型发明专利

  • 公开/公告日2014-04-09

    原文格式PDF

  • 申请/专利权人 武汉拓宝电子系统有限公司;

    申请/专利号CN201310693150.0

  • 发明设计人 何辉;李磊;刘凌志;汪志冰;

    申请日2013-12-17

  • 分类号G06F3/01(20060101);G06K9/60(20060101);

  • 代理机构42224 武汉东喻专利代理事务所(普通合伙);

  • 代理人方可

  • 地址 430074 湖北省武汉市东湖高新区光谷大道58号光谷总部国际2栋712室

  • 入库时间 2024-02-19 22:49:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-06-29

    授权

    授权

  • 2015-07-22

    著录事项变更 IPC(主分类):G06F3/01 变更前: 变更后: 申请日:20131217

    著录事项变更

  • 2014-05-07

    实质审查的生效 IPC(主分类):G06F3/01 申请日:20131217

    实质审查的生效

  • 2014-04-09

    公开

    公开

说明书

技术领域

本发明属于计算机人工智能技术领域,更具体地,涉及一种基于视觉 跟踪和手势识别的人机交互方法。

背景技术

技术的进步使人与计算机之间的交互越来越接近自然方式的交互,也 就是人们大力倡导的“自然交互”。触摸技术这种轻松的人机交互方式已经 被推向了众多的领域,除了应用在个人便携式数码产品之外,它还被广泛 地应用在信息家电、公共信息、电子游戏、办公室自动化设备以及工业设 备等领域。利用触摸技术,用户只需要用手势轻轻触碰屏幕上的文字或图 标就能够实现与计算机的交互,使得人与机器之间的交互更加直观便捷。

而现有的触摸技术必须通过人手接触屏幕从而完成人机交互的过程。 这种接触式的触摸技术当人远离屏幕时无法实现与屏幕的自然交互,必须 通过遥控器等装置控制屏幕,不能提供良好的人机交互体验,因此上述触 摸技术在人工智能应用中存在局限性。视觉跟踪技术利用视觉的变化代替 人手在触摸屏上的运动,使人远离屏幕时仍可以定位屏幕上的任意区域。 通过眼睛的运动使用触摸屏,减少了许多步骤,加速以人为中心的智能化 人机交互的发展与实现。目前这种技术还仅限于眼动仪,人脸识别等方面 的应用,还未应用在触摸技术领域。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于视觉跟 踪和手势识别的人机交互方法,其目的在于,能够在任意具有屏幕特性的 屏幕例如电脑液晶屏、普通液晶屏、投影仪屏幕、大型显示器上实现视觉 跟踪,并实现非接触式控制屏幕的人机交互方式。

为实现上述目的,按照本发明的一个方面,提供了一种基于视觉跟踪 和手势识别的人机交互方法,包括以下步骤:

(1))将红外光源、用于进行视觉跟踪的可变焦高清红外摄像头、以 及多个用于进行手势识别的高清红外摄像头安装在屏幕边框处;

(2)可变焦高清红外摄像头采集人脸图像,并对采集的人脸图像进行 人脸轮廓提取;

(3)计算步骤(2)获得的人脸轮廓中左、右瞳孔中心的像素坐标(ueL,veL) 和(ueR,veR);

(4)根据人脸轮廓中左右瞳孔中心的像素坐标以及屏幕四个角的坐标 计算左右瞳孔的投影矩阵Mel和Mer;

(5)通过步骤(4)得到的左右瞳孔的投影矩阵Mel和Mer以及左右 瞳孔的中心像素坐标值计算左、右瞳孔在屏幕上的物理坐标值,该物理坐 标值所对应的区域为用户执行手势操作的区域:

ueLveL1=MelXelYel1

ueRveR1=MerXerYer1

其中(Xer,Yer)表示右瞳孔在屏幕上的物理坐标值,(Xel,Yel)表 示左瞳孔在屏幕上的物理坐标值;

(6)根据双目视觉的原理对放置有高清红外摄像头的屏幕进行参数标 定,以分别获得左、右高清红外摄像头的投影矩阵Ml和Mr;

(7)高清红外摄像头采集用户手势触摸屏幕的图像,对采集的图像进 行预处理,以获取用户的手势在左高清红外摄像头上的成像坐标(u1F,v1F)以 及在右高清红外摄像头上的成像坐标(u2F,v2F);

(8)根据用户的手势操作在左高清红外摄像头上的成像坐标(u1F,v1F) 以及在右高清红外摄像头上的成像坐标(u2F,v2F)、以及左高清红外摄像头的 投影矩阵Ml和右高清红外摄像头的投影矩阵Mr,并通过以下等式获得用户 的手势在屏幕上的三维空间坐标(xf,yf,zf),其中该手势操作是在上述步骤 (5)中获得的物理坐标值对应的区域中:

u1Fv1F1=Mlxfyfzf1,u2Fv2F1=Mrxfyfzf1

(9)判断步骤(8)获得的坐标zf是否小于阀值γ,若zf小于γ,可以 判断用户手势发生点击动作,通过USB接口将指尖的三维空间坐标 (xf,yf,zf)输出,否则过程结束。

优选地,步骤(2)包括以下子步骤:

(2-1)利用可变焦高清红外摄像头采集人脸图像,并用掩膜法对采集 的人脸图像去噪;

(2-2)利用Sobel算子对人脸图像上的像素点做梯度变换,以得到人 脸轮廓。

优选地,步骤(3)具体为,在步骤(2)获得的人脸轮廓中使用SOBEL 算子得到左瞳孔的左右像素坐标值为uLeL、uHeL,左瞳孔的上下像素坐标值为 vLeL、vHeL,左瞳孔的中心像素坐标值(ueL,veL)为(uLeL+uHeL/2,vLeL+vHeL/2),右瞳 孔的中心像素坐标值(ueR,veR)为(uLeR+uHeR/2,vLeR+vHeR/2)。

优选地,步骤(6)具体为,利用张正友标定对屏幕进行标定,以获得 标定物在左右高清红外摄像头上的像素坐标,每个标定物在左右高清红外 摄像头上的像素坐标(u1m,v1m)、(u2m,v2m),其中m为标定点的个数,并利用以 下等式分别获得左高清红外摄像头的投影矩阵Ml和右高清红外摄像头的投 影矩阵Mr:

u1mv1m1=Mlxmymzm1u2mv2m1=Mrxmymzm1

其中(xm,ym,zm)为圆圈标定点的物理坐标。

优选地,步骤(7)具体包括以下子步骤:

(7-1)左、右高清红外摄像头分别采集用户手势触摸屏幕的图像,并 将采集到的图像与初始化帧的图像对应点上像素点相减,以组成新的图像;

(7-2)对步骤(7-1)获得的新的图像进行图像去噪;

(7-3)利用Sobel算子对图像上的像素点做梯度变换,以得到边缘检 测图;

(7-4)根据步骤(7-3)获取的边缘检测图对左、右高清红外摄像头 上的像素点进行K曲率判别,以获得用户的手势在左、右高清红外摄像头 上的成像坐标(u1F,v1F)和(u2F,v2F)。

按照本发明的另一方面,提供了一种基于视觉跟踪和手势识别的人机 交互方法,包括以下步骤:

(1))将红外光源、用于进行视觉跟踪的可变焦高清红外摄像头、以 及多个用于进行手势识别的高清红外摄像头安装在屏幕边框处;

(2)可变焦高清红外摄像头采集人脸图像,并对采集的人脸图像进行 人脸轮廓提取;

(3)计算步骤(2)获得的人脸轮廓中左、右瞳孔中心的像素坐标(ueL,veL) 和(ueR,veR);

(4)根据人脸轮廓中左右瞳孔中心的像素坐标以及屏幕四个角的坐标 计算左右瞳孔的投影矩阵Mel和Mer;

(5)通过步骤(4)得到的左右瞳孔的投影矩阵Mel和Mer以及左右 瞳孔的中心像素坐标值计算左、右瞳孔在屏幕上的物理坐标值,该物理坐 标值所对应的区域为用户执行手势操作的区域:

ueLveL1=MelXelYel1

ueRveR1=MerXerYer1

其中(Xer,Yer)表示右瞳孔在屏幕上的物理坐标值,(Xel,Yel)表 示左瞳孔在屏幕上的物理坐标值;

(6)根据双目视觉的原理对放置有高清红外摄像头的屏幕进行参数标 定,以分别获得左、右高清红外摄像头的投影矩阵Ml和Mr;

(7)高清红外摄像头采集用户手势触摸屏幕的图像,对采集的图像进 行预处理,以获取用户的手势在左高清红外摄像头上的成像坐标(u1F,v1F)以 及在右高清红外摄像头上的成像坐标(u2F,v2F);

(8)当用户滑动触摸屏幕时,根据用户的手势操作在左高清红外摄像 头上的成像坐标(u1F,v1F)以及在右高清红外摄像头上的成像坐标(u2F,v2F)、 以及左高清红外摄像头的投影矩阵Ml和右高清红外摄像头的投影矩阵Mr, 并通过以下等式获得用户的手势在屏幕上第一帧指尖的三维空间坐标 (xf1,yf1,zf1),其中该手势操作是在上述步骤(5)中获得的物理坐标值对应 的区域中:

u1Fv1F1=Mlxf1yf1zf11,u2Fv2F1=Mrxf1yf1zf11

(9)重复步骤(8),以获得后续D-1帧指尖图像的三维空间坐标 (xf2,yf2,zf2)…(xfD,yfD,zfD),其中D表示用户滑动触摸屏幕时采集到的指尖 图像的帧数,从而得到手势在屏幕上的滑动轨迹,将轨迹通过USB接口输 出。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够 取得下列有益效果:

(1)本发明实现了任意屏幕上(包括液晶屏、投影仪屏幕或其他屏幕 等)实现具有视觉跟踪定位以及非接触式触摸的功能;

(2)本发明使用简单,定位准确,便于安装。

附图说明

图1是本发明基于视觉跟踪和手势识别的人机交互方法的流程图。

图2是本发明人脸轮廓检测的示意图。

图3是本发明视觉跟踪的示意图。

图4是本发明手势识别所使用的装置的外形图。

图5是本发明的正视图。

图6是本发明屏幕的侧视图。

图7是本发明标定物示意图。

图8是本发明手势触摸点击示意图。

图9是本发明手势滑动示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图 及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体 实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的 本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可 以相互组合。

如图1所示,本发明一种基于视觉跟踪和手势识别的人机交互方法, 包括以下步骤:

(1))将红外光源、用于进行视觉跟踪的可变焦高清红外摄像头、以 及多个用于进行手势识别的高清红外摄像头安装在屏幕边框的任意位置; 在本实施方式中,进行视觉跟踪的可变焦高清红外摄像头,其特性是10倍 变焦,分辨率是720P,帧率是60帧/秒,镜头角度在110°;红外光源选择 800nm-1200nm波长的红外光;进行手势识别的高清红外摄像头的帧率是60 帧/秒、分辨率是720P,镜头角度在110°;屏幕为任意尺寸或形式的屏幕, 包括液晶屏、投影仪屏幕、或其他屏幕)摄像头被安放在屏幕边框的左右任 意位置,如图4至6所示,作为示例,选取屏幕上边框的中心位置安装红 外光源、可变焦高清红外摄像头、以及高清红外摄像头,在本实施方式中, 使用两个高清红外摄像头,以及一个可变焦高清红外摄像头,应该理解的 是,本发明的摄像头数量绝不局限于此。本发明通过红外光源作为辅助光 源。

(2)可变焦高清红外摄像头采集人脸图像,并对采集的人脸图像进行 人脸轮廓提取;如图2所示,本步骤包括以下子步骤:

(2-1)利用可变焦高清红外摄像头采集人脸图像,并用掩膜法对采集 的人脸图像去噪;具体而言,首先建立一个3*3的掩模W=w1w2w3w4w5w6w7w8w9,假设采集的人脸图像上某一点的像素为aj,k,其中j和k表示图像上点的位 置;则有aj,k=aj-1,k-1w1+aj-1,kw2+…+aj,kw5+…+aj+1,kw8+aj+1,k+1w9,从而得到新 的像素aj,k,在本实施方式中,W=19111111111;

(2-2)对去噪后的人脸图像进行边缘检测,即利用Sobel算子对人脸 图像上的像素点做梯度变换,以得到人脸轮廓;具体而言,M设SOBEL算子 Sh=-1-2-1000121为横向梯度算子,Sv=-101-202101为纵向梯度算子,对人脸 图像分别使用Sh和Sv来进行卷积运算,以获得该人脸图像在两个横向和纵 向上的梯度图;

(3)计算步骤(2)获得的人脸轮廓中左右瞳孔中心的像素坐标;如 图3所示,本步骤具体为,在步骤(2)获得的人脸轮廓中仍调用上述步骤 (2-2)中的SOBEL算子,得到左瞳孔的左右像素坐标值为uLeL、uHeL,左瞳孔 的上下像素坐标值为vLeL、vHeL,因此左瞳孔的中心像素坐标值(ueL,veL)为 (uLeL+uHeL/2,vLeL+vHeL/2)。同理可得右瞳孔的中心像素坐标值(ueR,veR)为 (uLeR+uHeR/2,vLeR+vHeR/2)。

(4)根据人脸轮廓中左右瞳孔中心的像素坐标以及屏幕四个角的坐标 计算左右瞳孔的投影矩阵Mel和Mer,如图4所示,本步骤具体为:首先, 当人眼视觉注视屏幕左上角时(左上角坐标为(xA,yA,0)),可以通过步骤(3) 求得左右瞳孔中心在高清红外摄像头上的像素坐标为(u1eL,v1eL),(u1eR,v1eR), 同理求得注视屏幕右上角(右上角坐标为(xB,yB,0))时,左右瞳孔中心在高 清红外摄像头的像素坐标分别为(u2eL,v2eL),(u2eR,v2eR);注视屏幕左下角(左 下角坐标为(xC,yC,0))时,左右瞳孔中心在高清红外摄像头的像素坐标分别 为(u3eL,v3eL),(u3eR,v3eR);注视屏幕右下角(右下角坐标为(xD,yD,0))时,左 右瞳孔中心在高清红外摄像头的像素坐标分别为(u4eL,v4eL),(u4eR,v4eR);

然后,根据双目视觉的原理

ueLveL1=Melxy1

根据上述屏幕四个角的坐标即左上角坐标为(xA,yA),右上角坐标为 (xB,yB),左下角坐标为(xC,yC),右下角坐标为(xD,yD)带入上述等式右边,屏幕 四个角对应的左瞳孔的像素坐标为(u1eL,v1eL),(u2eL,v2eL),(u3eL,v3eL),(u4eL,v4eL) 带入上述等式左边,联立解方程

即可计算得到左瞳孔的投影矩阵为

Mel=mel11mel12mel13mel21mel22mel23mel31mel32mel33,

同理可求得右瞳孔的投影矩阵为

Mer=mer11mer12mer13mer21mer22mer23mer31mer32mer33.

(5)通过步骤(4)得到的左右瞳孔的投影矩阵Mel和Mer以及左右 瞳孔的中心像素坐标值计算左、右瞳孔在屏幕上的物理坐标值,该物理坐 标值所对应的区域为用户执行手势操作的区域;具体而言,通过以下双目 视觉的原理

ueLveL1=MelXelYel1

ueRveR1=MerXerYer1

计算得到左、右瞳孔在屏幕上的物理坐标值,其中(Xer,Yer)表示 右瞳孔在屏幕上的物理坐标值;(Xel,Yel)表示左瞳孔在屏幕上的物理坐 标值。当视觉投向不同的屏幕区域,如图3所示在屏幕上显示虚线框,即 可完成视觉的定位及跟踪,本步骤获得的物理坐标值对应的区域就是后续 步骤(8)中用户手势的操作区域。

(6)根据双目视觉的原理对放置有高清红外摄像头的屏幕进行参数标 定,以分别获得左、右高清红外摄像头的投影矩阵Ml和Mr;具体而言,通 过如图(7)所示的标定物,利用张正友标定对屏幕进行标定,以获得标定 物在左右高清红外摄像头上的像素坐标,每个标定物在左右高清红外摄像 头上的像素坐标(u1m,v1m)、(u2m,v2m),其中m为标定点的个数,如图(7)所 示有9个,(xm,ym,zm)为图(7)所示的圆圈标定点的物理坐标。并利用以下 等式分别获得左高清红外摄像头的投影矩阵Ml和右高清红外摄像头的投影 矩阵Mr:

u1mv1m1=Mlxmymzm1u2mv2m1=Mrxmymzm1

最终获得的投影矩阵分别为

Ml=ml11ml12ml13ml14ml21ml22ml23ml24ml31ml32ml33ml34,Mr=mr11mr12mr13mr14mr21mr22mr23mr24mr31mr32mr33mr34

(7)高清红外摄像头采集用户手势触摸屏幕的图像,对采集的图像进 行预处理,包括图像相减、图像去噪、边缘提取、基于K曲率判别的指尖 或笔尖图像识别,以获取用户的手势在左高清红外摄像头上的成像坐标 (u1F,v1F)以及在右高清红外摄像头上的成像坐标(u2F,v2F);如图8所示,本 步骤具体包括以下子步骤:

(7-1)左、右高清红外摄像头分别采集用户手势触摸屏幕的图像,并 将采集到的图像与初始化帧的图像对应点上像素点相减,以组成新的图像;

(7-2)对步骤(7-1)获得的新的图像进行图像去噪,图像去噪的过 程和上述步骤(2-1)相同,在此不再赘述;

(7-3)对去噪后的图像进行边缘检测,即利用Sobel算子对图像上的 像素点做梯度变换,以得到边缘检测图;边缘检测的过程和上述步骤(2-2) 相同,在此不再赘述;

(7-4)根据步骤(7-3)获取的边缘检测图对左、右高清红外摄像头 上的像素点进行K曲率判别,以获得用户的手势在左、右高清红外摄像头 上的成像坐标;具体而言,是根据(7-3)中得到的边缘检测图可以提取出 手势的边缘图像,每一个边缘坐标点向量为以该点为起始点按边缘的顺 时针方向数到的第K点设为按逆时针方向数到的第K点设为则的K向量计算公式为当上述计算α大于0并且大于设 定阀值β(其取值范围为0.5至1之间),则当前向量对应的像素坐标即 为用户的手势在左高清红外摄像头上的成像坐标(u1F,v1F);右摄像头的处理 与上述相同,得到用户的手势在右高清红外摄像头的像素坐标为(u2F,v2F);

(8)根据用户的手势操作在左高清红外摄像头上的成像坐标(u1F,v1F) 以及在右高清红外摄像头上的成像坐标(u2F,v2F)、以及左高清红外摄像头的 投影矩阵Ml和右高清红外摄像头的投影矩阵Mr,并通过以下等式获得用户 的手势在屏幕上的三维空间坐标(xf,yf,zf),其中该手势操作是在上述步骤 (5)中获得的物理坐标值对应的区域中:

u1Fv1F1=Mlxfyfzf1,u2Fv2F1=Mrxfyfzf1

通过上述两个矩阵方程求解可以得到手势的三维空间坐标(xf,yf,zf), 即完成用户的手势的三维成像及定位。

需要注意的是,在本步骤中,用户的手势操作是点击的方式触摸屏幕。

(9)判断步骤(8)获得的坐标zf是否小于阀值γ,其中γ的取值范围 和屏幕的长度成正比,若zf小于γ,可以判断用户手势发生点击动作,通过 USB接口将指尖的三维空间坐标(xf,yf,zf)输出,否则过程结束;

如图9所示,当用户以滑动的方式触摸屏幕时,本发明基于视觉定位 及跟踪的手势识别人机交互方法所包括的步骤基本与上述点击方式基本相 同,唯一不同在于上述步骤(9)被替换为:

获得连续D帧指尖的三维空间坐标(xf1,yf1,zf1), (xf2,yf2,zf2)…(xfD,yfD,zfD),其中D表示用户滑动触摸屏幕时采集到的指尖 图像的帧数,且为正整数,从而得到手势在屏幕上的滑动轨迹,将轨迹通 过USB接口输出,从而实现手势滑动的识别。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等 同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号