首页> 中国专利> 一种基于人脸朝向约束的二级视线追踪方法

一种基于人脸朝向约束的二级视线追踪方法

摘要

本发明公开了一种基于人脸朝向约束的二级视线追踪方法,包括以下步骤:获取图像序列;检测出人脸区域以及眼部区域图像信息;求解出人脸朝向,以人脸朝向作为射线方向,将该射线的方向定义为基准注视方向;将所述基准注视方向的射线与设备屏幕相交获得一个交点,将该交点作为基准注视点;以所述基准注视点为中心划定的一屏幕区域作为约束视场;分析所述眼部区域图像信息,获得用户在所述约束视场上的注视区域。本发明根据人眼观测物体的生理习惯,将头部晃动作为有效视线追踪信息,将头部姿态优先考虑。该方法无需标定步骤,无需进行头动补偿,可实现真正的无约束视线追踪。

著录项

  • 公开/公告号CN107193383A

    专利类型发明专利

  • 公开/公告日2017-09-22

    原文格式PDF

  • 申请/专利权人 华南师范大学;

    申请/专利号CN201710445278.3

  • 发明设计人 韩鹏;钟颖明;邱健;骆开庆;彭力;

    申请日2017-06-13

  • 分类号G06F3/01(20060101);G06K9/00(20060101);

  • 代理机构44001 广州科粤专利商标代理有限公司;

  • 代理人黄培智

  • 地址 510631 广东省广州市天河区石牌华南师范大学

  • 入库时间 2023-06-19 03:23:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-04-07

    授权

    授权

  • 2017-10-24

    实质审查的生效 IPC(主分类):G06F3/01 申请日:20170613

    实质审查的生效

  • 2017-09-22

    公开

    公开

说明书

技术领域

本发明属于人机交互技术领域,特别涉及一种基于人脸朝向约束的二级视线追踪方法。

背景技术

眼动交互是近年新兴的人机交互方式,它通过眼动仪等辅助输入设备,利用用户注视、扫视、眨眼等眼部动作,作为交互系统的输入,有效地代替鼠标键盘。眼动交互是人类和机器之间最直接、最自然的交互方式。而视线追踪技术是实现人机眼动交互的关键和核心功能。目前主流的实现方法中,可根据用户是否佩戴特定的光电装置分为两类:侵入式方法与非侵入式方法。侵入式方法主要依靠用户佩戴的特殊的光、电、化学装置,直接获得眼动信息。而非侵入式方法依靠计算机视觉技术,实时地通过视觉算法分析图像序列文件,计算出用户的视线。非侵入式方法是视线追踪的主流方法。

非侵入式方法主要包括三个步骤:在图像序列中提取眼动信息,求解映射方程,以及头动补偿。提取眼动信息:通过图像算法提取瞳孔、眼角等眼部特征点的图像坐标。求解映射方程:实现图像坐标到屏幕坐标的映射变换。头动补偿:用户头部晃动会使得映射方程失效,需要针对头部晃动进行精度补偿。

现阶段非侵入式方法存在一些问题:

非侵入式方法均需要限制用户使用过程中的头部晃动以增加视线追踪精度,部分系统甚至要求用户使用支架固定头部,影响了用户体验。用户使用前,需要屏幕定标过程完成映射方程的求解。该步骤繁琐不便,同样影响了用户的体验。

现有的非侵入式视线追踪技术,限制用户头部活动,不单影响用户体验,还违反了人的用眼生理习惯。同时,由于眼球转动方向与屏幕视点轨迹方向为非线性关系,因此,限制头部活动也会引起新的非线性误差。

综上所述,非侵入式方法在解决用户头部晃动的问题上,还存在问题尚需解决。

发明内容

本发明的目的是提出一种基于人脸朝向约束的二级视线追踪方法,以期在非侵入式视线追踪过程中解决用户头部晃动的问题。

本发明是通过以下技术方案来实现的:

一种基于人脸朝向约束的二级视线追踪方法,包括以下步骤:

(1)通过非侵入式的图像采集单元获取图像序列;

(2)基于所述图像序列,在图像序列每一帧图像中,检测出人脸区域以及眼部区域图像信息;

(3)基于所述图像中的人脸区域,求解出人脸朝向,以人脸朝向作为射线方向,将该射线的方向定义为基准注视方向;

(4)基于所述基准注视方向,将所述基准注视方向的射线与设备屏幕相交获得一个交点,将该交点作为基准注视点;

(5)基于所述基准注视点,以所述基准注视点为中心划定的一屏幕区域作为约束视场;

(6)基于所述约束视场,分析所述眼部区域图像信息,获得用户在所述约束视场上的注视区域。

所述步骤(3)包含以下子步骤:

(3.1)在人脸区域上进行人脸特征点检测,标识出至少三个人脸特征点;

(3.2)基于机器学习回归方法,将三维标准人脸模型拟合到所述的人脸特征点上,从而使三维标准人脸模型覆盖到人脸区域上;

(3.3)基于所述三维标准人脸模型,从旋转矩阵中求解出三维标准人脸模型的姿态角,从位移矢量中获得用户头部的空间坐标;

(3.4)以人脸上某特征点为端点作一射线,射线方向为所述姿态角向量的方向,该射线定义为基准注视方向。

所述人脸特征点包括眉毛、眼角、眼睑、鼻子、鼻梁和下巴。

所述步骤(5)包含以下子步骤:

(5.1)设定摄像机坐标系与世界坐标系;

(5.2)固定交互屏幕,获得其世界坐标系参数;

(5.3)获得用户头部空间坐标;

(5.4)经立体几何运算,计算出所述基准注视方向射线和交互屏幕屏幕相交的一点,获得该点摄像机坐标系坐标;

(5.5)将交点的摄像机坐标系坐标(Xpc,Ypc,Zpc)经公式1转换为图像坐标系坐标(up,vp);

(5.6)以坐标(up,vp)为中心在交互屏幕上划定的一屏幕区域作为约束视场。

所述屏幕区域的大小为交互屏幕的1/4~1/10。

所述步骤(6)包含以下子步骤:

(6.1)基于机器学习的方法,在人脸区域内,检测落在所述约束视场内的眼部区域;

(6.2)通过灰度积分函数,获得虹膜位置,然后基于Snake模型,分割人眼区域中的瞳孔边沿,并定位瞳孔中心;

(6.3)基于瞳孔中心与眼角之间的相对位置,构造瞳孔中心-内眼角眼动矢量(Δx,Δy);

(6.4)设用户在所述约束视场上注视点的坐标为(ux,uy),通过回归方法,构造二次多项式(2),从而获得ux和uy的值,即可得用户在所述约束视场上注视点坐标:

其中,a0、a1、a2、a3、a4、a5,b0、b1、b2、b3、b4、b5为系数。

所述步骤(6)包含以下子步骤:

(6.1)基于机器学习的方法,在人脸区域内,检测落在所述约束视场内的眼部区域;

(6.2)通过灰度积分函数,获得虹膜位置,然后基于Snake模型,分割人眼区域中的瞳孔边沿,并定位瞳孔中心;

(6.3)基于瞳孔中心与眼角之间的相对位置,构造瞳孔中心-内眼角眼动矢量(Δx,Δy);

(6.4)通过分类方法实现:将所述约束视场划分为小区间,并对其进行编码;系统通过加载预先训练完成的人工神经网络,输入用户当前眼动信息以及头部姿态,即可输出当前用户注视热区。

本发明的优点是:本发明根据人眼观测物体的生理习惯,将头部晃动作为有效视线追踪信息,将头部姿态优先考虑,以脸部朝向作为基准注视方向;再建立空间映射模型,设定基准注视方向与屏幕平面的交点为中心,划分出一定面积的视线约束范围,在该视线约束范围上进行二级视线追踪。该方法无需标定步骤,无需进行头动补偿,可实现真正的无约束视线追踪。

附图说明

图1为本发明的逻辑框图;

图2为非侵入式人脸眼部图像视频采集单元的实施方式1;

图3为非侵入式人脸眼部图像视频采集单元的实施方式2;

图4为瞳孔中心-内眼角眼动矢量;

图5为灰度积分函数与Snake模型定位瞳孔中心;

图6为定标过程图;

图7为二级视线追踪分类方法示意图。

具体实施方式

实施例1

如图1所示,一种基于人脸朝向约束的二级视线追踪方法,包括以下步骤:

(1)通过非侵入式的图像采集单元获取图像序列;

所述步骤(1)包含以下步骤:

(1.1)通过摄像头采集用户实时使用的图像,转化为256阶灰度图。

(1.2)采用颜色空间缩减策略,颜色空间缩减为原来的千分之一,减少计算冗余。

(1.3)使用双边滤波器,对图像保边去噪。

(1.4)灰度均衡化增强图像对比度。

人脸眼部图像采集单元是设置在使用者所观察的监控屏幕附近的摄像头,用于拍摄用户脸部区域,获取用户双目区域的图像。同时,用户无需佩戴任何辅助采集器。

本发明摄像头镜头设有红外滤光片,可滤除可见光波段,保留红外波段。摄像头感光元件CCD或CMOS可以对红外波段感光。摄像头镜头附近,布置红外LED光源阵列,成环状分布。可根据现实环境需要,通过PWM调制信号调节光源亮度。本发明可采用一个摄像头完成,亦可采用多个摄像头搭配,增强成像效果。

附图2是非侵入式人脸眼部图像视频采集单元的一种实施方式。其中包括了交互屏幕、摄像头、红外LED光源。摄像头的特点在于其能感光红外LED光源发出的红外波段光,其前端装有红外滤光镜片,其特征参数如截止频率等根据实际使用的LED光源和使用者距离等情况调整。举实例,当LED光源采用800nm波段以上的红外LED光源时,截止频率选择在800nm以上,通常的,带通型滤波比高通型滤波效果更好。

本发明实施例中虽然仅需一个摄像头、一个红外LED光源即可完成图像采样,但为了获得更高的图像信号质量,可采用多光源、多摄像头系统,分工搭配。如图3为非侵入式人脸眼部图像视频采集单元的另一种实施方式,本实例提供一个方案,摄像头1装有红外LED光源,用于拍摄广阔场景,捕捉人脸;摄像头2、3用于拍摄眼睛区域的高清图像,交互屏幕左上角和右上角各装有以红外LED光源。

(2)基于所述图像序列,在图像序列每一帧图像中,检测出人脸区域以及眼部区域图像信息。

(3)基于所述图像中的人脸区域,求解出人脸朝向,以人脸朝向作为射线方向,将该射线的方向定义为基准注视方向;

所述步骤(3)包含以下子步骤:

(3.1)在人脸区域上进行人脸特征点检测,标识出至少三个人脸特征点;

(3.2)基于机器学习回归方法,将三维标准人脸模型拟合到所述的人脸特征点上,从而使三维标准人脸模型覆盖到人脸区域上;

(3.3)基于所述三维标准人脸模型,从旋转矩阵中,通过公式(1)

求解出三维标准人脸模型的姿态角,从位移矢量中获得用户头部的空间坐标;

(3.4)以人脸上某特征点为端点作一射线,射线方向为所述姿态角向量的方向,该射线定义为基准注视方向。

所述人脸特征点包括眉毛、眼角、眼睑、鼻子、鼻梁和下巴。

本发明实施例通过基准注视方向检测子模块检测出人脸朝向,进一步地,即从二维图像序列文件中,获取三维的人脸姿态信息。通过机器学习的方法,使用人脸分类器检测出人脸区域,在该区域上标识出若干人脸特征点。在根据特征点,拟合三维标准人脸模型,获得人脸朝向。

(4)基于所述基准注视方向,将所述基准注视方向的射线与设备屏幕相交获得一个交点,将该交点作为基准注视点;

(5)基于所述基准注视点,以所述基准注视点为中心划定的一屏幕区域作为约束视场;

所述步骤(5)包含以下子步骤:

(5.1)设定摄像机坐标系与世界坐标系;

(5.2)固定交互屏幕,获得其世界坐标系参数;

(5.3)获得用户头部空间坐标;

(5.4)经立体几何运算,计算出所述基准注视方向射线和交互屏幕屏幕相交的一点,获得该点摄像机坐标系坐标;

(5.5)将交点的摄像机坐标系坐标(Xpc,Ypc,Zpc)经公式(2)转换为图像坐标系坐标(up,vp);

(5.6)以坐标(up,vp)为中心在交互屏幕上划定的一屏幕区域作为约束视场。

所述屏幕区域的大小为交互屏幕的1/4~1/10。约束视场大小取值和用户与交互屏幕之间的距离成正相关,通常情况下,距离屏幕越远,约束视场越大。论述的取值范围是经验值。另外,约束视场也与用户本身的反应能力,视场相关。本发明公开一种方法,即通过限定测试人员注视屏幕某点,然后逐步快速改变附近图案,通过询问测试人员是否获知注视点四周变化,即可测试出该实验人员的注视热区大小。实际上每个人的注视热区大小不一,本发明采用的是大量人群测试结果的中位值,具有普适性。

(6)基于所述约束视场,分析所述眼部区域图像信息,获得用户在所述约束视场上的注视区域。

所述步骤(6)包含以下子步骤:

(6.1)基于机器学习的方法,在人脸区域内,检测落在所述约束视场内的眼部区域;

(6.2)通过灰度积分函数,获得虹膜位置,然后基于Snake模型,分割人眼区域中的瞳孔边沿,并定位瞳孔中心;

(6.3)基于瞳孔中心与眼角之间的相对位置,构造瞳孔中心-内眼角眼动矢量(Δx,Δy);

(6.4)设用户在所述约束视场上注视点的坐标为(ux,uy),通过回归方法,构造二次多项式(3),从而获得ux和uy的值,即可得用户在所述约束视场上注视点坐标:

其中,a0、a1、a2、a3、a4、a5,b0、b1、b2、b3、b4、b5为系数。

系数具体获得方式:用户进入屏幕标定步骤。系统提示用户观测屏幕中均匀分布的注视点。每当用户观测时,系统录入当前用户眼动矢量以及注视点在屏幕的坐标代入式(3)中,组成超定方程组。通过机器学习优化方法,如最小二乘,计算其中各个系数。

本发明实施例通过二级视线追踪子模块检测眼动矢量。进一步地,本实施例中阐述的眼动矢量为瞳孔中心-内眼角向量,见附图4。首先,内眼角属于人脸特征点之一,已通过基准注视方向检测子模块获得。然后,通过机器学习方法,使用人眼分类器划分人眼区域。在人眼区域上,通过灰度积分函数,获得虹膜区域,再使用Snake模型分割出虹膜边缘,拟合出瞳孔中心,过程见附图5。然后,设置摄像机坐标系,世界坐标系,以脸上一点引出外延射线,与交互屏幕交于一点。

若采用回归的方法。用户将首先进入系统标定步骤,见附图6。首先,本发明系统将在后台中,构建出多项式回归模型,然后通过动画显示,诱导用户注视屏幕上若干特定位置的高亮点。当用户注视后,系统将记录该时刻用户的眼动矢量参数。当用户完成注视屏幕上所有高亮点后,通过最小二乘方法等数值优化方法,利用回归手段,求解得多项式系数。当标定过程结束后,保存该多项式为映射方程,结束标定步骤。然后系统将加载映射方程,系统通过实时采集用户眼动矢量,代入映射方程中,获得用户当前注视的交互屏幕坐标,并在交互屏幕上高亮显示,完成视线追踪功能。

实施例2

与实施例1不同的在于所述步骤(6)包含以下子步骤:

(6.1)基于机器学习的方法,在人脸区域内,检测落在所述约束视场内的眼部区域;

(6.2)通过灰度积分函数,获得虹膜位置,然后基于Snake模型,分割人眼区域中的瞳孔边沿,并定位瞳孔中心;

(6.3)基于瞳孔中心与眼角之间的相对位置,构造瞳孔中心-内眼角眼动矢量(Δx,Δy);

(6.4)通过分类方法实现:将所述约束视场划分为小区间,并对其进行编码。系统通过加载预先训练完成的人工神经网络,输入用户当前眼动信息以及头部姿态,即可输出当前用户注视热区。

若采用分类的方法,进一步地,即是将约束视场均匀等分为若干个带编码的小区域,在本实施例中,所述约束视场等分带编码的九宫格。该方法主要通过人工神经网络,对大量人群进行训练,建立了一个具有普适性,泛化性能优秀的注视区域分类器。神经网络通过输入大量眼动向量以及头部姿态信息,经训练后输出当前用户的注视区域,见附图7。本实施例中,所述的普适性人工神经网络将提前离线训练完成。当系统使用时,不需再次要求用户参与标定步骤,只需要直接加载该神经网络即可。系统实时输入用户的眼动信息以及头部姿态信息,即可输出用户注视区域,并利用交互屏幕高亮显示,完成视线追踪功能。

上列详细说明是针对本发明可行实施例的具体说明,该实施例并非用以限制本发明的专利范围,凡未脱离本发明所为的等效实施或变更,均应包含于本案的专利范围中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号