首页> 中国专利> 一种同时估计眼部视线和面部视线的视线估计方法

一种同时估计眼部视线和面部视线的视线估计方法

摘要

本发明涉及一种同时估计眼部视线和面部视线的视线估计方法,包括以下步骤:获取左眼图像、右眼图像和面部图像;分别对所述左眼图像、右眼图像和面部图像进行标准化坐标系处理;将标准化处理后的所述左眼图像、右眼图像和面部图像输入至视线评估模型,输出预测的眼部视线和面部视线;所述视线评估模型包括:特征提取层、特征信息转换层、第一特征交流层、第二特征交流层、第一全连接层和第二全连接层。本发明可以同时预测眼部视线和面部视线。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06V40/18 专利申请号:2022104845478 申请日:20220506

    实质审查的生效

  • 2022-08-30

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及视线估计技术领域,特别是涉及一种同时估计眼部视线和面部视线的视线估计方法。

背景技术

视线估计指的是以人眼图像或人脸图像为处理对象,估计人的视线方向或注视点位置的研究。按照处理对象的不同,可以分为眼部视线估计和面部视线估计。现有的方法将眼部视线估计和面部视线估计看成两个独立的任务,大多数工作只用眼部图像估计眼部视线或只用面部图像估计面部视线,还有部分工作同时用到了眼部图像和面部图像,但是它们依然只估计眼部视线或面部视线。

例如,Fisher等人同时使用眼部图像和面部图像估计视线,但是面部图像仅用于提取头部姿态信息,主要处理的是眼部图像,忽略了面部图像丰富的视线相关信息,模型的预测结果为眼部视线;Chen等人提出一种多区域空洞卷积的网络结构,对于眼部图像,额外增加了空洞卷积层提取特征,但是这种方法也只是将眼部特征作为面部特征的补充,模型的预测结果为面部视线。

Cai等人在iTracker的基础上,引入了多头自注意力(MHSA)模块,设计了iTracker-MHSA网络。如图1所示:先用三个不同的主干网络分别提取出左眼特征、右眼特征和面部特征,然后三个特征看成是长度为3的序列,计算这个序列的多头自注意力,将处理后的双眼特征先做融合,再拼接到面部特征上,用多个全连接层和ReLU激活函数预测出面部视线。

但多头自注意力模块足以充分交换眼部特征信息和面部特征信息,在该模块后做进一步的融合,会导致眼部的视线特征干扰面部视线特征的表示,使得面部视线特征包含无关噪声;此外,该方法只是简单的叠加了眼部信息,未根据眼部视线和面部视线的空间关系做进一步的约束,也没有用眼部视线真值直接约束眼部特征的表达。

发明内容

本发明所要解决的技术问题是提供一种同时估计眼部视线和面部视线的视线估计方法,可以同时预测眼部视线和面部视线。

本发明解决其技术问题所采用的技术方案是:提供一种同时估计眼部视线和面部视线的视线估计方法,包括以下步骤:

获取左眼图像、右眼图像和面部图像;

分别对所述左眼图像、右眼图像和面部图像进行标准化坐标系处理;

将标准化处理后的所述左眼图像、右眼图像和面部图像输入至视线评估模型,输出预测的眼部视线和面部视线;其中,所述视线评估模型包括:

特征提取层,用于对所述标准化处理后的所述左眼图像、右眼图像和面部图像进行特征提取,得到左眼标准化空间的左眼特征信息、右眼标准化空间的右眼特征信息和面部标准化空间的面部特征信息;其中,所述面部特征信息包括视线特征和面部表观特征;

特征信息转换层,用于将所述左眼标准化空间的左眼特征信息转换成面部标准化坐标系下的左眼特征信息,将所述右眼标准化空间的右眼特征信息转换成面部标准化坐标系下的右眼特征信息;

第一特征交流层,用于输入所述左眼标准化空间的左眼特征信息、右眼标准化空间的右眼特征信息和面部标准化空间的面部特征信息,得到第一眼部输出特征和第一面部输出特征;其中,所述第一眼部输出特征包括第一左眼输出特征和第一右眼输出特征;

第二特征交流层,用于输入所述面部标准化坐标系下的左眼特征信息、面部标准化坐标系下的右眼特征信息和面部标准化空间的面部特征信息,得到第二眼部输出特征和第二面部输出特征;其中,所述第二眼部输出特征包括第二左眼输出特征和第二右眼输出特征;

第一全连接层,用于输入第一眼部输出特征和第一面部输出特征,并分别输出预测的眼部标准化空间的眼部视线和面部标准化空间的第一面部视线;

第二全连接层,用于输入第二眼部输出特征和第二面部输出特征,并分别输出预测的面部标准化空间的眼部视线和面部标准化空间的第二面部视线。

所述分别对所述左眼图像、右眼图像和面部图像进行标准化坐标系处理具体为:

旋转真实相机坐标系,使得相机的z轴指向左眼中心,并保证所述相机的x轴和左眼坐标系的x轴共面;然后移动所述相机,使得所述相机和左眼的距离为预先设定的值,此时的相机坐标系称为左眼标准化坐标系;

旋转真实相机坐标系,使得相机的z轴指向右眼中心,并保证所述相机的x轴和右眼坐标系的x轴共面;然后移动所述相机,使得所述相机和右眼的距离为预先设定的值,此时的相机坐标系称为右眼标准化坐标系;

旋转真实相机坐标系,使得相机的z轴指向面部中心,并保证所述相机的x轴和面部坐标系的x轴共面;然后移动所述相机,使得所述相机和面部的距离为预先设定的值,此时的相机坐标系称为面部标准化坐标系。

所述视线评估模型的视线损失函数为:

所述视线评估模型还包括:个人身份全连接层,用于输入所述面部表观特征,输出预测个人身份编号。

所述视线评估模型的人脸识别损失函数为:

所述视线评估模型还包括:偏航角全连接层,用于输入所述第二左眼输出特征与第二右眼输出特征的差值,输出预测的面部标准化坐标系下左眼视线与右眼视线在偏航角上的差值。

所述视线评估模型的偏航角损失函数为:

所述视线评估模型还包括:俯仰角全连接层,用于输入所述第二左眼输出特征加上第二右眼输出特征再减去第二面部输出特征,输出预测的面部标准化空间下左眼视线俯仰角加上右眼视线俯仰角再减去面部视线俯仰角的值。

所述视线评估模型的俯仰角损失函数为:

有益效果

由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明增加了眼部视线真值,使得网络可以同时预测眼部视线和面部视线,同时考虑到不同标准化坐标系下视线的变化,设计了双通路的MHSA结构,使得视线真值和图像对应;本发明还从面部特征中分离出部分表观特征,用于人脸识别,利用注视时双眼视线和面部视线的空间几何关系,约束眼部特征和面部特征的表达,使得提取的特征更加准确有效。

附图说明

图1是现有技术中iTracker-MHSA网络结构示意图;

图2是本发明实施方式的流程图;

图3是本发明实施方式中视线评估模型的网络结构示意图;

图4是本发明实施方式中左眼中心标准化坐标系处理过程图;

图5是注视时左右眼视线和面部视线的关系图;

图6是俯仰角、偏航角和滚转角的示意图。

具体实施方式

下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种同时估计眼部视线和面部视线的视线估计方法,如图2所示,包括以下步骤:获取左眼图像、右眼图像和面部图像;分别对所述左眼图像、右眼图像和面部图像进行标准化坐标系处理;将标准化处理后的所述左眼图像、右眼图像和面部图像输入至视线评估模型,输出预测的眼部视线和面部视线。

其中,视线评估模型,如图3所示,包括:

特征提取层,用于对所述标准化处理后的所述左眼图像、右眼图像和面部图像进行特征提取,得到左眼标准化空间的左眼特征信息(记为第一左眼特征信息)、右眼标准化空间的右眼特征信息(记为第一右眼特征信息)和面部标准化空间的面部特征信息(包含视线特征和表观特征);

特征信息转换层,用于将所述左眼标准化空间的左眼特征信息转换成面部标准化坐标系下的左眼特征信息(记为第二左眼特征信息),将所述右眼标准化空间的右眼特征信息转换成面部标准化坐标系下的右眼特征信息(记为第二右眼特征信息);

第一特征交流层,用于输入所述左眼标准化空间的左眼特征信息、右眼标准化空间的右眼特征信息和面部标准化空间的面部特征信息,得到第一眼部输出特征和第一面部输出特征;其中,所述第一眼部输出特征包括第一左眼输出特征和第一右眼输出特征;

第二特征交流层,用于输入所述面部标准化坐标系下的左眼特征信息、面部标准化坐标系下的右眼特征信息和面部标准化空间的面部特征信息,得到第二眼部输出特征和第二面部输出特征;其中,所述第二眼部输出特征包括第二左眼输出特征和第二右眼输出特征;

第一全连接层,用于输入第一眼部输出特征和第一面部输出特征,并分别输出预测的眼部标准化空间的眼部视线和面部标准化空间的第一面部视线;

第二全连接层,用于输入第二眼部输出特征和第二面部输出特征,并分别输出预测的面部标准化空间的眼部视线和面部标准化空间的第二面部视线;

个人身份全连接层,用于输入所述面部表观特征,输出预测个人身份编号;

第一特征处理模块,用于将经过所述面部标准化空间MHSA层输出的第二眼部输出特征中的左眼特征减去右眼特征,得到第一处理特征;

偏航角全连接层,用于输入所述第二左眼输出特征与第二右眼输出特征的差值,输出预测的面部标准化坐标系下左眼视线与右眼视线在偏航角上的差值;

俯仰角全连接层,用于输入所述第二左眼输出特征加上第二右眼输出特征再减去第二面部输出特征,输出预测的面部标准化空间下左眼视线俯仰角加上右眼视线俯仰角再减去面部视线俯仰角的值。

本实施方式设计了一个同时预测眼部视线(Eye Gaze)和面部视线(Face Gaze)的网络——EFGaze(即本实施方式的视线评估模型)。其主要的改进包括:增加了眼部视线真值,使得网络可以同时预测眼部视线和面部视线;考虑到不同标准化坐标系下视线的变化,设计了双通路的MHSA结构,使得视线真值和图像对应;另外,从面部特征中分离出部分表观特征,用于人脸识别;利用注视时双眼视线和面部视线的空间几何关系,约束眼部特征和面部特征的表达,使得提取的特征更加准确有效。根据上述改进,可以构造不同的损失函数,具体设计如下:

1、视线损失函数(Loss gaze)

本实施方式中取左眼内眼角和外眼角的中点为左眼中心,右眼内眼角和外眼角的中点为右眼中心,左右眼四个眼角和两个嘴角共六个点的中心为面部中心。

眼部图像和面部图像在输入EFGaze网络之前需要做进行标准化坐标系处理,如图4所示,具体的,首先旋转真实相机坐标系,使得相机的z轴指向左眼中心,并保证相机的x轴和左眼坐标系的x轴共面;然后移动相机,使得相机和左眼的距离为预先设定的值,此时的相机坐标系称为左眼标准化坐标系。同样的方法,使相机的z轴分别指向右眼中心和面部中心,可以得到右眼标准化坐标系和面部标准化坐标系,具体为:

旋转真实相机坐标系,使得相机的z轴指向右眼中心,并保证所述相机的x轴和右眼坐标系的x轴共面;然后移动所述相机,使得所述相机和右眼的距离为预先设定的值,此时的相机坐标系称为右眼标准化坐标系;

旋转真实相机坐标系,使得相机的z轴指向面部中心,并保证所述相机的x轴和面部坐标系的x轴共面;然后移动所述相机,使得所述相机和面部的距离为预先设定的值,此时的相机坐标系称为面部标准化坐标系。

将左眼标准化坐标系下的左眼图像、右眼标准化坐标系下的右眼图像和面部标准化坐标系下的面部图像输入到EFGaze中,经过主干网络(即特征提取层)提取出对应的特征

然后将两个MHSA通路处理后的眼部特征和面部特征经过多个全连接层和ReLU激活函数后,分别输出预测的眼部视线和面部视线。计算这些预测的视线和对应真值的L1损失函数,得到视线损失函数:

其中,

2、人脸识别损失函数(Loss person id→Loss pid)

对于主干网络从面部图像分离出的面部特征,除了用于视线估计的

其中,N表示样本的个数,M表示类别数,y

3、偏航角损失函数(Loss yaw)

当人在注视某个物体时,左右眼视线和面部视线满足一定的空间几何关系,如图5所示,g

图6是俯仰角(pitch)、偏航角(yaw)和滚转角(roll)示意图,结合图5和图6,可以发现,左眼视线和右眼视线的俯仰角相同,仅偏航角不一样,根据这个特性,本实施方式设计了偏航角损失函数。如图3所示,将面部标准化空间MHSA通路输出的左眼特征减去右眼特征,再经过多个全连接层和ReLU激活函数,预测面部标准化空间下左右眼视线偏航角的差,其偏航角损失函数为:

其中,

4、俯仰角损失函数(Loss pitch)

由于面部视线在左眼中心,右眼中心和物体点构成的三角形的投影为这个三角形过物体点的中线,所以左右眼视线的和与面部视线的偏航角相同,仅俯仰角不一样,根据这个特性,设计了俯仰角损失函数。如图3所示,将面部标准化空间MHSA通路输出的左眼特征加上右眼特征再减去面部特征,再经过多个全连接层和ReLU激活函数,预测面部标准化空间下左右眼视线和与面部视线俯仰角的差,其俯仰角损失函数为:

其中,

5、总损失函数

本实施方式中的视线评估模型的总损失函数为上述四个损失函数的和,即:Losstotal=Loss gaze+Loss pid+Loss yaw+Loss pitch。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号