首页> 中国专利> 利用在线形状回归方法的高效面部界标跟踪

利用在线形状回归方法的高效面部界标跟踪

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

某些示例公开了对用于实时应用的形状回归技术的多种修改，以及利用得到的面部界标跟踪方法的方法、系统和机器可读介质。

著录项

公开/公告号CN105981075A

专利类型发明专利
公开/公告日2016-09-28

原文格式PDF
申请/专利权人英特尔公司;
展开▼

申请/专利号CN201480062521.8
发明设计人姚安邦;杜杨洲;童晓峰;王涛;陈玉荣;李建国;叶剑波;李文龙;张益民;
展开▼

申请日2014-12-12
分类号G06T7/20(20060101);
代理机构72001 中国专利代理(香港)有限公司;
代理人李啸;姜甜
地址美国加利福尼亚州
入库时间 2023-06-19 00:37:07

法律信息

法律状态公告日

法律状态信息

法律状态
2019-11-12

授权

授权
2016-10-26

实质审查的生效 IPC(主分类):G06T7/20 申请日:20141212

实质审查的生效
2016-09-28

公开

公开

说明书

优先权申请

本申请要求提交于2013年12月13日的序列号为14/106,134的美国申请的优先权权益，其通过引用以其整体并入本文。

技术领域

实施例属于面部界标跟踪。某些实施例涉及利用在线形状回归的面部界标跟踪。

背景技术

准确地标识面部界标的位置(例如，眼、鼻、口或颏)对于面部表情识别、面部跟踪、3D建模等是重要的。例如，视频虚拟形象(avatar)聊天程序可使用制作的“虚拟形象”，其为计算机化的人物，模仿聊天参与者的面部移动。如果聊天中的人向右移动其头部，虚拟形象的头部也向右移动。虚拟形象可定义为图标或形象，表示计算机游戏、互联网论坛、视频聊天等中特定的人。该虚拟形象聊天程序利用面部界标检测来提取人的面部特征，然后使用该数据制作虚拟形象。

附图说明

在附图中，其不一定按比例绘制，相同数字可描述不同视图中的相似组件。具有不同的字母后缀的相同数字可表示相似组件的不同实例。总体上附图以示例的形式而非以限制的形式说明了本文档讨论的多种实施例。

图1为根据本公开在实时应用中利用形状回归技术的某些示例的方法的流程图。

图2示出了根据本公开某些示例的表示性跟踪结果的线型图。

图3为根据本公开某些示例的用于抑制轻微抖动和暂时漂移的基于面部组成部分的滤波的方法的流程图。

图4示出了根据本公开某些示例训练形状回归量的方法的流程图。

图5示出了根据本公开某些示例的通过两个SIIF的广义决策树的基于树的分区结构。

图6示出了根据本公开某些示例的表示形状回归结果的线型图。

图7A示出了根据本公开某些示例描述离线学习的方法的流程图。

图7B示出了根据本公开某些示例的注册方法的流程图。

图7C示出了根据本公开某些示例的在线重定位的方法的流程图。

图8示出了根据本公开某些示例的示例面部检测系统的示意图。

图9为说明根据本公开某些示例可实现一个或多个实施例的机器示例的框图。

具体实施方式

一种用于面部界标检测的方法可包括“显式形状回归”技术，描述于Xudong Cao，Yichen Wei，Fang Wen和Jian Sun的论文“显式形状回归的面部对齐”，2012年计算机视觉和模式识别(CVPR)的IEEE会议。总体而言，显式形状回归方法使用两级级联的方法以由粗到细的方式增量更新面部形状估计。最终回归量包含一组原始回归量并且通过以全局方式明确最小化训练数据中的对齐误差来学习-所有面部界标在向量输出中共同回归。为训练每个向量原始回归量，决策树(fern)用于划分训练数据的特征空间。为提高效率，形状索引图像特征(SIIF)在决策树中使用。一旦形状回归量被训练，给定新的面部图像(其中面部包围盒已知)和初始面部形状(例如，训练数据中的平均形状)，最终形状可通过对初始面部形状和按序获取自查找各自原始回归量的每个形状增量进行求和来计算。

上述显式形状回归方法实际仅应用于静态图像，其中面部形状包围盒为可用(例如，通过手工标签)。该缺点防止方法直接使用于处理实时面部界标点跟踪，其在视频应用是关键的，诸如虚拟形象视频聊天。附加地，方法具有的问题是，当训练面部形状在每个原始回归量递增时，关联于训练样本的对齐误差落入决策树的一个特定箱(bin)(F个特征和各自阈值的结合-其中原始形状回归方法中为F＝5)，其直接作用于整个面部形状更新而不考虑决策树通常仅关联于面部形状中面部界标点的有限部分。决策树执行相对于每个特征和对应阈值的训练数据的二进制划分。即，在大的训练数据集(例如，上万个样本)利用决策树将仅获取粗略而非密集的特征空间的划分。该缺点限制了方法在多个应用的可用性。

公开了对形状回归技术的多种修改用于实时应用，以及利用得到的面部界标跟踪方法的方法，系统和机器可读介质。

在实时跟踪情况下利用形状回归

在某些示例公开了方法、系统和机器可读介质，其以合并方式利用几何和时间线索以执行上述形状回归算法，用于实时跟踪情况。在某些示例，在初始步骤期间用户的面部区域最初利用离线训练的面部分类器进行检测。在相对于面部界标点的空间布局结构调整检测的面部区域之后，几何和时间线索可共同用于使离线训练形状回归量能够在线实时跟踪面部界标点。对离线训练形状回归量的示例改进包括：利用离线训练面部分类器检测用户的面部区域，然后进一步根据面部界标点的空间布局结构修改面部区域；利用几何和时间线索在连续帧中保证面部界标点的精确跟踪；在变换后的面部形状空间运行离线训练形状回归量，后变换结果至原始图像空间；从时刻T-1的跟踪面部界标点直接推算时刻T的压缩面部形状区域，然后使用时刻T的离线训练形状回归量的开始值作为训练数据中面部界标点的平均位置。

现在转到图1，示出了根据本公开的某些示例的在实时应用中利用形状回归技术的方法1000的流程图。在操作1010中，离线训练面部分类器重复地运行直到其成功检测出现于图像的用户面部。训练自boosting(增压)算法的示例面部分类器包括来自开源计算机视觉库(Opencv)的面部分类器。例如，“haarcascade_frontalface_alt.xml”和“haarcascade_profileface.xml”。面部分类器输出包围盒，其表示面部位置。由于检测的面部区域不具有与正则化面部形状相同的几何结构(例如，其可被缩放、旋转、倾斜、部分遮挡等)，直接使用离线训练形状回归量可能无法获取对面部界标点的精确检测。给定面部分类器和形状回归量，对检测的面部区域大小的固定调整通过统计其几何结构之间对应关系执行。为此，在操作1020，形状包围盒通过调整检测的面部区域被获取以填充检测的区域，以保证我们捕获整个面部。在操作1030，变换被计算以正则化形状包围盒中的面部以考虑大小变化和旋转。在操作1040，未正则化面部区域利用计算的变换被正则化。一旦面部被正则化，在操作1050，面部界标在正则化形状中利用离线形状回归量计算。在操作1060，原始图像中的界标点通过在输出自离线形状回归量的面部界标点上执行逆变换来获取。

当面部形状初始化完成时，检测的面部界标点位置然后用于计算下一帧中新的形状包围盒。该概念为，由于视频的最慢帧率为大约每秒20帧，超过1/20秒的面部运动是慢的，因此从一帧到下一帧的面部界标的位置和面部包围盒将较为接近。在操作1070，新的形状包围盒利用时刻T-1的跟踪结果计算。该过程类似地重复于图1右侧部分所示(操作1070-1110)的后续帧。时刻T的帧中新的形状包围盒被计算为时刻T-1的帧中跟踪的面部界标点的最小前向外接矩形。包围盒形状以相同的填充比率扩展用于当训练形状回归量时修剪面部形状样本。在操作1080，变换参数再次被计算至缩放、旋转和面部大小的因素。在操作1090，填充形状区域根据变换参数来变换，以生成正则化面部。例如，其被缩放以具有与正则化面部形状样本相同的大小。离线训练形状回归量然后在变换形状区域的操作1100使用，以检测该区域的面部界标点。在某些示例，在训练数据上计算的平均面部界标点位置作为时刻T的帧中的离线训练形状回归量的开始值。其抑制了当利用时刻T-1的帧中跟踪的面部界标点作为开始值时产生的可能的误差累积和突发漂移。在操作1110，时刻T的帧中最终界标点位置由缩放形状区域中的检测结果的逆变换获取。

在时刻T的帧，令(W_p，H_p)和(W_n，H_n)分别表示填充形状区域S_p和正则化面部形状S_n的宽度和高度，标量因子s计算为：

$> s = m i n (\frac{W n}{W p}, \frac{H n}{H p})$ >

令(cx_p，cy_p)和(cx_t，cy_t)分别为S_p和变换后S_p的中心的坐标，令(px_t，Py_t)为变换S_p的界标点的检测坐标，S_p中对应坐标(px_p，Py_p)计算为：

$> {px}_{p} = \frac{({px}_{t} - {cx}_{t})}{s} + {cx}_{p}$ >

$> {py}_{p} = \frac{({py}_{t} - {cy}_{t})}{s} + {cy}_{p}$ >

在其它示例，精确度较低，但更直接的方法可被利用，其中离线训练形状回归量经由逆变换运行于填充形状区域。

通过在操作1120递增T至下一帧，在1070-1110的操作可被重复用于时刻T的后续帧，然后重复操作1070-1110直到面部界标跟踪完成。

在某些示例，形状回归跟踪器使用34个点形状回归量。该跟踪器在各种实时情况以及大量记录的视频数据被广泛测试。其性能特别出色。其可较好地处理常见的面部表情(例如，微笑和惊讶)，较大的姿态变化(例如，约[-30，+30]度偏航角，[-15，30]度俯仰角和[-15，+15]度翻滚角)以及其他挑战性情况，诸如戴眼镜。图2示出了根据本公开某些示例的表示性跟踪结果的线型图。该线型图近似面部的屏幕快照，覆盖已检测的跟踪点。在图2，最初检测的面部界标点示出为“X”标记，而跟踪结果示出为点。

用于在线形状回归的基于面部组成部分的滤波

尽管以上公开的方法可在挑战性情况下跟踪面部界标点，当面部对象遇到少数表情或姿态变化时，两个连贯帧的结果可表现轻微抖动。某些面部界标点当其被部分地阻挡时还可暂时漂移(主要由于较大的姿态变化)。结果，动画交互可不够理想，其可降低在作为虚拟形象视频聊天的应用期间的用户体验质量。

在某些示例公开了用于降低该抖动的系统、机器可读介质和方法。该系统使用基于面部组成部分的滤波方法，其通过重要性驱动滤波过程递归地合并当前帧(在时刻T)和先前帧(在时刻T-1)中先前公开的在线形状回归算法的结果。在该方法，面部形状被划分为某些组成部分的组，其面部界标点通过测量在连续两帧之间的其几何相似性而独立地平滑。该方法示出了抑制轻微抖动和暂时漂移的较好的能力，并且为在面部界标应用中达到充分稳定的动画交互而打下坚实的基础。

特别地，该方法相关于空间相关性和跟踪稳定性将面部组成部分划分为不同的组。当过滤每个组的跟踪结果时，其利用连续两帧的跟踪的面部界标点位置之间的几何相似性来实现重要性驱动滤波。利用该方法，充分稳定的面部界标点跟踪可被持续提供。

通常使用的滤波方法诸如中值滤波和平均滤波通常使用包含于一组在前帧和在后帧的信息(总体上，做出精确预测不是一个简单任务)。然而，公开的方法仅使用包含于两个最相关帧的信息(称为时刻T的当前帧和时刻T-1的先前帧)，因此其不需要预测。与将面部界标点共同处理的可用滤波方法完全相反，公开的方法的面部界标点被划分为某些组，并且连续两帧中的跟踪的面部界标点位置之间的几何相似性用于实现更鲁棒的滤波。该方法将作为改进的面部界标方法的不可缺少的模块，诸如改进的虚拟形象视频聊天系统。

该滤波方法在不同的面部组成部分的组独立地执行滤波。其当跟踪面部组成部分诸如眼和嘴的界标点时产生了更稳定的性能。在跟踪稳定性之外，组划分中面部组成部分的空间相关性被考虑。理论上，每个面部组成部分的组仅包含一个或某些邻近的面部组成部分。例如，在34个点的形状回归跟踪器中，面部界标点可划分为两个组(例如，嘴上的界标点和眉+眼+鼻的其他界标点)。

几何相似性可用于连续两帧中的跟踪的面部界标点位置之间，以实现重要性驱动滤波。给定面部组成部分的组S，令{P_T(x_i，y_i)}_{i＝1，...，N}和{P_T-1(x_i，y_i)}_{i＝1，...，N}为在时刻T和T-1的跟踪的界标点位置，各参考点位置(P_T(X_r，Y_r)和P_T-1(X_r，Y_r)被合适地确定，并且其用于测量几何相似性。在某些示例，参考点位置计算自组中最稳定界标点的位置。例如，在34个点的形状回归跟踪器中，参考点被选择为线段中点，其连接眼的两个内角点和嘴的两个角点。为测量{P_T(x_i，y_i)}_{i＝1，...，N}和{P_T-1(x_i，y_i)}_{i＝1，...，N}之间的全局几何相似性ρ，面部界标点到参考点的各个距离和首先根据下式计算：

$> d_{T} = Σ_{i = 1}^{N} | | P_{T} (x_{i}, y_{i}) - P_{T} (x_{r}, y_{r}) | |,$ >

然后ρ计算为

$> ρ = m i n (\frac{d_{T}}{d_{T - 1}}, \frac{d_{T - 1}}{d_{T}})$ >

从以上等式，可以看出，全局几何相似性ρ具有清晰的物理意义。当ρ值较大时，其表示连续两帧之间的跟踪的界标点位置表现较小的变化(轻微抖动可能出现)，否则变化较大(暂时漂移有时可发生)。根据以上分析，在面部组成部分的组S中界标点的位置滤波由下式执行：

P_T(x_i，y_i)＝aP_T(x_i，y_i)+(1-a)P_T-1(x_i，y_i)其中0≤a≤1

当ρ值小于给定阈值(例如，0.8)时，a的选择可大于0.5，暗示当前帧中的跟踪的面部界标点位置在滤波结果中比其在先前帧贡献更多的部分，否则a的选择可小于0.5。因此，重要性驱动滤波被实现。

在该方法中，仅当前帧(在时刻T)和先前帧(在时刻T-1)跟踪的最相关信息用于滤波。即，该方法不需要预测。面部界标点相对于空间相关性和跟踪稳定性被分类为某些组，每个组被独立地滤波。在滤波结果中，连续两帧中跟踪的面部界标点位置的贡献通过测量几何相似性来合适地确定。滤波还由重要性驱动。

图3为根据本公开某些示例用于抑制轻微抖动和暂时漂移的基于面部组成部分的滤波的方法3000的流程图。在操作3010，对于时刻T的当前帧，利用在线形状回归技术跟踪面部界标点。在操作3020，对于每个组成部分的组(例如，鼻、眼、耳等)参考点位置被计算。在操作3030，对每个组，界标点至参考点的距离和被计算。在操作3040，时刻T和T-1界标位置之间的几何相似性被计算。在操作3050，基于重要性的滤波被应用，其导致在当前帧中输出过滤的界标点位置。

用于形状回归的选择性更新和广义决策树

在线形状回归方法使用级联回归量以由粗到精方式增量更新面部形状(一组面部界标点)。然而，当在每个原始回归量训练面部形状增量时，关联于落入决策树的一个特定箱(bin)(F个特征和各阈值的结合，其中F＝5用于传统模型)的训练样本的对齐误差直接作用于整个面部形状更新，而不考虑决策树通常仅与面部形状中面部界标点的有限部分相关的事实。此外，决策树相对于每个特征和对应阈值执行训练数据的二进制划分。即，在大的训练数据集(例如，上万个样本)利用决策树将仅获取粗略而不密集的特征空间划分。该缺点可直接影响原始方法的精确度。

为解决上述问题，公开了应用选择性更新和广义决策树来改进原始形状回归方法的精确度的方法、系统和机器可读介质。选择性更新引入更可靠的方式来计算每个原始回归量中的面部形状增量，避免由于整个面部形状更新的误差。广义决策树可灵活执行任何级别的训练数据集划分。该形状回归方法克服了原始方法的缺点，并在实时应用中表现良好，诸如虚拟形象视频聊天应用。

原始形状回归方法使用整个面部形状更新，其可容易引入不希望的对齐误差，因为每个原始回归量的决策树通常仅与面部形状中面部界标点的有限部分相关。此外，大量训练数据的密集划分无法被获取，因为决策树仅可相对于每个特征和决策树中的对应阈值来执行二进制划分。

本文公开的形状回归方法不仅通过利用选择性更新策略避免了上述误差，而且通过应用广义决策树执行大量训练数据集的充分密集划分。该技术特别用于改进原始方法的精确度。

显式形状回归的基本框架为两级级联回归。第一级回归以加法合并一组弱回归量{S₁，S₂，...，S_T}，设计以编码较大的面部形状变型。在第二级回归，每个弱回归量S_t定义为一组原始回归量{S_t1，S_t2，...，S_tK}的加法组合，意图编码少数面部形状变型。给定面部图像I和初始面部形状S₀，最终回归的面部形状S可表示为：

$> s = S_{0} + Σ_{t = 1}^{T} Σ_{k = 1}^{K} Δ (S_{t k}, I),$ >

其中Δ(S_tk，I)表示运行原始回归量S_tk的步骤中迭代获取的面部形状增量。给定训练数据集，原始回归量S_tk的面部形状增量学习自通过F个形状索引图像特征(SIIF-关联于两个界标点的两个像素的亮度差)和各自阈值的结合而定义的决策树。决策树将训练数据集由基于树的二进制比较划分为2^F个箱。在原始离线形状回归技术中，关于决策树的第i个箱的面部形状增量估计为：

$> {ΔS}_{t k} (i) = \frac{Σ_{j \in A_{i}} ({\hat{S}}_{j} - S_{j})}{| A_{i} |}$ >

其中A_i表示训练样本落入第i个箱，和S_j分别表示A_i中第j个训练样本的地面实况面部形状以及先前步骤估计的面部形状。从该等式，显然原始方法使用整个面部形状更新。然而，决策树通常仅与面部形状中的面部界标点的有限部分(例如，在先前的离线形状回归模型中，决策树仅包含5个像素对，因此其最多关联于10个面部界标点)相关。因此，不希望的误差可引入估计的面部形状增量Δ(S_tk，I)。

在某些示例，为解决该问题，可使用包含选择性更新的技术。在该方法中，估计的面部形状增量主要包含关联于决策树的面部界标点的误差。理论上，仅关系到包含与决策树具有相关性的面部界标点的面部组成部分的界标点误差被编码于面部形状增量。如上所述，决策树包含5个像素对并且最多关联10个面部界标点。即，仅包含用于决策树的面部界标点的面部组成部分的界标点误差(计算自上述等式)是可靠的。其他所有都是不可靠的并且设置为零。

以这种方式，我们获取更精确的级联形状回归量。另一方面，给定SIIF和其阈值，决策树仅执行训练数据集的二进制划分。然而，关联于两个面部界标点的两个像素的亮度差可能落入多个间隔，因为训练数据集的较大变化，尤其在大量训练数据集上。在这种情况下，训练数据集的更密集的划分对实现更精确的面部形状增量估计是关键的。为此，公开了一种广义决策树，其可利用具有k个阈值而非单个阈值的SIIF执行训练数据集的密集划分(其中k＞1)。给定SIIF，k个阈值可简单地相对于训练数据集中各亮度差的分布而确定。

总之，代替二进制比较(如在原始方法中)，该方法利用k个阈值划分决策树。如前所述，在训练过程中，给定SIIF(关联唯一面部界标点对)，训练数据集中每个面部界标点的平均亮度值首先被计算。如果我们用m₁和m₂表示得到的平均值，则阈值t_i可简单地计算为t_i＝(m₁-m₂)*i/K，其中i＝1，...，K。

图4示出了根据本公开某些示例训练形状回归量的方法4000的流程图。在操作4010，利用包括面部图像的训练数据、相应面部包围盒和地面实况形状，训练样本被正则化并且训练参数被设置。例如，T和K的值被设置。示例T值包括10。示例K值包括256。在操作4020，对于训练样本随机生成初始形状。在操作4030，执行基于相关性的特征选择过程以选择F个SIIF的T个组。在操作4040，每个原始回归量利用广义决策树和选择性更新来训练。操作4030和4040被重复，直到迭代的数量等于T*K。F个SIIF的每个组用于训练K个原始回归量。在操作4050，所有训练的原始回归量被按序分组以获取最终回归量。一旦最终形状回归量被训练，给定面部图像(其中面部包围盒为已知)和初始面部形状(我们选择其为训练数据中的平均形状)，最终形状可通过将初始面部形状和按序获取自各原始回归量的查找的每个形状增量求和来计算。

图5示出了根据本公开某些示例的两个SIIF中广义决策树的基于树的划分结构。注意，训练数据集的任何级别的划分可由k值的改变而实现。最终，我们通过将选择性更新和广义决策树整合至原始方法而获取增强的形状回归方法。

在示例应用中，诸如虚拟形象视频聊天应用，可使用34个点形状回归量，其在包含数万个面部形状样本的大数据集中被训练。该形状回归量显示了有益的能力来处理部分遮挡，以及面部表情/姿态/光照变化。图6示出了线型图，显示了根据本公开某些示例的代表性形状回归结果。该线型图近似面部的屏幕快照，以检测的跟踪点覆盖。在图6，“X”标记置于检测的面部界标上方。

用于面部表情重定位的数据驱动方法

面部界标标识的一个示例实现为其面部界标的使用，以仿真制作的模型。例如，制作虚拟形象。先前解决方案需要高质量的基于标记的可视跟踪输出或使用特定用户规则以驱动虚拟形象制作。

在某些示例公开了方法、系统和机器可读介质，其使用基于照相机的无标记面部跟踪技术以重定位一般用户的表情至虚拟形象模型。该方法使用特别设计的数据驱动方法，以生成实时运行的稳定和高保真的面部动画。简言之，该方法利用训练数据集并学习从非语义跟踪参数到语义面部表情的鲁棒映射，成功地解决虚拟形象制作中的面部运动重定位问题。在某些示例，该系统利用包含一组具有不同面部形状的主体的典型面部表情的数据集。

该数据集可用于学习由于面部形状的人际差异以及由于面部表情的本人差异的距离度量。对于新用户，他或她的特定面部表情基在注册阶段被估计，而混合形状系数在面部表情重定位阶段基于预先学习的距离度量而预测。

该方法可在一般面部映射中生成鲁棒结果，即使在可视跟踪输出低维度和噪声的情况。附加地，由于大部分现有的解决方案主要基于特定用户规则，该系统通过简单的启动步骤对一般用户运行相当良好。新用户仅需要几秒在系统中注册中性面部。从此以后，系统可通过动画虚拟形象模仿用户的面部运动。

监督度量学习方法用于获取原始跟踪数据的最佳线性变换以及数据驱动模型以预测注册的用户的面部表情。附加地，制作者训练框架独立于潜在的面部跟踪器和可视跟踪输出。不需要来自跟踪引擎的任何跟踪语义，因为其通过采样数据集学习表情语义。

在离线学习期间，目标是学习两个距离度量，M_o和M₁。M_o设计为用于测量人际差异，即区分不同的主体同时最小化其他因素。相反，M₁设计为用于测量本人差异，即区分不同的面部表情同时去除其他变型。为学习M_o和M₁，主体的组被收集并且其每个示出了一组预定义面部表情。我们令表示训练数据集中第j个主体的第i个表情的表情向量。特别地，i＝0被保存用于中性面部表情。给定该数据集，标准度量学习方法可用于获得M_o和M₁，例如，在我们的实现中，我们使用线性判别分析(LDA)。注意，M_o将在用户注册阶段扮演角色，同时M₁将在在线面部表情重定位阶段扮演角色。

现在转到图7A，示出了根据本公开某些示例的描述离线学习的方法的流程图。在操作7010，具有预定义表情的一组主体的面部形状被收集。在操作7020，距离度量M_o被计算以区分不同的主体。在操作7030，距离度量M₁可被计算。度量M_o和M₁可通过监督距离度量学习方法计算，例如，线性判别分析(LDA)。

在制作之前，可能需要新用户捕获他/她的中性面部并且该形状被期望表示为凸面约束中的线性组合其中为训练集的中性面部形状，即

$> (\begin{matrix} \underset{w}{m i n} | | P_{0}^{*} - Σ w_{j} P_{0}^{j} | |_{M_{0}} & s . t . & w_{j} \geq 0, Σ w_{j} = 1 \end{matrix})$ >

注意其为距离度量M_o下的约束的二次编程(QP)。一旦w_j在注册阶段被求解，新用户的其他面部表情基可预测为：

$> P_{i}^{*} = Σ w_{j} P_{i}^{j}$ >

在不充分和低质量数据采集的情况下，其中远离通过训练示例而跨越的线性空间，上述公式将无法给出合理的预测。作为可选的解决方案，径向基函数(RBF)可用于进行预测。RBF的基通过下式给定：

$> Φ_{j} (P_{0}^{*}) = e^{- | | P_{0}^{*} - P_{0}^{j} | |_{M 0}^{2} / 2 σ^{2}}$ >

RBF回归通过利用训练集中已有的面部形状对每个面部表情基执行。结果，我们获得回归系数作用于第i个面部表情基的第j个RBF基。新用户的面部表情基将通过RBF回归函数预测：

$> P_{i}^{*} = Σ w_{j}^{i} Φ (P_{0}^{*})$ >

通过约束线性回归的RBF回归的主要优点在于，准备训练数据集更具有灵活性。利用RBF回归框架，标记数据不需要一致，即不同的表情可来自不同的主体，只要中性表情包括于每个主体记录。

图7B示出了根据本公开某些示例的注册方法的流程图。在操作7040，新用户的中性面部被捕获。在操作7050，利用该中性面部和M_o，系统对新用户预测面部表情基。

一旦系统已学习，并且新用户被注册，系统可利用混合形状制作框架开始在线重定位。

$> (\begin{matrix} \underset{b}{m i n} | | P^{*} - Σ b_{i} P_{i}^{*} | |_{M_{1}} & s . t . & b_{i} \geq 0, Σ b_{i} \leq 1 \end{matrix})$ >

其中P^*为来自照相机的在线可视跟踪输入而b_i为作用于面部表情基的混合系数。混合形状制作基础预先由艺术家定义并且执行的制作P^*被期望利用约束的混合系数b_i表达为P^*的线性组合。该形式仍为二次编程(QP)形式，但提交至距离度量M₁。

图7C示出了根据本公开某些示例的在线重定位的方法的流程图。在操作7060，系统收集当前面部形状P^*的可视跟踪输出。在操作7070，利用P^*、和M₁，系统可利用受限的QP执行面部重定位。在操作7080，系统可执行在线重定位。

示例系统描述

图8示出了根据本公开某些示例的示例面部检测系统的示意图。面部图像的视频由图像捕获设备8010捕获。图像捕获设备8010可包括视频摄像机、网络照相机或其他图像捕获设备。图像捕获设备8010可集成于计算设备8020或显示器设备8080或(如所示出)可通信地耦合于任一者。计算设备8020可为能够配置以执行本文描述的方法的任何计算设备，示例计算设备包括桌面计算机、膝上型计算机、平板计算机、智能电话、蜂窝电话、上网本、超极本TM、混合设备等。计算设备8020可包括一个或多个模块。例如，计算系统可包含面部分类器模块8030，其可从视频捕获设备8010发送的视频帧检测面部区域，用于在线形状回归模块8040。在线形状回归模块8040可使用面部区域利用先前说明的离线训练的形状回归量检测图像中的面部界标点。抖动补偿模块8050可利用较早讨论的基于面部组成部分的滤波技术补偿抖动和暂时漂移。形状回归训练模块8060可利用较早讨论的方法训练离线形状回归模块。最终，面部表情重定位模块8070可转换面部界标为显示器8080上的表示，诸如制作的虚拟形象。

图9说明了示例机器9000的框图，其中本文讨论的技术(例如，方法)的任何一个或多个可在其上执行。在可选的实施例，机器9000可操作为独立设备或可连接(例如，网络化)于其他机器。在网络化部署中，机器9000可操作于服务器机器、客户端机器或服务器-客户端网络环境中的两者的能力。在一个示例中，机器9000可作为对等(P2P)(或其他分布式)网络环境中的对等机器。机器9000可为个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、网络电器、网络路由器、开关或网桥或能够执行指定机器所采取的动作的指令(按序或其他方式)的任何机器。进一步，尽管仅说明了单个机器，术语“机器”还应视为包括任何机器集合，其单独或共同执行指令集(或多个指令集)，以执行任何本文讨论的方法的一个或多个，诸如云计算、软件即服务(SaaS)、其他计算机集群配置。

如本文描述的示例可包括或可操作于逻辑或多个组件、模块或机构。模块为有形实体(例如，硬件)，能够执行指定操作并可以特定方式配置或设置。在一个示例中，电路可以指定方式设置为模块(例如，在内部或相对于外部实体诸如其他电路)。在一个示例中，一个或多个计算机系统(例如，独立、客户端或服务器计算机系统)或一个或多个硬件处理器的整体或一部分可由固件或软件配置(例如，指令、应用部分或应用)为模块，其操作以执行指定操作。在一个示例中，软件可位于机器可读介质。在一个示例中，当由模块的底层硬件执行时，软件使硬件执行指定操作。

因此，术语“模块”理解为包含有形实体，即物理构造的实体，特别配置(例如，硬连线)或暂时(例如，暂态地)配置(例如，编程)为操作于指定方式或执行本文描述的任何操作的部分或全部。考虑模块被暂时配置的示例，每个模块不需要在任一时刻进行例示。例如，在模块包括利用软件配置的通用硬件处理器时，通用硬件处理器可在不同的时间配置为各自不同的模块。软件因此可将硬件处理器，例如配置为在一个时间实例组成特定模块并在不同的时间实例配置为组成不同的模块。

机器(例如，计算机系统)9000可包括硬件处理器9002(例如，中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核或任何其组合)，主存储器9004和静态存储器9006，其某些或全部可经由互联(例如，总线)9008相互通信。机器9000在某些配置可包括一个或多个互链和一个或多个总线。机器9000可进一步包括显示器单元9010、字母数字输入设备9012(例如，键盘)和用户界面(UI)导航设备9014(例如，鼠标)。在一个示例中，显示器单元9010、输入设备9012和UI导航设备9014可为触摸屏幕显示器。机器9000可附加地包括存储设备(例如，驱动单元)9016、信号生成设备9018(例如，扬声器)、网络接口设备9020和一个或多个传感器9021，诸如全局定位系统(GPS)传感器、数字照相机(诸如视频照相机)、罗盘、加速度计或其他传感器。机器9000可包括输出控制器9028，诸如串行(例如，通用串行总线(USB)、并行或其他有线或无线(例如，红外(IR)、近场通信(NFC)等)连接以通信或控制一个或多个外围设备(例如，打印机、读卡器等)。

存储设备9016可包括机器可读介质9022，其上存储一组或多组数据结构或指令9024(例如，软件)，实施或由本文描述的技术或功能的任一个或多个利用。指令9024还可在其由机器9000执行期间完全或至少部分地位于主存储器9004、静态存储器9006或硬件处理器9002。在一个示例中，硬件处理器9002、主存储器9004、静态存储器9006或存储设备9016的一个或任何组合可组成机器可读介质。

尽管机器可读介质9022说明为单个介质，术语“机器可读介质”可包括单个介质或多个介质(例如，中心式或分布式数据库和/或相关缓存和服务器)，配置以存储一个或多个指令9024。

术语“机器可读介质”可包括能够存储、编码或携带由机器9000执行并使机器9000执行本公开任一个或多个技术或能够存储、编码或携带该指令使用或关联的数据结构的指令的任何介质。非限制机器可读介质示例可包括固态存储器和光学与磁性介质。在一个示例中，机器可读介质包括具有有静止质量的多种粒子的机器可读介质。特定的示例机器可读介质可包括：非易失性存储器，诸如半导体存储器设备(例如，电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和闪存设备；磁盘，诸如内部硬盘和可移除磁盘；磁光盘；随机存取存储器(RAM)；以及CD-ROM和DVD-ROM磁盘。

指令9024可进一步通过通信网络9026利用传输介质经由利用任意种传输协议(例如，帧中继、互联网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传输协议(HTTP)等)的网络接口设备9020传输或接收。示例通信网络可包括局域网(LAN)、广域网(WAN)、分组数据网络(例如，互联网)、移动电话网络(例如，蜂窝网络)、普通电话(POTS)网络和无线数据网络(例如，称为的电气和电子工程师协会(IEEE)802.11标准家族，称为的IEEE 802.16标准家族)、IEEE 802.15.4标准家族、对等(P2P)网络以及其他。在一个示例中，网络接口设备9020可包括一个或多个物理插口(例如，以太网、同轴或电话插口)或一个或多个天线，以连接至通信网络9026。在一个示例中，网络接口设备9020可包括多个天线，以利用单输入多输出(SIMO)、多输入多输出(MIMO)或多输入单输出(MISO)技术的至少一个来无线通信。术语“传输介质”用于包括任何无形的介质，其能够存储、编码或携带由机器9000执行的指令，并包括数字或模拟通信信号或其他无形的介质，以实现软件通信。

其他示例

如下为非限制示例。

示例1包括主题(诸如用于执行动作的方法、装置，包括用于检测面部界标点的指令的机器可读介质，其当由机器执行时，使该机器执行动作或配置成执行的装置)包括：利用面部分类器检测第一视频帧中的面部图像；通过应用第一变换至所检测的面部图像来正则化所检测的面部图像；利用训练的形状回归量检测正则化的面部图像的一组面部界标点；通过应用第二变换至该面部界标点来计算第一视频帧的一组最终面部界标点，第二变换为第一变换的逆变换。

在示例2，示例1的主题可选地包括利用来自第一视频帧的所计算的一组面部界标点计算第二视频帧的面部包围盒；通过应用第三变换至第二面部图像正则化第二视频帧的第二面部图像，第二面部图像包括该面部包围盒中的第二视频帧的图像；利用该训练的形状回归量检测所正则化的第二面部图像中的第二组面部界标点；以及通过应用第四变换至该面部界标点来计算第二视频帧的一组第二最终面部界标点，第四变换为第三变换的逆变换。

在示例3，根据示例1-2任一个的主题可选地包括以预定义量填充该面部包围盒。

在示例4，根据示例1-3任一个的主题可选地包括对两个面部组成部分的组的每一个：计算参考点位置；计算第二视频帧中该组面部界标点到该参考点位置的距离和；测量第二视频帧的第二组界标点和第一视频帧的该组界标点之间的几何相似性；以及应用重要性驱动滤波以生成面部界标点的抖动补偿集合。

在示例5，根据示例1-4任一个的主题可选地包括，其中应用重要性驱动滤波包括利用第一权重因子为第一视频帧的该界标点的位置加权并且利用第二权重因子为第二视频帧的界标点的位置加权，并且其中第一和第二权重因子基于所测量的几何相似性确定。

在示例6，根据示例1-5任一个的主题可选地包括通过建立广义决策树训练该训练的形状回归量以利用至少两个阈值划分训练数据集，其中该广义决策树是基于像素亮度的训练数据集的划分。

在示例7，根据示例1-6任一个的主题可选地包括利用该面部界标点制作图形虚拟形象。

在示例8，根据示例1-7任一个的主题可选地包括收集多个主体的面部形状信息，该多个主体中每个相应主体表达预定义表情；计算第一距离度量以描述该多个主体之间的差异；以及计算第二距离度量以描述该多个主体的不同表情之间的差异。

在示例9，根据示例1-8任一个的主题可选地包括捕获新用户的中性面部；利用第一距离度量确定新用户的面部表情基。

在示例10，根据示例1-9任一个的主题可选地包括，其中利用该面部界标点制作该图形虚拟形象包括使用第一和第二度量、该组面部界标点以及该新用户的面部表情基作为输入采用混合形状制作公式计算面部重定位。

在示例11，根据示例1-10任一个的主题可选地包括，其中第一变换为标量变换。

示例12包括或可选地合并于示例1-11任一个的主题，以包括用于检测面部界标点主题(诸如设备、装置或机器)，包括：面部分类器模块，用于：检测第一视频帧中的面部图像；以及在线形状回归模块，用于：通过应用第一变换至检测的面部图像来正则化检测的面部图像；利用训练的形状回归量检测正则化的面部图像的一组面部界标点；通过应用第二变换至该面部界标点来计算第一视频帧的一组最终面部界标点，第二变换为第一变换的逆变换。

在示例13，根据示例1-12任一个的主题可选地包括，其中该在线形状回归模块用于：利用来自第一视频帧的所计算的一组面部界标点计算第二视频帧的面部包围盒；通过应用第三变换至第二面部图像而正则化第二视频帧的第二面部图像，第二面部图像包括该面部包围盒中的第二视频帧的图像；利用该训练的形状回归量检测所正则化的第二面部图像中的第二组面部界标点；以及通过应用第四变换至该面部界标点来计算第二视频帧的一组第二最终面部界标点，第四变换为第三变换的逆变换。

在示例14，根据示例1-13任一个的主题可选地包括，其中该在线形状回归模块配置成以预定义量填充该面部包围盒。

在示例15，根据示例1-14任一个的主题可选地包括抖动补偿模块，用于：对两个面部组成部分的组的每一个：计算参考点位置；计算第二视频帧中该组面部界标点到该参考点位置的距离和；测量第二视频帧的第二组界标点和第一视频帧的该组界标点之间的几何相似性；以及应用重要性驱动滤波以生成面部界标点的抖动补偿集合。

在示例16，根据示例1-15任一个的主题，可选地包括，其中抖动补偿模块配置以通过配置以至少利用第一权重因子为第一视频帧的该界标点的位置加权并利用第二权重因子为第二视频帧的界标点的位置加权而应用重要性驱动滤波，并且其中第一和第二权重因子基于所测量的几何相似性确定。

在示例17，根据示例1-16任一个的主题可选地包括形状回归训练模块，用于：通过建立广义决策树训练该训练形状回归量以利用至少两个阈值划分训练数据集，其中该广义决策树是基于像素亮度的训练数据集的划分。

在示例18，根据示例1-17任一个的主题可选地包括面部表情重定位模块，用于利用该面部界标点制作图形虚拟形象。

在示例19，根据示例1-16任一个的主题可选地包括，其中该面部表情重定位模块用于：收集多个主体的面部形状信息，该多个主体中每个相应主体表达预定义表情；计算第一距离度量以描述该多个主体之间的差异；以及计算第二距离度量以描述该多个主体的不同表情之间的差异。

在示例20，根据示例1-19任一个的主题可选地包括，其中该面部表情重定位模块配置成：捕获新用户的中性面部；以及利用第一距离度量确定新用户的面部表情基。

在示例21，根据示例1-20任一个的主题可选地包括，其中该面部表情重定位模块配置以利用第一和第二度量、该组面部界标点以及该新用户的面部表情基作为输入来使用混合形状制作公式。

在示例22，根据示例1-21任一个的主题可选地包括，其中第一变换为标量变换。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 利用在线形状回归方法的高效面部界标跟踪 [P] . 中国专利： CN105981075B . 2019.11.12
2. 利用在线形状回归方法的高效面部界标跟踪 [P] . 中国专利： CN105981075A . 2016-09-28
3. Efficient facial landmark tracking using online shape regression method [P] . 美国专利： US9361510B2 . 2016-06-07

机译：使用在线形状回归方法进行有效的人脸界标跟踪
4. EFFICIENT FACIAL LANDMARK TRACKING USING ONLINE SHAPE REGRESSION METHOD [P] . 欧洲知识产权局专利： EP3080779A4 . 2017-09-27

机译：使用在线形状回归方法进行有效的地标跟踪
5. EFFICIENT FACIAL LANDMARK TRACKING USING ONLINE SHAPE REGRESSION METHOD [P] . 欧洲知识产权局专利： EP3080779A1 . 2016-10-19

机译：使用在线形状回归方法进行有效的地标跟踪