首页> 中国专利> 基于单张人脸图像的实时全自动高质量三维人脸重建方法

基于单张人脸图像的实时全自动高质量三维人脸重建方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于单张人脸图像的实时全自动高质量三维人脸重建方法，包括：对初始的人脸图像数据集合，拟合其参数化模型系数与人脸区域每个像素点沿着深度方向的偏移，得到人脸图像数据集合T；改变集合T中的表情和姿态系数后，渲染人脸图片，得到光滑的人脸图像数据集合C；改变集合T中的偏移后，渲染人脸图片，得到带细节的人脸图像数据集合F；利用集合C训练深度神经网络模型CoarseNet，并利用集合F训练深度神经网络模型FineNet；利用训练好的深度神经网络模型CoarseNet和FineNet，对输入的单张人脸图像进行处理，得到参数化模型系数以及像素点沿着深度方向的偏移，从而重建出三维人脸。该方法避免了复杂耗时的优化过程，能够快速、高质量的重建三维人脸图像。

著录项

公开/公告号CN107358648A

专利类型发明专利
公开/公告日2017-11-17

原文格式PDF
申请/专利权人中国科学技术大学;
展开▼

申请/专利号CN201710581769.0
发明设计人张举勇;郭玉东;
展开▼

申请日2017-07-17
分类号G06T17/00(20060101);G06N3/08(20060101);
代理机构11260 北京凯特来知识产权代理有限公司;
代理人郑立明;郑哲
地址 230026 安徽省合肥市包河区金寨路96号
入库时间 2023-06-19 03:47:06

法律信息

法律状态公告日

法律状态信息

法律状态
2019-08-27

授权

授权
2017-12-12

实质审查的生效 IPC(主分类):G06T17/00 申请日:20170717

实质审查的生效
2017-11-17

公开

公开

说明书

技术领域

本发明涉及人脸图像处理技术领域，尤其涉及一种基于单张人脸图像的实时全自动高质量三维人脸重建方法。

背景技术

近年来，随着计算机技术和通信技术的快速发展，图像作为一种便捷的信息传递方式，已成为人们获取信息的重要手段。由于人脸图像在身份验证、人机交互、监控、取证、医疗诊断和治疗等领域有着广泛的应用，针对人脸图片的处理与识别已成为机器识别和计算机视觉的主要课题。更进一步，人脸作为身体中最有代表性的部分，人们能够仅凭面部信息就能够获得极为丰富的含义，如人的性别，种族、年龄、健康、情绪，甚至职业等等。

在过去，三维人脸重建主要有三种方法：手动建模，仪器采集和基于图像的少量交互或完全自动建模。手工建模作为最早的三维建模手段，现在仍然被广泛地使用。手工建模一般需要有经验的专业人士借助Autodesk Maya，3DMax等软件来完成。由于手动建模需要耗费大量的人力与时间，三维人脸建模仪器作为更为方便的方法得到了长期的研究和发展。其中的典型代表有基于结构光和激光扫描技术的精密三维采集仪器和深度相机等。基于精密仪器采集的三维模型，精度可达毫米级，是物体的真实三维数据，可以用来为基于图像的建模方法提供评价数据库，但这些设备一般价格高昂，且使用需经过专业培训，不适合于消费级的市场。最近，市场上出现了Microsoft Kinect，Intel RealSense，PrimeSense等深度相机，研究者可以利用深度相机采集到的深度信息来重建三维模型。和精密采集仪器相比，深度相机价格较低廉且更易于使用，但相比于RGB相机而言，这些设备仍较为少见。基于图像的建模技术是指通过多张或单张人脸图像来重建三维人脸模型。和人脸建模仪器相比，基于图像的建模方法只需要传统RGB相机采集的人脸图片，因此应用场景更为广泛。

由于人脸具有较多共性，如具有特定数目的眼睛，嘴巴，鼻子，耳朵且相对位置不变，因此可以建立一个人脸的参数化模型，将复杂的三维人脸参数化到一个低维的空间。传统的基于图像的三维人脸建模技术一般把参数化模型作为先验，利用人脸关键点信息和颜色信息来优化参数化模型的相关系数。但这些方法存在一些问题：基于关键点信息的优化仅利用了稀疏的关键点信息，三维重建精度较低；基于颜色的优化要经过比较耗时的计算，且对光照比较敏感。

发明内容

本发明的目的是提供一种基于单张人脸图像的实时全自动高质量三维人脸重建方法，能够快速、高质量的重建三维人脸图像。

本发明的目的是通过以下技术方案实现的：

一种基于单张人脸图像的实时全自动高质量三维人脸重建方法，包括：

对初始的人脸图像数据集合，拟合其参数化模型系数与人脸区域每个像素点沿着深度方向的偏移，得到人脸图像数据集合T；

改变人脸图像数据集合T中的表情和姿态系数后，渲染人脸图片，得到光滑的人脸图像数据集合C；改变人脸图像数据集合T中的偏移后，渲染人脸图片，得到带细节的人脸图像数据集合F；

利用光滑的人脸图像数据集合C训练深度神经网络模型CoarseNet，并利用带细节的人脸图像数据集合F训练深度神经网络模型FineNet；

利用训练好的深度神经网络模型CoarseNet和FineNet，对输入的单张人脸图像进行处理，得到参数化模型系数以及像素点沿着深度方向的偏移，从而重建出三维人脸。

利用人脸颜色信息对参数化模型系数χ进行拟合：

E(χ)＝E_con+w_lanE_lan+w_regE_reg

上式中，E_con为颜色项衡量由渲染的图片和实际图片的差异；E_lan为关键点约束，使三维点的投影和图像上检测到的关键点尽可能接近；E_reg是正则项，以保证参数化模型系数χ中的身份α_id、表情α_exp及纹理α_alb系数在合理的范围内；w_lan和w_reg分别是E_lan和E_reg相对于E_con的权重；

具体的：

其中，C_S是由χ渲染的图片，C_I是输入的图片，P是所有像素的集合。

其中，是关键点的集合，i为关键点的序号，f_i为图像平面的二维关键点，为投影矩阵，其中的s为比例系数，V_i为网格上的三维关键点，为平移向量，R为旋转矩阵；

其中，σ为对应的主成分方向的标准差，α_id,j、α_alb,j分别为第j个分量的身份、纹理系数；σ_id,j、σ_alb,j分别为第j个分量的身份、纹理系数对应主成分方向的标准差；α_exp,k为第k个分量的表情系数，σ_exp,k为第k个分量的表情系数对应主成分方向的标准差；

利用人脸颜色信息对人脸区域每个像素点沿着深度方向的偏移进行拟合，假设所有像素偏移构成向量d，则拟合方式如下：

其中，为正则项，使d接近0；μ₂||Ld||₁为光滑约束项，Ld表示偏移的拉普拉斯，μ₁和μ₂分别是和||Ld||₁相对于E_con的权重。

所述人脸图像数据集合T中包括：若干彩色人脸图像以及对应的标签；

每一彩色人脸图像均为RGB三通道图像；标签分为两部分，一部分为参数化模型系数，包括身份、表情、纹理、光照以及姿态系数；另一部分为人脸区域每个像素点沿着深度方向的偏移。

所述光滑的人脸图像数据集合C中包括：若干彩色人脸图像以及对应的标签；

每一彩色人脸图像均为RGB三通道图像；标签是参数化模型系数，包括身份、表情以及姿态系数。

所述带细节的人脸图像数据集合F中包括：若干灰度人脸图像、粗糙深度图像以及对应的标签；

每一灰度人脸图像均为单通道图像；粗糙深度图像是由参数化模型系统中的身份、表情与姿态系数得到；标签为人脸区域每个像素点沿着深度方向的偏移。

所述深度神经网络模型CoarseNet为残差卷积神经网络模型，依次包括：输入层、卷积层、非线性层、池化层、全连接层与损失层。

所述深度神经网络模型FineNet为全卷积深度神经网络模型，依次包括：输入层、卷积层、非线性层、池化层、去卷积层、融合层与损失层。

由上述本发明提供的技术方案可以看出，1)由深度神经网络训练得到参数化模型系数及偏移，既利用了完整的人脸图像信息，又避免了复杂耗时的优化过程，加快三维人脸重建的速度。2)通过改变表情、姿态以及皱纹等细节信息来生成训练数据，不仅提供大量带标签的数据用于训练深度神经网络模型，也增加了三维人脸重建方法对表情、姿态以及皱纹的鲁棒性。3)由输入单张图片直接得到参数化模型系数，不用预先检测输入人脸图片的关键点信息。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于单张人脸图像的实时全自动高质量三维人脸重建方法的流程图；

图2为本发明实施例提供的改变人脸图像数据集合T中的表情和姿态系数后，得到光滑的人脸图像数据集合C的示意图；

图3为本发明实施例提供的改变人脸图像数据集合T中的偏移后，到带细节的人脸图像数据集合F的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

在三维人脸重建领域，传统的基于关键点的优化方法速度快，但因只利用了稀疏的关键点信息，重建结果不够精确；基于颜色的优化方法利用了整张图片的颜色信息，重建结果较为精确，但需要经过复杂的优化，所需时间较长；基于神经网络的方法缺少带标签的训练数据。为此，本发明实施例提供一种基于单张人脸图像的实时全自动高质量三维人脸重建方法，如图1所示，其主要包括如下步骤：

步骤11、对初始的人脸图像数据集合，拟合其参数化模型系数与人脸区域每个像素点沿着深度方向的偏移，得到人脸图像数据集合T。

本发明实施例中，初始的人脸图像数据集合可以采用现有的人脸数据集300W。三维人脸用参数化模型作为先验，参数化模型系数主要包括：身份、表情、纹理、光照以及姿态系数。

其中，几何和纹理信息用PCA表示：

上式中，S为三维几何信息，为平均几何信息，A_id和A_exp分别为身份和表情的PCA基，α_id和α_exp分别为身份和表情系数；T为纹理信息，为平均纹理信息，A_alb为纹理的PCA基，α_alb为纹理系数。

本领域技术人员可以理解，上式中的A_id、A_exp、A_alb均可通过常规技术获得。

投影模型用弱透视投影：

其中，(v_x,v_y)和(V_x,V_y,V_z)分别是点在图像平面和世界坐标系下的坐标，s为比例系数，R是由欧拉角(pitch,yaw,roll)构造的旋转矩阵，(t_x,t_y)是平移向量。

对于光照，假设是兰伯特反射并用球面调和函数来逼近。这样，图像的渲染由参数化模型系数χ＝{α_id,α_exp,α_alb,s,pitch,yaw,roll,t_x,t_y,L}来决定。其中L为球面调和函数的系数。用人脸图像颜色信息对χ进行拟合：

E(χ)＝E_con+w_lanE_lan+w_regE_reg

上式中，E_con是颜色项衡量由χ渲染的图片和实际图片的差异；E_lan是关键点约束使三维点的投影和图像上检测到的关键点尽可能接近；E_reg是正则项，保证α_id、α_exp、α_alb在合理的范围内。w_lan和w_reg分别是E_lan和E_reg相对于E_con的权重。本发明实例中，w_lan可取10，w_reg可取5·10^-5。

具体的：

其中，C_S是由χ渲染的图片，C_I是输入的图片，P是所有像素的集合。

其中，是眼睛轮廓、嘴巴轮廓、人脸轮廓等关键点的集合，i为关键点的序号，f_i为图像平面的二维关键点，为投影矩阵，V_i为网格上的三维关键点，为平移向量。

其中，σ为对应的主成分方向的标准差。下标j、k表示向量的第j、k个分量，本发明实例中，身份与纹理可用100维PCA表示(即J＝100)，表情可用79维PCA表示(即K＝97)；上式中各参数含义如下：α_id,j、α_alb,j分别为第j个分量的身份、纹理系数；σ_id,j、σ_alb,j分别为第j个分量的身份、纹理系数对应主成分方向的标准差；α_exp,k为第k个分量的表情系数，σ_exp,k为第k个分量的表情系数对应主成分方向的标准差。

由于参数化模型表达的几何信息比较光滑，为了表示一些细节比如皱纹等信息，需要对每个像素点沿着深度方向做个偏移，假设所有像素偏移构成向量d，同样利用人脸颜色信息进行拟合：

其中，为正则项，使d接近0；μ₂||Ld||₁为光滑约束，Ld表示偏移的拉普拉斯，μ₁和μ₂分别是和||Ld||₁相对于E_con的权重。本发明实例中，μ₁可取0.001，μ₂可取0.3。

本发明实施例中，基于上述方式拟合后的参数化模型系数与偏移来获得人脸图像数据集合T。所述人脸图像数据集合T中包括：若干彩色人脸图像以及对应的标签；每一彩色人脸图像均为RGB三通道图像；标签分为两部分，一部分为参数化模型系数，包括身份、表情、纹理、光照以及姿态系数；另一部分为人脸区域每个像素点沿着深度方向的偏移。

步骤12、改变人脸图像数据集合T中的表情和姿态系数后，渲染人脸图片，得到光滑的人脸图像数据集合C；改变人脸图像数据集合T中的偏移后，渲染人脸图片，得到带细节的人脸图像数据集合F。

如图2所示，改变人脸图像数据集合T中的表情和姿态系数后，渲染人脸图片，得到光滑的人脸图像数据集合C。

所述光滑的人脸图像数据集合C中包括：若干彩色人脸图像以及对应的标签；每一彩色人脸图像均为RGB三通道图像；标签是参数化模型系数，包括身份、表情以及姿态系数，即{α_id，α_exp，s，pitch，yaw，roll，t_x，t_y}。

本领域技术人员可以理解，人脸图像数据集合T中的纹理和光照系数用于渲染人脸图片；获得的光滑的人脸图像数据集合C在后续步骤用来训练深度神经网络模型CoarseNet，由于CoarseNet只重建了表情和姿态系数，并没有重建纹理和光照系数，因此在光滑的人脸图像数据集合C中无需纹理和光照系数。

如图3所示，改变人脸图像数据集合T中的偏移后，渲染人脸图片，得到带细节的人脸图像数据集合F。偏移的改变是通过细节迁移实现的，给定带有丰富皱纹细节的原始图片source以及较光滑人脸图片target，用步骤11可以算出各自的偏移，通过迁移source偏移的梯度到target上来改变target的偏移。

所述带细节的人脸图像数据集合F中包括：若干灰度人脸图像、粗糙深度图像以及对应的标签；每一灰度人脸图像均为单通道图像；粗糙深度图像是由参数化模型系统中的身份、表情与姿态系数得到；标签为人脸区域每个像素点沿着深度方向的偏移。

步骤13、利用光滑的人脸图像数据集合C训练深度神经网络模型CoarseNet，并利用带细节的人脸图像数据集合F训练深度神经网络模型FineNet。

本发明实施例中，所述深度神经网络模型CoarseNet为残差卷积神经网络模型，依次包括：输入层、卷积层、非线性层、池化层、全连接层与损失层。

本发明实施例中，所述深度神经网络模型FineNet为全卷积深度神经网络模型，依次包括：输入层、卷积层、非线性层、池化层、去卷积层、融合层与损失层。

步骤14、利用训练好的深度神经网络模型CoarseNet和FineNet，对输入的单张人脸图像进行处理，得到参数化模型系数以及像素点沿着深度方向的偏移，从而重建出三维人脸。

本发明实施例上述方案，相比传统人脸分割方法，主要具有以下优点：

1)由深度神经网络训练得到参数化模型系数及偏移，既利用了完整的人脸图像信息，又避免了复杂耗时的优化过程，加快了三维人脸重建的速度。

2)通过改变表情、姿态以及皱纹等细节信息来生成训练数据，不仅提供大量带标签的数据用于训练深度神经网络模型，也增加了三维人脸重建方法对表情、姿态以及皱纹的鲁棒性。

3)由输入图片直接得到参数化模型的系数，不用预先检测图片的关键点信息。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于单张人脸图像的实时全自动高质量三维人脸重建方法 [P] . 中国专利： CN107358648B . 2019.08.27
2. 基于单张人脸图像的实时全自动高质量三维人脸重建方法 [P] . 中国专利： CN107358648A . 2017-11-17
3. THREE-DIMENSIONAL FACE IMAGE RECONSTRUCTION METHOD AND APPARATUS, AND COMPUTER-READABLE STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2020037863A1 . 2020-02-27

机译：三维人脸图像重建方法和装置以及计算机可读存储介质
4. PICTURE ANIMATION AVATAR EDITING METHOD AND SERVER SYSTEM FOR CAPTURING TWO OR MORE FACE PICTURES BY USING FACE PICTURE CAPTURE TOOL IN SMARTPHONE AND COMBINING AND SYNTHESIZING FACE PICTURES WITH ANIMATION AVATAR IMAGE, AVATAR DATABASE INTERLOCKING AND TRANSMITTING METHOD, AND PICTURE ANIMATION AVATAR DISPLAY CALLER ID DISPLAY METHOD IN SMARTPHONE [P] . 韩国专利： KR20150135591A . 2015-12-03

机译：通过在智能手机中使用人脸图像捕捉工具并使用动画人像图像，人像数据库互锁和传输显示方法以及人脸识别和显示方法来组合并合成人脸图像，来捕捉两个或更多人脸图像的图像动画化身编辑方法和服务器系统在智能手机中
5. Face image verification method based on reference image and face image verification system [P] . 日本专利： JP6244059B2 . 2017-12-06

机译：基于参考图像的人脸图像验证方法及人脸图像验证系统