首页> 中国专利> 基于贪婪搜索的人脸画像合成方法

基于贪婪搜索的人脸画像合成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于贪婪搜索的人脸画像合成方法。其实现步骤是：划分字典训练照片样本集A、合成训练照片样本集Bp、合成训练画像样本集Bs和测试照片样本集；通过分块得到字典训练照片块集合SA、合成训练照片块集合Sp、合成训练画像块集合Ss和测试照片块集合；从字典训练照片块集合SA中学到训练照片块特征字典Dp；用Dp求出Sp对应的稀疏表示集合Cp以及测试照片块S对应的稀疏表示；用稀疏表示在Cp中进行贪婪搜索寻找近邻；再用搜索到的近邻画像-照片块来建立马尔可夫随机场模型合成画像。本发明与现有方法相比，无需限制测试照片背景，且能合成测试照片中的非人脸部件，可用于刑侦破案和数字娱乐。

著录项

公开/公告号CN104517274A

专利类型发明专利
公开/公告日2015-04-15

原文格式PDF
申请/专利权人西安电子科技大学;
展开▼

申请/专利号CN201410818175.3
发明设计人高新波;张声传;王楠楠;李洁;张铭津;胡彦婷;彭春蕾;任文君;
展开▼

申请日2014-12-25
分类号G06T5/50(20060101);G06K9/62(20060101);
代理机构61205 陕西电子工业专利中心;
代理人王品华;朱卫星
地址 710071 陕西省西安市太白南路2号
入库时间 2023-12-17 04:02:12

法律信息

法律状态公告日

法律状态信息

法律状态
2017-06-16

授权

授权
2015-05-13

实质审查的生效 IPC(主分类):G06T5/50 申请日:20141225

实质审查的生效
2015-04-15

公开

公开

说明书

技术领域

本发明属于图像处理技术领域，更进一步涉及模式识别与计算机视觉技术领域中的人脸画像合成方法，可用于刑侦破案以及数字娱乐。

背景技术

人脸画像合成有重大的实际应用，比如支持动漫制作和辅助警方破案。当案件发生后，警方一般会根据现场目击证人的描述绘制出嫌疑犯的画像，之后在警方的人脸照片数据库中进行检索和识别。由于照片和画像属于两种不同的模态，存在较大的差异，因此在识别之前先将警方人脸照片数据库中的照片转化成画像，再将嫌疑犯的画像在合成画像数据库中进行识别。目前社交媒体变得越来越流行，很多用户将自己的照片转化成画像然后上传到网上作为自己账户的头像以增加娱乐效果。

已有的人脸画像合成方法主要有以下三大类：其一，基于子空间学习框架的人脸画像合成方法；其二，基于贝叶斯推断框架的人脸画像合成方法；其三，基于稀疏表示的人脸画像合成方法。

Liu等人在文献“Liu Q,Tang X,Jin H,et al.A nonlinear approach for face sketch synthesis and recognition[C]//Computer Vision and Pattern Recognition,2005. CVPR 2005.IEEE Computer Society Conference on.IEEE,2005,1:1005-1010.”中采用局部线性嵌入模型来模拟照片转化成合成画像的非线性过程。其实施方式是：首先将训练集中的照片-画像对及待变换照片划分成大小相同及重叠区域相同的图像块，对于待变换照片的每一个照片块在训练集中寻找它的K个近邻照片块，然后将K个照片块对应的K个画像块进行加权组合得到待合成画像块，最后将所有的待合成画像块融合得到合成画像。但是该方法存在以下缺点：固定的近邻个数导致合成画像不清楚。

Wang等人在文献“Wang X,Tang X.Face photo-sketch synthesis and recognition[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on, 2009,31(11):1955-1967.”中提出了一种基于马尔可夫随机场模型的人脸画像合成方法。该方法的操作如下：首先将训练集中的画像-照片对以及待合成照片用相同的方式分块，然后对于每一个待合成照片块在训练集中寻找它的K个候选照片块，根据待合成照片块与K个候选照片块之间的关系以及合成画像中相邻位置的画像块之间的关系，建立马尔可夫随机场模型对每个待合成照片块寻找一个最佳的训练画像块作为待合成画像块，最后将所有的待合成画像块融合得到最终的合成画像。该方法存在的缺陷是：由于每个待合成照片块最终只选择一个训练画像块进行画像合成，导致合成画像存在块效应和细节缺失的问题。

高新波等人申请的专利技术“基于稀疏表示的画像-照片生成方法”(申请号： 201010289330.9申请日：2010-09-24申请公布号：CN 101958000 A)中公开了一种基于稀疏表示的人脸画像合成方法。该方法实施方式是：首先采用已有的画像合成方法生成合成画像的初始估计，然后再利用稀疏表示的方法合成出合成画像的细节信息，最后将初始估计和细节信息进行叠加得到最后的合成画像。该方法的缺陷是：细节信息的线性叠加使得合成画像不自然，而且合成画像的质量绝大部分依赖于初始画像合成方法。

上述三类画像合成方法只适用于测试照片背景与训练集照片背景相同的情况，当测试照片背景与训练集照片背景不同时，测试照片用上述三类方法合成的画像的背景会存在噪声。此外当测试照片中存在眼镜、发卡等非人脸部件，而训练集照片中都不存在这些非人脸部件时，测试照片用上述三类方法合成的对应画像会丢失测试照片中的非人脸部件。

发明内容

本发明的目的在于针对上述现有方法的缺陷，提出一种基于贪婪搜索的人脸画像合成方法，以在测试照片背景与训练集照片背景不同时，忽略背景的影响而合成测试照片对应的画像；在测试照片中存在非人脸部件，而在训练集照片中都不存在非人脸部件时，能对测试照片合成包括非人脸部件的对应画像。

实现本发明目的的技术方案包括如下步骤：

(1)将画像-照片对集合中的图像由彩色图像变成灰度图像，再将灰度图像划分为字典训练照片样本集A、合成训练照片样本集B_p、合成训练画像样本集 B_s和测试照片样本集，并从测试照片样本集中选取一张测试照片P；

(2)将字典训练照片样本集A中的照片划分为相同大小及相同重叠程度的块，得到字典训练照片块集合S_A，对字典训练照片块集合S_A利用有效稀疏编码方法得到训练照片块特征字典D_p；

(3)获取合成训练照片块集合S_p对应的稀疏表示集合C_p：

(3a)将合成训练照片样本集B_p中的照片划分为相同大小及相同重叠程度的合成训练照片块集合：

$S_{p} = ({x_{1}^{1}, . . ., x_{1}^{j}, . . ., x_{1}^{N}}, . . ., {x_{i}^{1}, . . ., x_{i}^{j}, . . ., x_{i}^{N}}, . . ., {x_{M}^{1}, . . ., x_{M}^{j}, . . ., x_{M}^{N}});$

其中，表示第i张照片中的第j个照片块，i∈1,…,M，M为合成训练照片样本集B_p中照片的总个数，j∈1,…,N，N为每张照片被划分的块的总个数；

(3b)将合成训练画像样本集B_s中的画像以上述相同的方式划分得到对应的合成训练画像块集合：

$S_{s} = ({y_{1}^{1}, . . ., y_{1}^{j}, . . ., y_{1}^{N}}, . . ., {y_{i}^{1}, . . ., y_{i}^{j}, . . ., y_{i}^{N}}, . . ., {y_{M}^{1}, . . ., y_{M}^{j}, . . ., y_{M}^{N}});$

其中，表示第i张画像中的第j个画像块，i∈1,…,M，M为合成训练画像样本集B_s中画像的总个数，j∈1,…,N，N为每张画像被划分的块的总个数；

(3c)用训练照片块特征字典D_p对合成训练照片块集合S_p进行稀疏编码，得到合成训练照片块集合S_p对应的稀疏表示集合：

$C_{p} = ({c_{1}^{1}, . . ., c_{1}^{j}, . . ., c_{1}^{N}}, . . ., {c_{i}^{1}, . . ., c_{i}^{j}, . . ., c_{i}^{N}}, . . ., {c_{M}^{1}, . . ., c_{M}^{j}, . . ., c_{M}^{N}}),$

其中，表示第i张照片中的第j个照片块的稀疏表示，由于每个稀疏表示都包含稀疏系数值以及稀疏系数值在稀疏编码中被求解的顺序因此稀疏表示集合C_p包含有稀疏系数值集合V_p以及对应的稀疏系数值在稀疏编码中被求解的顺序集合O_p；

(4)获取测试照片块x^j对应的稀疏表示c^j：

(4a)将测试照片P划分为相同大小及相同重叠程度的测试照片块集合： S＝{x¹,…,x^j,…,x^N}，x^j表示测试照片P中的第j个照片块；

(4b)将每个测试照片块x^j用训练照片块特征字典D_p进行稀疏编码，得到 x^j对应的稀疏表示c^j；

其中，c^j表示第j个测试照片块x^j的稀疏表示，每个稀疏表示c^j都包含稀疏系数值v^j以及稀疏系数值在稀疏编码中被求解的顺序o^j；

(5)对合成训练画像块集合S_s利用贪婪搜索获取每个测试照片块x^j对应的待选择画像块集合： ${\tilde{y}}^{j} = {y^{j, 1}, y^{j, 2}, . . ., y^{j, K}};$

(6)利用步骤(5)得到的待选择画像块集合通过求解马尔可夫随机场模型来得到每个测试照片块x^j最终对应的训练画像块，并将这些训练画像块进行组合得到与测试照片P对应的合成画像。

本发明与现有方法相比具有如下优点：

第一，本发明由于采用贪婪搜索算法，因此将近邻块的选择范围从局部位置扩展到全局区域，从而能很好的合成眼镜、发卡等非人脸部件；

第二，本发明由于用稀疏表示中的稀疏系数值及稀疏系数值被求解的顺序这两个量来衡量两个图像块之间的距离，因此能有效的匹配拥有不同背景的图像块，从而有效解决测试照片背景与训练集照片背景不同的问题；

第三，本发明由于用稀疏表示作为图像块的特征，因此占用的计算机存储空间小。

附图说明

图1为本发明的实现流程图；

图2为本发明与现有的三类方法在CUHK student数据库、AR数据库和 XM2VTS数据库上的合成画像的对比结果图。

具体实施方式

参照图1，本发明具体实施步骤如下：

步骤1，对数据库样本集进行划分。

将CUFS数据库中所有的画像和照片由彩色图像变成灰度图像，再将灰度图像划分为字典训练照片样本集A、合成训练照片样本集B_p、合成训练画像样本集B_s和测试照片样本集，其中，B_p中的每张照片和B_s中对应的每张画像属于同一个人；

从测试照片样本集中选取一张测试照片P。

步骤2，获取训练照片块特征字典D_p。

2a)先将字典训练照片样本集A中的照片划分为相同大小及相同重叠程度的块，得到字典训练照片块集合S_A；

2b)对字典训练照片块集合S_A利用有效稀疏编码方法进行字典学习，得到训练照片块特征字典D_p：

2b1)初始化训练照片块特征字典为高斯矩阵，并将高斯矩阵每一个列向量归一化为单位向量；

其中，l表示训练照片块特征字典D_p中字典元素的维数，m表示训练照片块特征字典D_p中字典元素的个数；

2b2)给定字典训练照片块集合S_A以及初始化训练照片块特征字典D_p，按照下式得到字典训练照片块集合S_A的初始稀疏表示集合C：

$C = \arg {\min {| | S_{A} - D_{p} C | |}_{2}^{2} + λ {| | C | |}_{1}}$

其中，λ是正则化参数，设值为0.15，||·||₂表示2范数，||·||₁表示1范数，当给定D_p时，C可以通过特征符号搜索算法进行求解；

2b3)给定字典训练照片块集合S_A以及由2b2)得到的初始稀疏表示集合C，按照下式得到估计的训练照片块特征字典D_p：

$D_{p} = \arg {\min {| | S_{A} - D_{p} C | |}_{2}^{2}}$

$s . t . {| | D_{pi} | |}_{2}^{2} \leq 1, \forall i = 1, . . ., m$

当给定C时，通过拉格朗日对偶方法求解出D_p；

2b4)交替迭代2b2)和2b3)，直到以下目标函数收敛，得到最终的训练照片块特征字典D_p：

$\min_{D_{p}, C} {| | S_{A} - D_{p} C | |}_{2}^{2} + λ {| | C | |}_{1}$

$s . t . {| | D_{pi} | |}_{2}^{2} \leq 1, \forall i = 1, . . ., m$

所述的有效稀疏编码方法，见文献“Lee H,Battle A,Raina R,et al.Efficient sparse coding algorithms[C]//Advances in neural information processing systems. 2006:801-808.”，文献中包含了特征符号搜索算法和拉格朗日对偶方法。

获取训练照片块特征字典D_p的方法不局限于上述的有效稀疏编码方法，还可用K-SVD算法，见文献“Aharon M,Elad M,Bruckstein A.k-svd:An algorithm for designing overcomplete dictionaries for sparse representation[J].Signal Processing,IEEE Transactions on,2006,54(11):4311-4322.”。

步骤3，获取合成训练照片块集合S_p对应的稀疏表示集合C_p。

3a)将合成训练照片样本集B_p中的照片划分为相同大小及相同重叠程度的合成训练照片块集合：

$S_{p} = ({x_{1}^{1}, . . ., x_{1}^{j}, . . ., x_{1}^{N}}, . . ., {x_{i}^{1}, . . ., x_{i}^{j}, . . ., x_{i}^{N}}, . . ., {x_{M}^{1}, . . ., x_{M}^{j}, . . ., x_{M}^{N}});$

其中，表示第i张照片中的第j个照片块，i∈1,…,M，M为合成训练照片样本集B_p中照片的总个数，j∈1,…,N，N为每张照片被划分的块的总个数；

3b)将合成训练画像样本集B_s中的画像以上述相同的方式划分，得到对应的合成训练画像块集合：

$S_{s} = ({y_{1}^{1}, . . ., y_{1}^{j}, . . ., y_{1}^{N}}, . . ., {y_{i}^{1}, . . ., y_{i}^{j}, . . ., y_{i}^{N}}, . . ., {y_{M}^{1}, . . ., y_{M}^{j}, . . ., y_{M}^{N}});$

其中，表示第i张画像中的第j个画像块；

3c)用训练照片块特征字典D_p对合成训练照片块集合S_p进行稀疏编码，得到合成训练照片块集合S_p对应的稀疏表示集合C_p；

3c1)给定合成训练照片块集合S_p中的一个训练照片块和训练照片块特征字典D_p；

3c2)利用最小角回归方法求解以下最优化问题： $c_{i}^{j} = \arg {\min {| | x_{i}^{j} - D_{p} c_{i}^{j} | |}_{2}^{2} + λ {| | c_{i}^{j} | |}_{1}},$ 得到训练照片块对应的稀疏表示其中，λ是正则化参数，设值为0.15。

最小角回归方法见文献“Efron B,Hastie T,Johnstone I,et al.Least angle regression[J].The Annals of statistics,2004,32(2):407-499.”；

3c3)对合成训练照片块集合S_p中的每个训练照片块重复步骤3c1)和 3c2)，得到合成训练照片块集合S_p对应的稀疏表示集合：

$C_{p} = ({c_{1}^{1}, . . ., c_{1}^{j}, . . ., c_{1}^{N}}, . . ., {c_{i}^{1}, . . ., c_{i}^{j}, . . ., c_{i}^{N}}, . . ., {c_{M}^{1}, . . ., c_{M}^{j}, . . ., c_{M}^{N}}),$

其中，表示第i张照片中的第j个照片块的稀疏表示，由于每个稀疏表示都包含稀疏系数值以及稀疏系数值在稀疏编码中被求解的顺序因此稀疏表示集合C_p包含有稀疏系数值集合V_p以及对应的稀疏系数值在稀疏编码中被求解的顺序集合O_p，其表示如下：

$V_{p} = ({v_{1}^{1}, . . ., v_{1}^{j}, . . ., v_{1}^{N}}, . . ., {v_{i}^{1}, . . ., v_{i}^{j}, . . ., v_{i}^{N}}, . . ., {v_{M}^{1}, . . ., v_{M}^{j}, . . ., v_{M}^{N}})$

$O_{p} = ({o_{1}^{1}, . . ., o_{1}^{j}, . . ., o_{1}^{N}}, . . ., {o_{i}^{1}, . . ., o_{i}^{j}, . . ., o_{i}^{N}}, . . ., {o_{M}^{1}, . . ., o_{M}^{j}, . . ., o_{M}^{N}});$

步骤4，获取测试照片块x^j对应的稀疏表示c^j。

4a)将测试照片P划分为相同大小及相同重叠程度的测试照片块集合：

S＝{x¹,…,x^j,…,x^N}，其中x^j表示测试照片P中的第j个照片块；

4b)将每个测试照片块x^j用训练照片块特征字典D_p进行稀疏编码，得到x^j对应的稀疏表示c^j，其中，c^j表示第j个测试照片块x^j的稀疏表示，每个稀疏表示c^j都包含稀疏系数值v^j以及稀疏系数值在稀疏编码中被求解的顺序o^j。

步骤5，对合成训练画像块集合S_s利用贪婪搜索获取每个测试照片块x^j对应的待选择画像块集合

5a)设t＝1，θ＝2K；

5b)从顺序集合O_p中选出与求解顺序o^j中第t个值相同的所有稀疏表示并将这些选出的稀疏表示记为集合并用值替代稀疏表示集合C_p，再判断中稀疏表示的个数T：如果0<T≤θ，则转到步骤5e)，如果T＝0，则保留替代前的稀疏表示集合C_p，并转到步骤5e)，如果T>θ，则执行步骤5c)；

5c)从稀疏系数值集合V_p中选出与稀疏系数值v^j中第t个值欧式距离最相近的1/9稀疏表示并将这些选出的稀疏表示记为集合并用值替代稀疏表示集合C_p，再判断中稀疏表示的个数T：如果0<T≤θ，则转到步骤 5e)，如果T＝0，则保留替代前的稀疏表示集合C_p，并转到步骤5e)，如果T>θ，则转到步骤5d)；

5d)令t＝t+1，返回步骤5b)；

5e)将稀疏表示集合C_p中所有T个稀疏表示对应的合成训练照片块集合S_p中的T个照片块作为稀疏表示c^j对应的测试照片块x^j的待选择照片块集合 {x^j,1,x^j,2,…,x^j,T}；

如果T<K，则利用复制操作将待选择照片块从T个增加到K个；

如果T>K，则利用测试照片块x^j的高频信息与待选择照片块的高频信息的欧式距离将待选择照片块从T个减少为K个，使待选择照片块集合从 {x^j,1,x^j,2,…,x^j,T}变成x ${\tilde{x}}^{j} = {x^{j, 1}, x^{j, 2}, . . ., x^{j, K}};$

从合成训练画像块集合S_s中选择集合对应的K个画像块作为待选择画像块集合： ${\tilde{y}}^{j} = {y^{j, 1}, y^{j, 2}, . . ., y^{j, K}} .$

步骤6，获取合成画像。

利用步骤5得到的待选择画像块集合通过求解马尔可夫随机场模型得到每个测试照片块x^j最终对应的训练画像块，并将这些训练画像块进行组合得到与测试照片P对应的合成画像。

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件

本发明是在中央处理器为Intel(R)Core(TM)i3-21003.10GHz、内存4G、 WINDOWS 7操作系统上，运用美国Mathworks公司开发的MATLAB R2010b 进行仿真。

数据库采用CUFS数据库，该数据库包含CUHK student数据库、AR数据库和XM2VTS数据库。

AR数据库见文献“Martinez A M.The AR face database[J].CVC Technical Report,1998,24.”。

XM2VTS数据库见文献“Messer K,Matas J,Kittler J,et al.XM2VTSDB:The extended M2VTS database[C]//Second international conference on audio and video-based biometric person authentication.1999,964:965-966.”。

2.仿真内容

取CUHK student数据库中34个男性照片-画像对中的照片作为字典训练照片样本集A，100个男性照片-画像对中的照片和画像分别作为对应的合成训练照片样本集B_p和合成训练画像样本集B_s。测试照片样本集则为CUFS数据库当中CUHK student数据库剩下的54张女性照片、AR数据库中123张照片和 XM2VTS数据库中295张照片。

利用本发明方法和现有基于局部线性的方法LLE、基于马尔可夫随机场模型的方法MRF以及基于马尔可夫权重场模型的方法MWF，在CUFS数据库上进行照片到画像的合成仿真实验，结果如图2所示。其中：

图2(a)为原始照片，

图2(b)为现有基于局部线性的方法LLE合成的画像，

图2(c)为现有基于马尔可夫随机场模型的方法MRF合成的画像，

图2(d)为现有基于马尔可夫权重场模型的方法MWF合成的画像，

图2(e)为本发明方法合成的画像。

由图2实验结果可见，图2(b)～图2(d)中的第一张画像都没有发卡，第二张画像都没有刘海，其余的四张画像都没有眼镜，而且图2(b)～图2(d)中的第三张画像到第六张画像的背景都存在噪声。而图2(e)所示的本发明的第一张画像有发卡，第二张画像有刘海，其余的四张画像有眼镜，而且所有合成画像的背景都很干净。

综上所述：本发明由于借助了稀疏表示思想，利用贪婪搜索的方法，在测试照片背景与训练集照片背景不同时，能忽略背景的影响而合成测试照片对应的画像，此外，在测试照片中存在非人脸部件，而在训练集照片中都不存在非人脸部件时，能对测试照片合成包括非人脸部件的对应画像，验证了本发明的有效性。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于贪婪搜索的人脸画像合成方法 [P] . 中国专利： CN104517274B . 2017.06.16
2. 基于单张目标画像的人脸画像合成方法 [P] . 中国专利： CN104700439B . 2017.08.15
3. FACE SEARCHING SYSTEM AND METHOD BASED ON FACE RECOGNITION [P] . 韩国专利： KR101170676B1 . 2012-08-07

机译：基于人脸识别的人脸搜索系统及方法
4. FACE SEARCHING SYSTEM AND METHOD BASED ON FACE RECOGNITION [P] . 韩国专利： KR20120050660A . 2012-05-21

机译：基于人脸识别的人脸搜索系统及方法
5. METHOD AND APPARATUS TO SYNTHESIZE VOICE BASED ON FACIAL STRUCTURES [P] . 欧洲知识产权局专利： EP3198589B1 . 2020-02-05

机译：基于人脸结构的语音合成方法及装置