首页> 中国专利> 笑容图像生成模型的训练方法、笑容图像的生成方法

笑容图像生成模型的训练方法、笑容图像的生成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本公开实施例提供的笑容图像生成模型的训练方法、笑容图像的生成方法，获取第一人脸样本图像；对第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，笑容渐变函数用于表示人脸样本图像中的笑容程度；利用笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组；样本笑容图像组中包括每个第二人脸样本图像在不同笑容程度下的笑容图像；利用样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。利用该训练后的笑容图像生成模型，能够对目标人脸图像进行处理，以生成与期望笑容程度一致的笑容图像。通过这样的方式能够获得人脸的在期望笑容程度下的笑容图像，为用户带来更多的体验。

著录项

公开/公告号CN115689864A

专利类型发明专利
公开/公告日2023-02-03

原文格式PDF
申请/专利权人北京字跳网络技术有限公司;
展开▼

申请/专利号CN202110858192.X
发明设计人白须;
展开▼

申请日2021-07-28
分类号G06T3/00;G06V10/764;G06V10/82;G06N3/0464;G06N3/08;G06N20/20;
代理机构上海光栅知识产权代理有限公司;
代理人关浩;马雯雯
地址 100190 北京市海淀区紫金数码园4号楼2层0207
入库时间 2023-06-19 18:32:25

法律信息

法律状态公告日

法律状态信息

法律状态
2023-02-03

公开

发明专利申请公布

说明书

技术领域

本公开实施例涉及计算机领域，尤其涉及一种笑容图像生成模型的训练方法、笑容图像的生成方法。

背景技术

随着科技的进步以及娱乐生活的丰富，一些应用APP中，可通过相关的图像处理技术，对人脸图像进行一定处理。现有的方式中，可获得人脸在“笑容”这一属性类型下的人脸图像。

但是，现有处理方式是无法获得全不笑状态和开怀笑状态之间的各种渐变的笑容图像的，这就使得现有技术所处理得到的笑容图像的适用范围受限。

发明内容

针对上述问题，本公开实施例拱了一种笑容图像生成模型的训练方法、笑容图像的生成方法。

第一方面，本公开提供了一种笑容图像生成模型的训练方法，包括：

获取第一人脸样本图像；

对所述第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，所述笑容渐变函数用于表示人脸样本图像中的笑容程度；

利用所述笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组；其中，样本笑容图像组中包括每个所述第二人脸样本图像在不同笑容程度下的笑容图像；

利用所述样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。

第二方面，本公开实施例提供了一种笑容图像的生成方法，包括：

获取目标人脸图像；

将所述目标人脸图像和期望笑容程度输入至训练后的笑容图像生成模型，以使所述训练后的笑容图像生成模型输出与所述目标人脸图像在所述期望笑容程度下的笑容图像；

其中，所述笑容图像生成模型通过如上述权利要求1-8中任一项权利要求所述的训练方法训练得到。

第三方面，本公开提供了一种笑容图像生成模型的训练装置，包括：

图像获取模块，用于获取第一人脸样本图像；

第一处理模块，用于对所述第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，所述笑容渐变函数用于表示人脸样本图像中的笑容程度；

第二处理模块，用于利用所述笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组；其中，样本笑容图像组中包括每个所述第二人脸样本图像在不同笑容程度下的笑容图像；

第三处理模块，用于利用所述样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。

第四方面，本公开实施例提供了一种笑容图像的生成装置，包括：

图像获取模块，用于获取目标人脸图像；

图像生成模块，用于将所述目标人脸图像和期望笑容程度输入至训练后的笑容图像生成模型，以使所述训练后的笑容图像生成模型输出与所述目标人脸图像在所述期望笑容程度下的笑容图像；

其中，所述笑容图像生成模型通过如上述第一方面任一项所述的训练方法训练得到。

第五方面，本公开实施例提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的涉及所述的笑容图像生成模型的训练方法，和/或，第二方面以及第二方面各种可能的涉及所述的笑容图像的生成方法。

第六方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的涉及所述的笑容图像生成模型的训练方法，和/或，第二方面以及第二方面各种可能的涉及所述的笑容图像的生成方法。

第七方面，本公开实施例提供一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时如上第一方面以及第一方面各种可能的涉及所述的笑容图像生成模型的训练方法，和/或，第二方面以及第二方面各种可能的涉及所述的笑容图像的生成方法。

本公开实施例提供的笑容图像生成模型的训练方法、笑容图像的生成方法，由于获取第一人脸样本图像；对所述第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，所述笑容渐变函数用于表示人脸样本图像中的笑容程度；利用所述笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组；其中，样本笑容图像组中包括每个所述第二人脸样本图像在不同笑容程度下的笑容图像；利用所述样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。利用该训练后的笑容图像生成模型，能够对目标人脸图像进行处理，以生成与期望笑容程度一致的笑容图像。通过这样的方式能够获得人脸在期望笑容程度下的笑容图像，为用户带来更多的体验。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开所基于的一种网络架构的示意图；

图2为本公开实施例提供的一种笑容图像生成模型的训练方法的流程示意图；

图3为本公开提供的一种笑容图像生成模型的训练方法的数据流示意图；

图4为本公开实施例提供的一种笑容图像生成模型的训练方法的数据流示意图；

图5为本公开实施例提供的一种笑容图像的生成方法的流程示意图；

图6为本公开实施例提供的笑容图像生成模型的训练装置的结构框图；

图7为本公开实施例提供的笑容图像的生成装置的结构框图；

图8为本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

一般来说，现有的对图像处理的实现是基于机器学习技术实现的。通过对包括StyleGAN架构的生成对抗神经网络模型进行训练，可以生成人脸图像在不同属性类型下的图像。

以笑容这一属性类型进行示例，为了使得模型可用于将输入的完全不笑状态的人脸图像，处理为输出的开怀笑状态的人脸图像，一般会采用如下步骤：

首先，需要对模型进行训练，具体可利用大量的标记有开怀笑状态和不笑状态的人脸样本图像对上述的包括StyleGAN架构的生成对抗神经网络模型进行训练，以使模型可对图像中的笑容这一属性类型的图像特征进行分离和控制。然后，将不笑状态的人脸图像输入至训练完毕的模型中，模型能够输出开怀笑状态的相应的人脸图像。

但是，现有的人脸图像的处理方式能够输出的人脸图像较为单一，如对于笑容这一属性类型来说，其仅能通过对不笑状态的人脸图像进行处理，得到开怀笑状态的人脸图像，而并不能获得更多笑容程度的人脸图像，这就使得现有技术所处理得到的人脸图像的内容较为匮乏，图像质量差，适用范围受限，不利于处理技术的长期发展。

针对这样的问题，发明人发现，生成对抗网络模型不能生成渐变的笑容图像的原因在于缺少足够的笑容渐变图像的训练样本，即，现有的训练模型的人脸图像的样本一般仅包括有不笑状态和开怀笑状态，对于具有笑容渐变的人脸图像的样本的获取则需要大量的时间和人力成本。

在这种情况下，发明人首先想到，可先构建用于表示第一人脸样本图像中的笑容程度的笑容渐变函数，以利用该笑容渐变函数对第二人脸样本图像进行处理，得到包括每个所述第二人脸样本图像在不同笑容程度下的笑容图像的样本笑容图像组，进而使用样本人脸图像对笑容图像生成模型进行训练。利用该训练后的笑容图像生成模型，能够对目标人脸图像进行处理，以生成与期望笑容程度一致的笑容图像。通过这样的方式能够获得人脸在期望笑容程度下的笑容图像，获取笑容图像的时间成本和人力成本相对现有技术来说均较低，并且，由于可生成不同笑容程度下的笑容图像，这些图像也能够有效提升人脸图像的适用范围，为用户带来更多的体验。

参考图1，图1为本公开所基于的一种网络架构的示意图，该图1所示网络架构具体可包括至少一个终端1以及服务器2。

其中，终端1具体可为用户手机、智能家居设备、平板电脑、可穿戴电子设备等硬件设备。服务器2可具体为设置在云端的服务器或者服务器集群。

其中，可预先利用第一人脸样本图像构建笑容渐变函数，并利用该笑容渐变函数对第二人脸样本图像进行处理得到样本笑容图像组，通过该样本笑容图像组可实现对于笑容图像生成模型的训练。

训练完毕的笑容图像生成模型对目标人脸图像进行处理，生成处理后期望笑容程度下的笑容图像，并将该笑容图像呈现给用户。

图1所示架构可适用于可用于图像处理的各类应用APP的场景中，例如图像特效处理应用APP、具有滤镜拍摄功能的应用APP等。

具体的，本公开提供的笑容图像的生成方法可应用于基于人脸图像特效等场景。

其中，人脸图像特效是指广泛应用于一些视频类应用的人脸图像特效的特效，通过本公开提供的笑容图像的生成方法可将目标人脸图像，生成一系列的具有不同笑容程度的，呈现有渐变笑容的笑容图像，以向用户提供更多的特效组合和视频玩法。

下面将针对本公开提供的方案进行进一步说明：

第一方面，图2为本公开实施例提供的一种笑容图像生成模型的训练方法的流程示意图。参考图2，本公开实施例提供的笑容图像生成模型的训练方法，包括：

步骤201、获取第一人脸样本图像；

步骤202、对所述第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，所述笑容渐变函数用于表示人脸样本图像中的笑容程度；

步骤203、利用所述笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组；其中，样本笑容图像组中包括每个所述第二人脸样本图像在不同笑容程度下的笑容图像；

步骤204、利用所述样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。

如前所述的，为了能够使得笑容图像生成模型能够生成目标人脸图像在不同笑容程度下的笑容图像，首先需要足够的不同笑容程度的样本图像对该笑容图像生成模型进行训练，具体可参考步骤201至步骤203；然后，参考步骤204，可基于得到的样本笑容图像组，对笑容图像生成模型进行训练，以得到用于对目标人脸图像进行处理并输出目标人脸图像在期望笑容程度下的笑容图像的训练后的笑容图像生成模型。

具体来说，在本公开提供的笑容图像生成模型的训练方法中，笑容图像生成模型的训练装置首先会获取大量的第一人脸样本图像，其中，为了便于构建笑容渐变函数，对于第一人脸样本图像来说，一些人脸样本图像中包括具有笑容的人脸，而另一些人脸样本图像包括不具有笑容的人脸。

当获取到这些第一人脸样本图像之后，可以对第一人脸样本图像进行包括特征提取和图像分析在内的第一处理，以构建笑容渐变函数。

可知的是，该笑容渐变函数用于表示人脸样本图像中的笑容程度。其中，笑容渐变函数的变量具体可包括笑容幅度。

其中的笑容程度具体可由多个面部特征因素确定，如当牙齿裸露的面积较大时，笑容程度较高；当眼睛眯眼时，笑容程度较高；当眼角区域出现笑纹时，笑容程度较高。通过对第一人脸样本图像进行包括特征提取和图像分析在内的第一处理，可以使得可根据上述提及的因素确定第一人脸样本图像对应的笑容程度，进而得到相应的笑容渐变函数。

然后，笑容图像生成模型的训练装置可利用笑容渐变函数对多个第二样本人脸图像进行包括图像变换处理在内的第二处理，以使经处理后的各个第二样本人脸图像根据笑容渐变函数中的变量，呈现不同的笑容程度，进而得到包括有每个所述第二人脸样本图像在不同笑容程度下的笑容图像的样本笑容图像组。

其中，由于生成的样本笑容图像组中的笑容图像是用于对笑容图像生成模型进行训练的，因此，为了保证模型训练效果，本公开中的样本笑容图像组中应包括尽可能多的不同笑容程度下的笑容图像，以使得模型训练样本丰富化。

基于此，在生成样本笑容图像组时，可对笑容渐变函数中的变量进行多次赋值，并对每一个第二样本人脸图像进行在不同变量下的处理，以得到每一个样本人脸图像在不同笑容程度下的笑容图像。

最后，当获得样本笑容图像组之后，可利用样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到笑容图像生成模型。

在可选实施方式中，本实施方式还提供了一种笑容渐变函数的具体构建方法：

由于笑容渐变函数是用于表示人脸图像中的笑容程度的，其具体可理解为人脸图像沿“笑”的方向(法向量方向)移动的步长(幅度)之积。为了得到该笑容渐变函数，首先需要确定其中的“笑”的方向，即法向量方向。在本公开的可选实施方式中，该笑容渐变函数的法向量方向的确定具体可基于线性SVM分类器实现。

简单来说，线性SVM分类器是一种简单且有效的分类器形式，其可用于对若干待分类的特征进行分割以使类似的特征被归为相同类别，在这一过程中，线性SVM分类器将确定一超平面，在超平面一侧的特征属于一类别，而在超平面另一侧的特征属于另一类别。正是利用线性SVM分类器可确定超平面的特性，以基于其确定出的超平面并得到超平面的法向量，并将该法向量的方向作为笑容渐变函数的法向量方向，进而得到相应的笑容渐变函数。

基于该原理，在本实施方式中，可通过控制线性SVM分类器可基于第一人脸样本图像的笑容类型先对隐变量特征进行分类，然后再基于其分类结果对线性分类器模型进行训练。

其中，隐变量一般是指不可观测的随机变量。在本实施方式中，对于第一人脸样本图像来说，笑容类型可理解为可观测的变量，而隐变量特征可理解为不可观测的变量。

也就是说，其中，上述的第一人脸样本图像的数量为多个，每个第一人脸样本图像中包括笑容程度值和隐变量特征。

其中在可选实施方式中，对于上述的第一人脸样本图像的笑容程度值，具体可利用训练后的笑容分类模型对所述各第一人脸样本图像中的人脸进行笑容分类而获得的。

笑容分类模型是一种可用于对笑容程度进行分类和评估的神经网络模型，其具体可为基于resnet-101网络架构的分类模型，其可用于对输入的图像基于笑容这一维度进行分类和评估。

一般来说，为了使得预设的笑容分类模型可用于实现对笑容程度进行分类和评估的目的，可预先对该笑容分类模型进行训练。即，可选实施方式中，获取笑容分类样本图像，以及相应的笑容类型标注；利用所述笑容分类样本图像和所述笑容类型标注，对预先构建的笑容分类模型进行训练，得到所述训练后的笑容分类模型。

其中的笑容类型标注是通过人工对笑容分类样本图像进行“笑”或“不笑”判断后而得到的，例如，当笑容分类样本图像中的人脸具有很大的笑容，那么该图像的笑容类型标注为“大笑”；类似的，当笑容分类样本图像中的人脸具有微笑，那么该图像的笑容类型标注为“微笑”；类似的，当笑容分类样本图像中的人脸不具有笑容，那么该图像的笑容类型标注为“不笑”。而利用笑容分类样本图像以及相应的笑容类型标注，可使得笑容分类模型学习到“笑”的图像、“不笑”的图像，以及“笑”图像中的“笑”的类型，而这些类型还可对应为不同的笑容程度值。其中，“大笑”的笑容程度值最高，而“不笑”的笑容程度值最低。

而利用了训练后的笑容分类模型可对各第一人脸样本图像进行笑容类型识别，从而得到各第一人脸样本图像的笑容程度值。

此外，第一人脸样本图像的隐变量特征是在利用预训练模型生成所述第一人脸样本图像时确定的。

图3为本公开提供的一种笑容图像生成模型的训练方法的数据流示意图。参考图3，为了生成第一人脸样本图像，首先预置有一预训练模型，该预训练模型可包括StyleGAN模型，其可生成大量的第一人脸样本图像。在生成第一人脸样本图像时，预训练模型所基于的参数将被记录下来，以构成所述第一人脸样本图像的隐变量特征。

而在根据第一人脸样本图像构建笑容渐变函数时，可包括如下步骤2021-步骤2024：

步骤2021、根据各所述第一人脸样本图像的笑容程度值，对所述各所述第一人脸样本图像对应的隐变量特征进行样本分类，得到第一类隐变量特征样本和第二类隐变量特征样本。

步骤2022、根据所述第一类隐变量特征样本和所述第二类隐变量特征样本对线性分类器模型进行训练。

步骤2023、获取训练后的线性分类器模型输出的超平面，并获取该超平面的法向量方向。

步骤2024、根据所述法向量，得到所述笑容渐变函数。

参考图3，为了能够对线性分类器模型进行训练，以使其输出超平面，首先需要获得可用于对其进行训练的特征样本。其中，如之前原理所述的，线性SVM分类器所确定的超平面，在超平面一侧的特征属于一类别，而在超平面另一侧的特征属于另一类别。基于此，可将隐变量特征样本按照笑容程度值分为两类，以使得其中一类隐变量特征样本作为超平面一侧的特征，另一类隐变量特征样本作为超平面另一侧的特征。

基于此，可选实施方式中，在获得第一人脸样本图像的笑容类型和隐变量特征之后，对隐变量特征进行分类，得到用于对线性SVM分类器进行训练的第一类隐变量特征样本(正隐变量特征样本)和第二类隐变量特征样本(负隐变量特征样本)，以使训练后的线性SVM分类器将第一类隐变量特征样本和第二类隐变量特征样本进行准确分类。

具体的，训练装置将根据所述各所述第一人脸样本图像的笑容程度值，对各所述第一人脸样本图像的隐变量特征进行排序，得到隐变量特征序列；然后，根据隐变量特征序列，对所述各第一人脸样本图像进行分类，得到所述第一类隐变量特征样本和所述第二类隐变量特征样本。

其中，对于每一第一人脸样本图像的笑容程度值可用0至10之间的取值进行表征，如0表征为不笑，10表征为开怀大笑。

基于此，可根据笑容程度值对应的表征取值对第一人脸样本图像进行排序，并得到基于[第一人脸样本图像，隐变量特征，笑容类型]的排序(例如，以笑容类型进行排序)，例如：

[第一人脸样本图像4，隐变量特征4，笑容类型10]；

[第一人脸样本图像2，隐变量特征2，笑容类型7]；

[第一人脸样本图像1，隐变量特征3，笑容类型1]；

[第一人脸样本图像3，隐变量特征3，笑容类型0]。

然后，基于序列，对各隐变量特征分类，得到第一类隐变量特征样本(正隐变量特征样本)和第二类隐变量特征样本(负隐变量特征样本)。

即，以笑容程度值的表征取值为5作为表征取值的分类中间值，那么上述示例中的第一类隐变量特征样本(正隐变量特征样本)包括：[第一人脸样本图像4，隐变量特征4，笑容类型10]以及[第一人脸样本图像2，隐变量特征2，笑容类型7]。

而第二类隐变量特征样本(负隐变量特征样本)包括：[第一人脸样本图像1，隐变量特征3，笑容类型1]以及[第一人脸样本图像3，隐变量特征3，笑容类型0]。

随后，继续参考图3,训练装置将利用得到的第一类隐变量特征样本和第二类隐变量特征样本对线性SVM分类器(即线性分类器模型)进行训练，以根据训练后的线性SVM分类器的超平面的法向量，得到法向量方向N，而法向量方向N以及在其法向量方向上的步长C的乘积C*N可以构成笑容渐变函数。

如前原理所述的，利用该线性SVM分类器可确定出超平面的这一特性，以用来确定前述的笑容渐变函数。其中，可将笑容渐变函数与超平面进行关联，以使超平面用于将对应于“笑”这一笑容类型的特征与“不笑”这一笑容类型的特征区分开来。然后，基于该超平面，可分别确定出超平面的法向量方向N，在该法向量方向N的基础上进行一定移动(即步长C)，并最终得到笑容渐变函数C*N，该笑容渐变函数C*N可用于表示图像在“笑”这一特征维度上的幅度，即人脸图像中的笑容程度。

当获得笑容渐变函数C*N之后，还可如步骤103所示的，利用所述笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组。

具体的，第二样本人脸图像可包括：对将噪声数据添加至第一人脸样本图像而得到的人脸图像，也可为通过随机生成的方式生成的人脸图像。

在该步骤中，可基于所述笑容渐变函数，对每个所述第二人脸样本图像在所述法向量方向上的幅值进行多次不同步长的移动，得到每个第二人脸样本图像在不同笑容程度下的笑容图像；所述各个第二人脸样本图像在各笑容程度下的笑容图像构成所述笑容样本图像组。

即，通过改变笑容渐变函数C*N中的步长C，以形成多个笑容渐变函数，并基于该多个笑容渐变函数分别对第二人脸样本图像进行图像处理，得到每个第二人脸样本图像的多个笑容图像。其中，步长C对应不同的笑容程度，即，当步长C变化时，得到笑容图像中在“笑”这一特征维度上的幅度是不同的，即笑容程度不同。

通过该方式可获得样本笑容图像组，该样本笑容图像组中可以包括有不同第二人脸样本图像在不同笑容程度下的笑容图像。

该得到的样本笑容图像组将用于对笑容图像生成模型的训练，以生成训练后的笑容图像生成模型。

笑容图像生成模型具体可包括基于条件的生成对抗网络(ConditionalGenerative Adversarial Network)，以使得输出的笑容图像的笑容程度可控。

因此，在训练模型时，可将前述得到的样本笑容图像组中的每个笑容图像以及相应的笑容程度作为输入，以使模型可学习笑容程度与笑容图像之间的对应关系。

图4为本公开实施例提供的一种笑容图像生成模型的训练方法的数据流示意图。如图4所示的，与传统的GAN架构模型类似，本实施方式中的笑容图像生成模型包括有生成器和判别器，其中的生成器用于生成图像，而判别器用于判别生成器所生成图像的真伪。通过训练，生成器所生成的图像将通过判别器的判别(即判别为真)，并输出作为输出的图像。

与传统的GAN架构模型不同的是，在本实施方式中，由于模型的目标是输出具有期望笑容程度的笑容图像，因此，模型的判别器在判定输出图像的真伪的同时，还将进行图像的笑容程度的判定。

具体的，模型可对所述目标人脸图像进行基于嘴部区域的嘴部判别器以进行监督处理，通过所述嘴部判别器对笑容图像生成模型所输出的笑容图像进行基于嘴部区域的监督处理。

基于上述方式，当生成器所生成的图像即可通过判别器对于图像真伪的判别，又可通过判别器对其笑容程度的判定时，此时得到模型为训练后笑容图像生成模型。

本公开实施例提供的笑容图像生成模型的训练方法，获取第一人脸样本图像；对第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，笑容渐变函数用于表示人脸样本图像中的笑容程度；利用笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组；样本笑容图像组中包括每个第二人脸样本图像在不同笑容程度下的笑容图像；利用样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。利用该训练后的笑容图像生成模型，能够对目标人脸图像进行处理，以生成与期望笑容程度一致的笑容图像。通过这样的方式能够获得人脸的在期望笑容程度下的笑容图像，为用户带来更多的体验。

第二方面，图5为本公开实施例提供的一种笑容图像的生成方法的流程示意图。参考图5，本公开实施例提供的笑容图像的生成方法，包括：

步骤501、获取目标人脸图像；

步骤502、将所述目标人脸图像和期望笑容程度输入至训练后的笑容图像生成模型，以使所述训练后的笑容图像生成模型输出与所述目标人脸图像在所述期望笑容程度下的笑容图像；其中，所述笑容图像生成模型通过如上述任一项实施方式所述的训练方法训练得到。

当模型完成训练后，笑容图像的生成装置可获取目标人脸图像和期望笑容程度，然后，将二者输入至训练后的笑容图像生成模型，以使所述训练后的笑容图像生成模型输出与所述目标人脸图像在所述期望笑容程度下的笑容图像。

其中的期望笑容程度可为用户预设的；同时，基于不同的应用需求，该期望笑容程度可为单一的程度，如“开怀大笑”，该期望笑容程度还可为一系列程度，如“不笑至开怀大笑”。

本公开实施例提供的笑容图像的生成方法，获取第一人脸样本图像；对第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，笑容渐变函数用于表示人脸样本图像中的笑容程度；利用笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组；样本笑容图像组中包括每个第二人脸样本图像在不同笑容程度下的笑容图像；利用样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。利用该训练后的笑容图像生成模型，能够对目标人脸图像进行处理，以生成与期望笑容程度一致的笑容图像。通过这样的方式能够获得人脸的在期望笑容程度下的笑容图像，为用户带来更多的体验。

对应于上文实施例的笑容图像生成模型的训练方法，图6为本公开实施例提供的笑容图像生成模型的训练装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。

参照图6，所述笑容图像生成模型的训练装置包括：图像获取模块610、第一处理模块620、第二处理模块630、第三处理模块640。

图像获取模块610，用于获取第一人脸样本图像；

第一处理模块620，用于对所述第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，所述笑容渐变函数用于表示人脸样本图像中的笑容程度；

第二处理模块630，用于利用所述笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组；其中，样本笑容图像组中包括每个所述第二人脸样本图像在不同笑容程度下的笑容图像；

第三处理模块640，用于利用所述样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。

可选的，所述第一人脸样本图像的数量为多个，每个第一人脸样本图像的图像数据中包括笑容程度值和隐变量特征。

第一处理模块620，用于根据各所述第一人脸样本图像的笑容程度值，对所述各所述第一人脸样本图像对应的隐变量特征进行样本分类，得到第一类隐变量特征样本和第二类隐变量特征样本；根据所述第一类隐变量特征样本和所述第二类隐变量特征样本对线性分类器模型进行训练；获取训练后的线性分类器模型输出的超平面，并获取所述超平面的法向量方向；根据所述法向量，得到所述笑容渐变函数。

可选的，所述第二处理模块630，用于基于所述笑容渐变函数，对每个所述第二人脸样本图像在所述法向量方向上的幅值进行多次不同步长的移动，得到每个第二人脸样本图像在不同笑容程度下的笑容图像；所述各个第二人脸样本图像在各笑容程度下的笑容图像构成所述笑容样本图像组。

可选的，第一处理模块620，用于根据所述各所述第一人脸样本图像的笑容程度值，对各所述第一人脸样本图像的隐变量特征进行排序，得到隐变量特征序列；根据隐变量特征序列，对所述各第一人脸样本图像进行分类，得到所述第一类隐变量特征样本和所述第二类隐变量特征样本。

可选的，所述获取第一人脸样本图像的隐变量特征是在利用预训练模型生成所述第一人脸样本图像时确定的。

可选的，所述根据各所述第一人脸样本图像的图像数据中的笑容程度值是利用训练后的笑容分类模型对所述各第一人脸样本图像中的人脸进行笑容分类而获得的。

可选的，所述第一处理模块620，还用于在获取第一人脸样本图像的图像数据之前，获取笑容分类样本图像，以及相应的笑容类型标注；利用所述笑容分类样本图像和所述笑容类型标注，对预先构建的笑容分类模型进行训练，得到所述训练后的笑容分类模型。

可选的，所述笑容图像生成模型包括生成对抗网络，所述生成对抗网络包括嘴部判别器；相应地，第三处理模块640，用于通过所述嘴部判别器对笑容图像生成模型所输出的笑容图像进行基于嘴部区域的监督处理。

本公开实施例提供的笑容图像生成模型的训练装置，获取第一人脸样本图像；对第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，笑容渐变函数用于表示人脸样本图像中的笑容程度；利用笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组；样本笑容图像组中包括每个第二人脸样本图像在不同笑容程度下的笑容图像；利用样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。利用该训练后的笑容图像生成模型，能够对目标人脸图像进行处理，以生成与期望笑容程度一致的笑容图像。通过这样的方式能够获得人脸的在期望笑容程度下的笑容图像，为用户带来更多的体验。

对应于上文实施例的笑容图像的生成方法，图7为本公开实施例提供的笑容图像的生成装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图7，所述笑容图像生成模型的训练装置包括：图像获取模块710、图像生成模块720。

图像获取模块710，用于获取目标人脸图像；

图像生成模块720，用于将所述目标人脸图像和期望笑容程度输入至训练后的笑容图像生成模型，以使所述训练后的笑容图像生成模型输出与所述目标人脸图像在所述期望笑容程度下的笑容图像；

其中，所述笑容图像生成模型通过如上述训练方法训练得到。

本公开实施例提供的笑容图像的生成装置，获取第一人脸样本图像；对第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，笑容渐变函数用于表示人脸样本图像中的笑容程度；利用笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组；样本笑容图像组中包括每个第二人脸样本图像在不同笑容程度下的笑容图像；利用样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。利用该训练后的笑容图像生成模型，能够对目标人脸图像进行处理，以生成与期望笑容程度一致的笑容图像。通过这样的方式能够获得人脸的在期望笑容程度下的笑容图像，为用户带来更多的体验。

本实施例提供的电子设备，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

参考图8，其示出了适于用来实现本公开实施例的电子设备900的结构示意图，该电子设备900可以为终端设备或媒体库。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑(Portable Android Device，简称PAD)、便携式多媒体播放器(Portable MediaPlayer，简称PMP)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图8示出的电子设备仅仅是一个实施例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备900可以包括用于执行上述各方法的处理器901(例如中央处理器、图形处理器等)，其可以根据存储在只读存储器(Read Only Memory，简称ROM)902中的程序或者从存储装置908加载到随机访问存储器(Random Access Memory，简称RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有电子设备900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

通常，以下装置可以连接至I/O接口905：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906；包括例如液晶屏幕(Liquid CrystalDisplay，简称LCD)、扬声器、振动器等的输出装置907；包括例如磁带、硬盘等的存储装置908；以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备900，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行根据本公开实施例所述的各流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置909从网络上被下载和安装，或者从存储装置908被安装，或者从ROM 902被安装。在该计算机程序被处理器901执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或媒体库上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network，简称LAN)或广域网(Wide Area Network，简称WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体实施例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

以下是本公开的一些实施例。

第一方面，根据本公开的一个或多个实施例，一种笑容图像生成模型的训练方法，包括：

获取第一人脸样本图像；

对所述第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，所述笑容渐变函数用于表示人脸样本图像中的笑容程度；

利用所述样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。

可选的，所述第一人脸样本图像的数量为多个，每个第一人脸样本图像的图像数据中包括笑容程度值和隐变量特征；

所述对所述第一人脸样本图像进行第一处理，得到笑容渐变函数，包括：

根据各所述第一人脸样本图像的笑容程度值，对各所述第一人脸样本图像对应的隐变量特征进行样本分类，得到第一类隐变量特征样本和第二类隐变量特征样本；

根据所述第一类隐变量特征样本和所述第二类隐变量特征样本对线性分类器模型进行训练；

获取训练后的线性分类器模型输出的超平面，获取所述超平面的法向量方向；

根据所述法向量，得到所述笑容渐变函数。

可选的，所述利用所述笑容渐变函数，对多个第二人脸样本图像进行第二处理，得到样本笑容图像组，包括：

基于所述笑容渐变函数，对每个所述第二人脸样本图像在所述法向量方向上的幅值进行多次不同步长的移动，得到每个第二人脸样本图像在不同笑容程度下的笑容图像；

所述各个第二人脸样本图像在各笑容程度下的笑容图像构成所述笑容样本图像组。

可选的，根据各所述第一人脸样本图像的笑容程度值，对各所述第一人脸样本图像对应的隐变量特征进行样本分类，得到第一类隐变量特征样本和第二类隐变量特征样本，包括：

根据所述各所述第一人脸样本图像的笑容程度值，对各所述第一人脸样本图像的隐变量特征进行排序，得到隐变量特征序列；

根据隐变量特征序列，对所述各第一人脸样本图像进行分类，得到所述第一类隐变量特征样本和所述第二类隐变量特征样本。

可选的，所述获取第一人脸样本图像的隐变量特征是在利用预训练模型生成所述第一人脸样本图像时确定的。

可选的，所述获取第一人脸样本图像的图像数据之前，还包括：

获取笑容分类样本图像，以及相应的笑容类型标注；

利用所述笑容分类样本图像和所述笑容类型标注，对预先构建的笑容分类模型进行训练，得到所述训练后的笑容分类模型。

可选的，所述笑容图像生成模型包括生成对抗网络，所述生成对抗网络包括嘴部判别器；

所述方法包括：

通过所述嘴部判别器对笑容图像生成模型所输出的笑容图像进行基于嘴部区域的监督处理。

第二方面，根据本公开的一个或多个实施例，一种笑容图像的生成方法，包括：

获取目标人脸图像；

其中，所述笑容图像生成模型通过如上述第一方面中任一项所述的训练方法训练得到。

第三方面，根据本公开的一个或多个实施例，一种笑容图像生成模型的训练装置，包括：

图像获取模块，用于获取第一人脸样本图像；

第一处理模块，用于对所述第一人脸样本图像进行第一处理，得到笑容渐变函数；其中，所述笑容渐变函数用于表示人脸样本图像中的笑容程度；

第三处理模块，用于利用所述样本笑容图像组对预先设置的笑容图像生成模型进行训练，得到训练后的笑容图像生成模型。

可选的，所述第一人脸样本图像的数量为多个，每个第一人脸样本图像的图像数据中包括笑容程度值和隐变量特征；

第一处理模块，具体用于根据各所述第一人脸样本图像的笑容程度值，对各所述第一人脸样本图像对应的隐变量特征进行样本分类，得到第一类隐变量特征样本和第二类隐变量特征样本；根据所述第一类隐变量特征样本和所述第二类隐变量特征样本对线性分类器模型进行训练；获取训练后的线性分类器模型输出的超平面，获取所述超平面的法向量方向；根据所述法向量，得到所述笑容渐变函数。

可选的，所述第二处理模块，具体用于基于所述笑容渐变函数，对每个所述第二人脸样本图像在所述法向量方向上的幅值进行多次不同步长的移动，得到每个第二人脸样本图像在不同笑容程度下的笑容图像；所述各个第二人脸样本图像在各笑容程度下的笑容图像构成所述笑容样本图像组。

可选的，第一处理模块，具体用于根据所述各所述第一人脸样本图像的笑容程度值，对各所述第一人脸样本图像的隐变量特征进行排序，得到隐变量特征序列；根据隐变量特征序列，对所述各第一人脸样本图像进行分类，得到所述第一类隐变量特征样本和所述第二类隐变量特征样本。

可选的，所述获取第一人脸样本图像的隐变量特征是在利用预训练模型生成所述第一人脸样本图像时确定的。

可选的，所述第一处理模块，具体还用于在获取第一人脸样本图像的图像数据之前，获取笑容分类样本图像，以及相应的笑容类型标注；利用所述笑容分类样本图像和所述笑容类型标注，对预先构建的笑容分类模型进行训练，得到所述训练后的笑容分类模型。

可选的，所述笑容图像生成模型包括生成对抗网络，所述生成对抗网络包括嘴部判别器；

第三处理模块，具体用于通过所述嘴部判别器对笑容图像生成模型所输出的笑容图像进行基于嘴部区域的监督处理。

第四方面，本公开实施例提供了一种笑容图像的生成装置，包括：

图像获取模块，用于获取目标人脸图像；

其中，所述笑容图像生成模型通过如上述所述的训练方法训练得到。

第五方面，本公开实施例提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的实施例形式。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 图像生成模型的训练方法和装置、图像生成方法及装置 [P] . 中国专利： CN115631103A . 2023-01-20
2. 图像生成模型的训练方法、图像生成方法和装置 [P] . 中国专利： CN115631261A . 2023-01-20
3. METHOD FOR TRAINING IMAGE GENERATION MODEL, IMAGE GENERATION METHOD, DEVICE AND APPARATUS, AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2020199478A1 . 2020-10-08

机译：图像生成模型的训练方法，图像生成方法，装置和装置以及存储介质
4. Image set generation device and generation method for learning, program, image generation model learning device, image generation device, image discrimination model learning device, image discrimination device, and automatic welding system [P] . 日本专利： JP2021157691A . 2021-10-07

机译：图像集生成装置和学习，程序，图像生成模型学习设备，图像生成装置，图像鉴别模型学习设备，图像辨别装置和自动焊接系统的生成方法
5. LEARNING DEVICE, METHOD, AND PROGRAM, IMAGE GENERATION DEVICE, METHOD, AND PROGRAM, AND IMAGE GENERATION MODEL [P] . 日本专利： WO2021066068A1 . 2021-04-08

机译：学习设备，方法和程序，图像生成设备，方法和程序以及图像生成模型