首页> 中国专利> 一种基于自监督学习的非配对人脸图像翻译方法

一种基于自监督学习的非配对人脸图像翻译方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于自监督学习的非配对人脸图像翻译方法。本发明方法使用域解耦合的策略，通过独立的风格编码网络和内容编码网络分别得到风格特征和内容特征；并借助自适应归一化方法，在统一解码网络中对风格特征和内容特征逐步进行融合，最终得到图像翻译结果。针对非配对图像翻译问题，本发明提出了使用自监督学习将非配对的图像翻译任务转化为配对的图像编码翻译任务的方法，并继而通过成熟的配对图像翻译方法解决该问题；此外，针对人脸图像翻译问题，本发明提出了借助人脸画像之间面部组件的结构共性，通过构建人脸组件字典加强对人脸组件的图像翻译效果的方法。

著录项

公开/公告号CN112907494A

专利类型发明专利
公开/公告日2021-06-04

原文格式PDF
申请/专利权人杭州电子科技大学;
展开▼

申请/专利号CN202110087906.1
发明设计人方楠;高飞;
展开▼

申请日2021-01-22
分类号G06T5/50(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构33240 杭州君度专利代理事务所(特殊普通合伙);
代理人朱月芬
地址 310018 浙江省杭州市下沙高教园区2号大街
入库时间 2023-06-19 11:14:36

说明书

技术领域

本发明属于图像处理领域，具体涉及一种基于自监督学习的非配对人脸图像翻译方法(Unpaired face image translation method based on self-supervisedlearning)，主要涉及使用自监督学习的方法将非配对的图像翻译任务转化为配对的图像编码翻译任务，并借助人脸画像之间面部组件的结构共性，借助人脸组件字典进一步加强对人脸组件的翻译效果，从而实现较好的非配对人脸图像的翻译效果。

背景技术

图像到图像的转换是一类视觉和图像问题，其目的是为了从给定的一个图像中获取内容特征，从另一个图像中获取风格特征，将两者进行融合，从而得到具有两者各自的风格和内容特征的融合图像。

传统的图像到图像的翻译任务都是使用的数字图像处理和信号加工的方法，如笔触渲染、图像类比、图像滤波、纹理合成等，但是这些模型普遍需要大量的人工调参以及具有对于图像的深层语义信息表达能力弱的问题。自神经图像翻译技术提出后，通过叠加卷积、归一化和非线性层来代替传统的数字图像处理方法，利用神经网络通过迭代优化来自学习从源图像到目标图像的非线性映射函数，利用深度叠加卷积来提取图像的深层语义信息，使得传统的图像翻译任务取得了巨大的成功。

根据神经图像翻译技术，可以将图像翻译任务看作是学习两个图像域之间的由一个图像域到另一个图像域的仿射函数。为了更好的学习到这个仿射函数，目前绝大多数的图像翻译模型都是采用的严格一一配对的训练图像，并借助大量重复的一一配对的训练图像，来加强神经网络对于这一个仿射函数的学习，并都在此基于配对图像数据集的图像翻译任务中取了非常成功的成绩。

但是在现实的应用场景中，绝大多数的数据集都是不含有特别的人工标注标签，并且是没有配对的目标图像的。如何根据这类非配对的数据集来鲁棒的学习到两个图像域之间的统一映射函数，是图像翻译任务的真正研究方向，也是目前图像翻译技术所表现不足的。特别是在针对非配对人脸图像数据集的图像翻译任务中，目前的方法具有很大的局限性。

发明内容

针对现有技术中存在的不足，本发明提供一种基于自监督学习的非配对人脸图像翻译方法。

使用自监督学习的方法将非配对的图像翻译任务转化为配对的图像编码翻译任务，并借助人脸画像之间面部组件的结构共性，借助人脸组件字典进一步加强对人脸组件的翻译效果，从而实现较好的非配对人脸图像的翻译效果。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)、针对非配对的人脸图像翻译数据集，采用域解耦合的策略，设计两个独立的风格编码网络encoderS和内容编码网络encoderC，分别对风格图像S和内容图像C进行编码，得到风格特征s和内容特征c，并保证s和c具有相同的特征维度；

步骤(2)、根据内容编码网络encoderC构建一个与之相对的解码网络decoder，并替换decoder中对应的归一化层为自适应归一化(AdaIN)层；风格编码网络encoderS、内容编码网络encoderC以及解码网络decoder构成图像翻译网络。

步骤(3)、将内容编码c通过解码网络decoder进行传导，记作编码f

其中μ(·)和σ(·)分别表示均值和标准差。

利用基于人脸组件字典的组件约束对得到的新的编码结果f

步骤(4)、针对非配对的人脸图像翻译数据集，为了引导网络模型能够实现在非配对情况下的人脸图像翻译任务，需要进行约束，具体操作如下：

利用自重建损失L

其中G(x,y)代表图像翻译网络，x代表内容图，y代表风格图，(此处的x和y为指代，并非实际参数)。

利用风格对比损失L

其中

利用生成对抗网络和对抗损失来约束图像翻译的感知质量：

其中D表示生成对抗网络中的判别网络。

进一步的，所述风格编码网络encoderS对风格图像S进行编码的具体操作如下：

利用数据增强方法对风格图像进行数据扩充，构建扩充数据样本S'与源样本S的正样本对；

针对非配对的人脸图像翻译数据集中的每一种图像风格类型都构建一个相应的风格字典，用于存储该风格类型的风格图像通过风格编码网络encoderS得到的风格特征；

将其他风格类型对应的风格字典作为负样本q

其中s为当前源样本S对应的风格特征，k为负样本类型，τ为温度超参数。

进一步的，利用图像块代替完整图像作为风格编码网络的输入，减少完整风格图像内部所包含的个性信息对编码结果的影响，通过控制图像块的大小能够调节风格特征的感知野和个性信息的影响程度，具体操作如下：

对非配对的人脸图像翻译数据集中的每一个风格图像样本，从中随机的裁剪出N个大小为M*M的图像块，作为对应的图像块样本(N根据数据集的规模进行选择，M根据数据集中的风格图像的尺寸进行确定)；

以N个图像块代替完整图像作为输入，通过风格编码网络encoderS得到对应的风格编码s。

进一步的，利用基于人脸组件字典的组件约束对得到的新的编码结果f

使用dlib检测内容图像C中的人脸组件位置L，将其通过内容编码网络encoderC进行编码，提取其在编码网络的每一个下采样层得到的特征图fc

使用K-Means聚类方法对每一种组件类型对应的组件特征集合进行聚类操作，构建得到组件字典Q

其中i∈{1,2,3,4}表示当前特征图对应的下采样深度，j∈{左眼,右眼,鼻子,嘴巴}表示对应的组件类型。

在使用解码网络对图像进行特征融合翻译重建时，同样使用ROI Align对每一个上采样层得到的特征图进行裁剪，利用组件内容损失来约束重构得到的特征图f

利用基于人脸组件字典的组件约束对每一层特征解码层得到的编码结果f

本发明有益效果如下：

针对非配对图像翻译问题，本发明提出了使用自监督学习将非配对的图像翻译任务转化为配对的图像编码翻译任务的方法，并继而通过成熟的配对图像翻译方法解决该问题；此外，针对人脸图像翻译问题，本发明提出了借助人脸画像之间面部组件的结构共性，通过构建人脸组件字典加强对人脸组件的图像翻译效果的方法。本发明为非配对图像翻译任务和人脸图像翻译任务提供了一种有效的技术路线。

附图说明

图1是基于域解耦合的图像翻译网络示意图；

图2是基于自监督学习的风格编码网络示意图；

具体实施细节

下面结合附图对本发明做进一步说明。

如图1和图2所示，一种基于自监督学习的非配对人脸图像翻译方法，具体包括如下步骤：