首页> 中国专利> 基于隐空间解耦的人脸编辑的深度视频传播方法

基于隐空间解耦的人脸编辑的深度视频传播方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种基于隐空间解耦的人脸编辑的深度视频传播方法。本发明的技术方案为：获取待编辑视频和编辑帧，其中待编辑视频中至少一帧视频帧包含人脸图像，所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到；从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧各自的面部对齐图像；基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数。本发明适用于计算机视觉、计算机图形学领域。本发明通过将对齐的人脸图像深度解耦到生成模型的隐空间中，实现动作、外貌、几何的解耦，进而修改需要传播的几何、外貌属性而不影响原视频的动作内容，实现视频上的人脸编辑传播。

著录项

公开/公告号CN114845067A

专利类型发明专利
公开/公告日2022-08-02

原文格式PDF
申请/专利权人中科计算技术创新研究院;
展开▼

申请/专利号CN202210779300.9
发明设计人高林;姜悦人;陈姝宇;
展开▼

申请日2022-07-04
分类号H04N5/262(2006.01);H04N5/265(2006.01);H04N21/81(2011.01);G06V40/16(2022.01);G06V20/40(2022.01);G06V10/774(2022.01);
代理机构杭州九洲专利事务所有限公司 33101;
代理人沈敏强
地址 310015 浙江省杭州市拱墅区祥园路108号4幢12层
入库时间 2023-06-19 16:16:00

法律信息

法律状态公告日

法律状态信息

法律状态
2022-11-04

授权

发明专利权授予
2022-08-19

实质审查的生效 IPC(主分类):H04N 5/262 专利申请号:2022107793009 申请日:20220704

实质审查的生效

说明书

技术领域

本发明涉及一种基于隐空间解耦的人脸编辑的深度视频传播方法。适用于计算机视觉、计算机图形学领域。

背景技术

人脸视频的编辑传播指将人脸编辑效果从一个或多个视频关键帧一致地传播到其他视频帧上。经典的编辑传播工作（如Xu K等人在2009年ACM Transactions onGraphics提出的“Efficient affinity-based edit propagation using kd tree”）通过设计判别帧间像素关系的算法，实现了颜色编辑的视频传播。随着深度生成模型的发展，更多的传播效果如视频风格化（如Texler O等人在2020年ACM Transactions on Graphics提出的“Interactive video stylization using few-shot patch-based training”）和视频着色（如Lei C等人在2019年The IEEE Conference on Computer Vision and PatternRecognition上提出的“Fully automatic video colorization with self-regularization and diversity”）被探索出来。Jampani 等人在2017年The IEEEConference on Computer Vision and Pattern Recognition提出Video PropagationNetworks 使用双边滤波网络进行自适应的视频传播，将信息从前一帧传输到后一帧，然后通过空间网络进行细化。Kasten 等人在2021年ACM Transactions on Graphics上提出“Layered neural atlases for consistent video editing”，显式地重建了分层神经图谱（Layered Neural Atlases）, 该图谱表示多个连续帧上的内容，从而允许对单个关键帧以外的内容进行直观编辑。然而，他们的方法在编辑之前需要花费数小时对每个视频进行单独训练以构建图谱。Yao等人在2021年The IEEE/CVF International Conference onComputer Vision上提出了“A latent transformer for disentangled face editing inimages and videos”，一种基于Transformer 的隐空间编码器来解耦StyleGAN2，进而实现语义视频编辑。Tzaban等人在2022年提出了“Stitch it in time: Gan-based facialediting of real videos”，设计了背景缝合训练消除StyleGAN2 生成图像贴回视频中出现的边缘瑕疵。然而，这些方法仅能处理固定属性的视频编辑，无法传播给定关键帧的编辑效果。为了支持实时推理，Texler 等人在2020年ACM Transactions on Graphics提出了“Interactive video stylization using few-shot patch-based training”，基于局部图案的训练实现了视频风格化迁移，只使用几个风格化的样例来训练外观迁移网络，同时隐式地保持了时间一致性。当可以建立对应关系时，他们的方法效果很好，但当关键帧包含几何体编辑时，这种方法就难以处理。

视频是互联网另一大信息载体，视频传播的流行催生了基于视频的人脸编辑需求。尽管已经有很多基于图像的人脸编辑研究，然而大部分单张图像的人脸编辑，难以直接运用到视频编辑上。其原因在于将单帧人脸编辑效果传播到视频上存在诸多挑战：1. 满足人脸的3D 运动规律约束；2. 视频序列中人脸特征一致性；3. 编辑的视频时序变化的一致性。

目前的人脸视频编辑方法都局限于某一类特定的编辑效果，例如Chen等人在2020年发表于The 28th ACM International Conference on Multimedia提出的“Simswap: Anefficient framework for high fidelity face swapping.”方法利用深度网络交换视频帧人脸信息，可以进行视频换脸，但无法处理头发等脸外部分，无法用于颜色编辑的传播；Texler等人在2020年ACM Transactions on Graphics提出的“Interactive videostylization using fewshot patch-based training.”方法在图像块上对风格化输入进行深度网络训练，能在视频上传播艺术风格化编辑效果，但难以处理人脸几何发生变化的情况；而Siarohin等人在2019年Conference on Neural Information ProcessingSystems (NeurIPS)提出的“First order motion model for image animation.”方法利用无监督学习预测变形场，可以驱动各种方法编辑后的人脸，但难以精确还原源人物动作且分辨率低。商业上移动端的特效更多都是预设的滤镜或者预设的AR贴图特效。综上所述可见现有的人脸视频编辑技术针对特定效果开发，而没有对编辑传播过程进行归纳和更本质的研究。因此，开发一种新的泛用性广的高质量人脸视频编辑传播方法亟待解决。

发明内容

本发明要解决的技术问题是：针对上述存在的问题，提供一种基于隐空间解耦的人脸编辑的深度视频传播方法。

本发明所采用的技术方案是：一种基于隐空间解耦的人脸编辑的深度视频传播方法，其特征在于：

获取待编辑视频和编辑帧，其中待编辑视频中至少一帧视频帧包含人脸图像，所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到；

从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧各自的面部对齐图像；

基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数；

将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数，通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码；

通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码；

基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量；

基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像；

融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧，生成经人脸编辑的视频结果帧。

所述从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧的面部对齐图像，包括：

基于裁剪出的人脸图像使用FFHQ数据集的面部对齐算法获得人脸图像的面部对齐图像。

所述基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像，包括：采用StyleGAN2图像生成模型生成人脸编辑图像。

所述人脸几何编辑投影网络采用金字塔结构来提取输入图像的特征图，采用四层多层感知机编码输入的3DMM参数，然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2图像生成模型的隐空间中。

所述融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧，生成经人脸编辑的视频结果帧，包括：

其中，

所述人脸几何编辑投影网络的训练采用三重损失函数监督，所述三重损失函数

其中，

所述损失函数

其中

所述图像生成模型的训练采用如下损失：

其中，

一种基于隐空间解耦的人脸编辑的深度视频传播装置，其特征在于：

获取模块，用于获取待编辑视频和编辑帧，其中待编辑视频中至少一帧视频帧包含人脸图像，所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到；

对齐模块，用于从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧各自的面部对齐图像；

参数提取模块，用于基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数；

第一编码模块，用于将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数，通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码；

第二编码模块，用于通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码；

外观分量确定模块，用于基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量；

编辑生成模块，用于基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像；

视频融合模块，用于融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧，生成经人脸编辑的视频结果帧。

一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如所述方法的步骤。

一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述方法的步骤。

一种电子设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述方法的步骤。

本发明的有益效果是：本发明通过将对齐的人脸图像深度解耦到生成模型的隐空间中，实现动作、外貌、几何的解耦，进而修改需要传播的几何、外貌属性而不影响原视频的动作内容，实现视频上的人脸编辑传播。

本发明与人脸跟踪驱动、深度学习换脸以及传统图像变形的方法相比，受人脸关键点检测精度影响更小，能支持复杂的编辑内容，可更好地保留原视频动作细节，同时合成对应的编辑传播结果，并保证时序性。

本发明中人脸几何编辑投影网络整体采用金字塔结构来提取输入图像特征图，用四层多层感知机（MLP）编码输入的3DMM参数，然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2 的隐空间中，可以控制投影隐码的3D嵌入，实现传播几何编辑的技术效果。

本发明采用先投影到生成网络隐空间，解耦计算传播隐码，再生成视频的框架，无需计算光流也可实现保证时序性。

在训练的过程中，为了约束生成人脸的几何形状并尽可能精确地控制3DMM 参数，本发明设计了三重损失函数来监督人脸几何编辑投影网络的训练，实现了比单一监督更鲁棒的技术效果。

附图说明

图 1展示了实施例的传播结果。给定一个视频和一对原始和编辑的帧图像（示例中的左列），经过几分钟的对生成器的微调，本实施例的方法成功地将编辑效果传播到整个视频序列。本实施例的方法支持形状和纹理的编辑。此图中的编辑帧是通过 Photoshop编辑图像获得的。

图 2展示了实施例的结构框架。给定一系列视频帧和一个经过编辑的编辑帧，首先裁剪并对齐其中的人脸，使用预训练网络获取每个视频帧和编辑帧的3DMM参数，然后用编辑帧的形状参数替换每个视频帧的形状参数，最后通过人脸几何编辑投影网络将图像和形状信息映射到StyleGAN2隐空间。将编辑后的形状参数嵌入到隐码中后，找到其余编辑后的颜色和细节编辑隐码方向，并用于确定几何编辑之外的外观传播。最后，使用视频帧和编辑帧来微调生成器，并将生成的编辑人脸投影和合并到原始视频帧中。

图 3展示了StyleGAN2隐空间中流形上的编辑传播。

图 4展示了实施例中人脸几何编辑投影网络的详细架构，其中leaky-ReLU指带泄露线性整流函数。

图 5展示了实施例中映射块的详细架构，其中leaky-ReLU指带泄露线性整流函数。

图 6展示了实施例方法更多的传播结果。第2行的编辑帧是使用Photoshop实现的，第3行的编辑帧是通过现有的深度编辑方法StyleClip得到的，然后在Photoshop中进行手动优化。本实施例可以有效地传播各种编辑效果，而不受编辑方法的限制。

图 7展示了人脸图像上的几何编辑结果。给定每个人脸形状参考，实施例可以编辑输入图像的人脸形状，同时保持外观和表情，并最小化身份的变化。

图 8展示了语义传播的结果，适用于现有隐空间语义编辑的传播。

图 9展示了实施例传播磨皮的编辑效果。

具体实施方式

本实施例为一种基于隐空间解耦的人脸编辑的深度视频传播方法，具体包括以下步骤：

S1、获取待编辑视频和一编辑帧，其中待编辑视频中至少一帧视频帧包含人脸图像，编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到。

S2、从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧各自的面部对齐图像。

本实施例使用FFHQ数据集的面部对齐算法获得第

S3、使用预训练深度三维重建网络从第

为了确保几何编辑的正确传播，本实施例在 GAN 反转过程中向编码器引入了 3D监督。给定图像I，使用预训练的深度三维重建网络

3DMM参数分别对应形状、面部表情、反照率、光照、姿态和平移的系数。本实施例的目标是根据给定的3DMM参数控制反转的隐码，以便本实施例可以将形状属性从编辑帧转移到其他帧。

S4、将第i帧视频帧3DMM参数

其中，

S5、通过人脸几何编辑投影网络E将编辑帧的3DMM参数

S6、基于编辑帧的隐码

其中，

S7、基于外观修改隐码分量

其中，G为StyleGAN2图像生成模型。

S8、融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧，生成经人脸编辑的视频结果帧。

本实施例根据以下公式投影并融合生成的人脸编辑图像

其中，

本实施例中人脸几何编辑投影网络

本实施例中网络模型的训练策略与损失函数如下：

本实施例实现了自监督训练，损失函数由重建损失

映射网络首先重构输入图像

其中，C代表预训练的ArcFace来提取身份特征；然后，通过输入和输出的身份特征之间的余弦相似性（表示为

本实施例的框架需要输入编辑后的外观图像或形状参考图像，但很难获得编辑前后的成对的真值训练数据。为了模拟训练过程中可能出现的编辑效果，本发明随机选择了两幅图像：以几何编辑为例，一幅用作参考

其中，

为了约束生成的编辑图像

对于生成的编辑图像

虽然人脸的几何编辑会影响身份，但本实施例希望除了形状之外，影响身份的外观细节和其他属性将尽可能保留。因此，本实施例使用

此外，为了约束生成的图像形状并尽可能精确地控制3DMM参数，本实施例设计了一个三重损失

其中，

视频生成的另一个重点是确保时间平滑度，本实施例方法与其他视频生成工作直接基于光流约束其生成网络不同，在大多数情况下，输入视频是时序一致的，为了保持输出视频的时序一致性，本实施例只需要在编辑传播过程中保持原始视频的一致性。

由于本实施例在训练期间限制了几何和身份，因此从图像到隐码的映射非常稳健。然后，当输入视频帧平滑对齐时，使隐码连续变化并保留时序性。最后通过StyleGAN2生成图像序列。本实施例发现StyleGAN2以这种方式生成的视频在大多数情况下没有时间上的不一致性问题。

为了使生成的效果符合给定的视频、关键帧和对应的编辑帧，本实施例固定了人脸几何编辑投影网络

本实施例还提供一种基于隐空间解耦的人脸编辑的深度视频传播装置，包括获取模块、对齐模块、参数提取模块、第一编码模块、第二编码模块、外观分量确定模块、编辑生成模块和视频融合模块。

本例中获取模块用于获取待编辑视频和编辑帧，其中待编辑视频中至少一帧视频帧包含人脸图像，编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到；对齐模块用于从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧各自的面部对齐图像；参数提取模块用于基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数；第一编码模块用于将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数，通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码；第二编码模块用于通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码；外观分量确定模块用于基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量；编辑生成模块用于基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像；视频融合模块用于融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧，生成经人脸编辑的视频结果帧。

本实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。

本实施例还提供一种存储介质，其上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。

本实施例还提供一种电子设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于隐空间解耦的人脸编辑的深度视频传播方法 [P] . 中国专利： CN114845067A . 2022-08-02
2. 基于生成对抗网络隐空间解构的人脸属性精细化编辑方法 [P] . 中国专利： CN111951153A . 2020-11-17
3. A Methord of Video Recognition Network of Face Tampering Based on Deep Learning [P] . AU2019101186A4 . 2020-01-23

机译：基于深度学习的人脸篡改视频识别网络方法
4. METHOD FOR PREDICTING STRUCTURE OF INDOOR SPACE USING WIRELESS SIGNAL PROPAGATION CHANNEL ANALYSIS THROUGH DEEP LEARNING [P] . 世界知识产权组织专利： WO2019212069A1 . 2019-11-07

机译：基于深度学习的无线信号传播通道分析预测室内空间结构的方法
5. METHOD FOR PREDICTING STRUCTURE OF INDOOR SPACE USING RADIO SIGNAL PROPAGATION CHANNEL ANALYSIS THROUGH DEEP LEARNING [P] . 韩国专利： KR20190125624A . 2019-11-07

机译：基于深度学习的无线电信号传播通道分析预测室内空间结构的方法