首页> 中国专利> 人脸图像重演方法、装置、计算机设备及存储介质

人脸图像重演方法、装置、计算机设备及存储介质

摘要

本申请公开人脸图像重演方法、装置、计算机设备及存储介质,该方法包括:采集目标用户人脸图像的第一参数集和第二参数集;根据所述第一参数集和第二参数集对所述人脸图像进行三维建模,生成第一模拟图像和第二模拟图像;将所述第一模拟图像和第二模拟图像输入至预设的运动预估模型中;读取所述运动预估模型输出的运动向量,并将预设的源图像和所述运动向量输入至预设的人脸重演模型中;读取所述人脸重演模型输出的所述人脸图像的重演图像。通过该方法,实现了基于两张人脸图像的参数集,生成真实人脸图像的重演,提高了重演图像的真实性,使重演技术的适用性更加广泛。

著录项

  • 公开/公告号CN112652058A

    专利类型发明专利

  • 公开/公告日2021-04-13

    原文格式PDF

  • 申请/专利权人 广州华多网络科技有限公司;

    申请/专利号CN202011639654.0

  • 发明设计人 郑康元;王雷;

    申请日2020-12-31

  • 分类号G06T17/00(20060101);G06T15/00(20110101);G06T7/20(20170101);G06N3/04(20060101);

  • 代理机构44673 广州利能知识产权代理事务所(普通合伙);

  • 代理人王增鑫

  • 地址 511442 广东省广州市番禺区南村镇万达广场B-1栋29层

  • 入库时间 2023-06-19 10:35:20

说明书

技术领域

本申请实施例涉及图像处理领域,尤其是一种人脸图像重演方法、装置、计算机设备及存储介质。

背景技术

人脸重演技术,是基于一张给定的2D人脸驱动图像的表情和姿态,对另一张人脸源图片进行驱动生成的图片。生成的人脸图片将保留人脸源图片的身份信息,同时包含人脸驱动图像的表情和姿态。目前在可视化通信、虚拟会议、游戏娱乐、教学辅助、直播和短视频等具有广泛的应用。

现有技术中的人脸推演技术,通常采用提取人脸图形的关键点特征信息,然后,根据关键点特征信息进行三维图像建模,建模完成后根据建模模型实现对人脸图像的模拟重演。本申请创造的发明人在研究中发现:现有技术中人脸推演技术只能实现人脸图像的模拟重演,无法通过现实人脸图像实现现实状态的人脸图像重演。

发明内容

本申请实施例提供一种能够实现现实状态人脸图像重演的人脸图像重演方法、装置、计算机设备及存储介质。

为解决上述技术问题,本申请创造的实施例采用的一个技术方案是:提供一种人脸图像重演方法,包括:

采集目标用户人脸图像的第一参数集和第二参数集;

根据所述第一参数集和第二参数集对所述人脸图像进行三维建模,生成第一模拟图像和第二模拟图像;

将所述第一模拟图像和第二模拟图像输入至预设的运动预估模型中,其中,所述运动预估模型用于根据同一人脸的不同图像计算人脸运动向量的神经网络模型;

读取所述运动预估模型输出的运动向量,并将预设的源图像和所述运动向量输入至预设的人脸重演模型中,其中,所述人脸重演模型用于根据人脸图像和运动向量生成重演图像的神经网络模型;

读取所述人脸重演模型输出的所述人脸图像的重演图像。

可选地,所述采集目标用户人脸图像的第一参数集和第二参数集包括:

采集所述人脸图像的源图像和驱动图像,其中,所述源图像和驱动图像中的人脸图像存在姿态差异;

通过所述源图像采集所述第一参数集,并通过所述驱动图像采集所述第二参数集。

可选地,所述第一参数集包括:第一身份系数、第一表情系数和第一姿态系数,所述第二参数集包括:第一身份系数、第二表情系数和第二姿态系数,所述根据所述第一参数集和第二参数集对所述人脸图像进行三维建模,生成第一模拟图像和第二模拟图像:

将所述第一身份系数、第一表情系数和第一姿态系数输入至预设的三维建模模型中,生成所述第一模拟图像;

将所述第一身份系数、第二表情系数和第二姿态系数输入至所述三维建模模型中,生成所述第二模拟图像。

可选地,所述运动预估模型包括第一卷积通道和第一反卷积通道,所述将所述第一模拟图像和第二模拟图像输入至预设的运动预估模型中包括:

将所述第一模拟图像和第二模拟图像进行图像叠加后生成第一叠加图像,并将所述第一叠加图像输入至所述运动预估模型中;

所述运动预估模型通过第一卷积通道对所述第一叠加图像进行卷积池化处理,生成第一下采样特征;

所述运动预估模型通过第一反卷积通道对所述第一下采样特征进行插值处理,生成第一上采样特征;

将所述第一下采样特征和所述第一上采样特征进行特征融合叠加生成所述运动向量。

可选地,所述人脸重演模型包括第二卷积通道和第二反卷积通道,所述将预设的源图像和所述运动向量输入至预设的人脸重演模型中包括:

将所述源图像和运动向量进行叠加后生成第二叠加图像,并将所述第二叠加图像输入至所述人脸重演模型中;

所述人脸重演模型通过所述第二卷积通道对所述第二叠加图像进行卷积池化处理,生成第二下采样特征;

所述人脸重演模型通过所述第二反卷积通道对所述第二下采样特征进行插值处理,生成第二上采样特征;

将所述第二下采样特征和所述第二上采样特征进行特征融合叠加生成所述重演图像。

可选地,所述将预设的源图像和所述运动向量输入至预设的人脸重演模型中之后,包括:

读取预设的驱动图像,其中,所述第二参数集根据所述驱动图像提取得到;

基于预设的损失函数,计算所述重演图像与所述驱动图像之间的特征差值;

将所述特征差值与预设的损失阈值进行比对,当所述特征差值大于所述损失阈值,根据所述特征差值反复迭代的对所述运动预估模型和人脸重演模型的权重进行校正,直至所述特征差值小于等于所述损失阈值为止。

可选地,所述损失函数为联合损失函数,所述联合损失函数用于约束所述重演图像与所述驱动图像之间的像素差平方平均值,以及特征余弦相似度值。

为解决上述技术问题,本申请实施例还提供一种人脸图像重演装置,包括:

采集模块,用于采集目标用户人脸图像的第一参数集和第二参数集;

建模模块,用于根据所述第一参数集和第二参数集对所述人脸图像进行三维建模,生成第一模拟图像和第二模拟图像;

预估模块,用于将所述第一模拟图像和第二模拟图像输入至预设的运动预估模型中,其中,所述运动预估模型用于根据同一人脸的不同图像计算人脸运动向量的神经网络模型;

重演模块,用于读取所述运动预估模型输出的运动向量,并将预设的源图像和所述运动向量输入至预设的人脸重演模型中,其中,所述人脸重演模型用于根据人脸图像和运动向量生成重演图像的神经网络模型;

读取模块,用于读取所述人脸重演模型输出的所述人脸图像的重演图像。

可选地,所述人脸图像重演装置还包括:

第一采集子模块,用于采集所述人脸图像的源图像和驱动图像,其中,所述源图像和驱动图像中的人脸图像存在姿态差异;

第一处理子模块,用于通过所述源图像采集所述第一参数集,并通过所述驱动图像采集所述第二参数集。

可选地,所述第一参数集包括:第一身份系数、第一表情系数和第一姿态系数,所述第二参数集包括:第一身份系数、第二表情系数和第二姿态系数,所述人脸图像重演装置还包括:

第一建模子模块,用于将所述第一身份系数、第一表情系数和第一姿态系数输入至预设的三维建模模型中,生成所述第一模拟图像;

第二建模子模块,用于将所述第一身份系数、第二表情系数和第二姿态系数输入至所述三维建模模型中,生成所述第二模拟图像。

可选地,所述运动预估模型包括第一卷积通道和第一反卷积通道,所述人脸图像重演装置还包括:

第一输入子模块,用于将所述第一模拟图像和第二模拟图像进行图像叠加后生成第一叠加图像,并将所述第一叠加图像输入至所述运动预估模型中;

第二处理子模块,用于所述运动预估模型通过第一卷积通道对所述第一叠加图像进行卷积池化处理,生成第一下采样特征;

第三处理子模块,用于所述运动预估模型通过第一反卷积通道对所述第一下采样特征进行插值处理,生成第一上采样特征;

第一执行子模块,用于将所述第一下采样特征和所述第一上采样特征进行特征融合叠加生成所述运动向量。

可选地,所述人脸重演模型包括第二卷积通道和第二反卷积通道,所述人脸图像重演装置还包括:

第二输入子模块,用于将所述源图像和运动向量进行叠加后生成第二叠加图像,并将所述第二叠加图像输入至所述人脸重演模型中;

第四处理子模块,用于所述人脸重演模型通过所述第二卷积通道对所述第二叠加图像进行卷积池化处理,生成第二下采样特征;

第五处理子模块,用于所述人脸重演模型通过所述第二反卷积通道对所述第二下采样特征进行插值处理,生成第二上采样特征;

第二执行子模块,用于将所述第二下采样特征和所述第二上采样特征进行特征融合叠加生成所述重演图像。

可选地,所述人脸图像重演装置还包括:

第一读取子模块,用于读取预设的驱动图像,其中,所述第二参数集根据所述驱动图像提取得到;

第一计算子模块,用于基于预设的损失函数,计算所述重演图像与所述驱动图像之间的特征差值;

第二执行子模块,用于将所述特征差值与预设的损失阈值进行比对,当所述特征差值大于所述损失阈值,根据所述特征差值反复迭代的对所述运动预估模型和人脸重演模型的权重进行校正,直至所述特征差值小于等于所述损失阈值为止。

可选地,所述损失函数为联合损失函数,所述联合损失函数用于约束所述重演图像与所述驱动图像之间的像素差平方平均值,以及特征余弦相似度值。

为解决上述技术问题本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述芯片制程方法的步骤。

为解决上述技术问题本申请实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述芯片制程方法的步骤。

本申请实施例的有益效果是:

本申请通过采集同一人脸图像在不同姿态下的第一参数集和第二参数集,通过第一参数集和第二参数集进行三维图像建模生成第一模拟图像和第二模拟图像,通过运动预估模型计算第一模拟图像和第二模拟图像之间的运动向量,并基于人脸重演模型对运动向量和源图像进行人脸图像重演生成重演图像。通过该方法,实现了基于两张人脸图像的参数集,生成真实人脸图像的重演,提高了重演图像的真实性,使重演技术的适用性更加广泛。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本申请一个具体实施例的人脸图像重演方法基本流程示意图;

图2为本申请一个具体实施例的参数采集的流程示意图;

图3为本申请一具体实施例的生成模拟图像的流程示意图;

图4为本申请一个具体实施例的提取运动向量的流程示意图;

图5为本申请一个具体实施例的生成重演图像的流程示意图;

图6为本申请一个具体实施例的联合模型的训练流程示意图;

图7为本申请一个实施例的联合函数的训练流程图;

图8为本申请一个实施例的人脸图像重演装置基本结构示意图;

图9为本申请一个实施例的计算机设备的基本结构框图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解,这里所使用的“终端”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。

请参阅图1,图1为本实施例人脸图像重演方法基本流程示意图。

如图1所示,一种人脸图像重演方法,包括:

S1100、采集目标用户人脸图像的第一参数集和第二参数集;

本实施方式中,人脸图像重演的模型进行训练,或者模型训练完成后使用的过程中,都需要采集同一目标用户不同姿态下的两张人脸图像。通过图像提取技术分别提取两张人脸图像上的参数集,生成第一参数集和第二参数集。

参数集的提取能够通过人工标注得到,也能够通过预先训练至收敛状态的神经网络模型,对两张人脸图像进行特征提取后生成。

在一些实施方式中,为保证得到的两张人脸图像中的人脸确实处于不同的姿态,需要通过进行图像比对,通过图像比对确认两张图片不相同时,确认采集的两张图片为目标用户不同姿态下的人脸图像。但是,确认的方式不局限于此,在一些实施方式中,对两张图片进行特征提取的神经网络模型能够提取两张人脸图像的姿态系数,通过比对两张图片中人脸图像的姿态系数就能够确认,两张图片中的人脸图像是否为同一姿态。

在一些实施方式中,当确定两张人脸图像为同一姿态时,读取第二张人脸图像的视图比例,然后,根据第二张人脸图像的视图比例,去调整第一张人脸图像的大小。由于,两张图片中的人脸图像处于同一姿态,对人脸图像进行复杂的重演已经没有必要,直接通过第二张图片中人脸图像的视图比例调整第一张图片中的人脸图像,就能够实现对人脸图像的快速重演。

S1200、根据所述第一参数集和第二参数集对所述人脸图像进行三维建模,生成第一模拟图像和第二模拟图像;

本实施方式中,当获取得到同一目标用户在不同姿态下的人脸图像,并将根据第一张人脸图像采集的参数归集为第一参数集,根据第二张人脸图像采集的参数归集为第二参数。

根据第一参数集构建目标用户的第一模拟图像,模拟图像的构建通过现有的人脸三维模拟模型进行,例如,采用3DMM模型对人脸图像进行三维模拟。但是,三维人脸模拟的方式不局限于此,根据具体应用场景的不同,能够采用现有能够实现人脸三维模拟的模型和方法实现,比如,首先用主动形状模型(ASM)或其他的特征点定位方法定位照片中人脸的一定数量特征点;其次利用主成分分析法(PCA)训练三维人脸数据库,得到一个三维人脸形状模型;然后建立二维人脸模型和三维人脸模型的映射关系,得到三维人脸形状模型的形状参数;最后通过纹理映射得到照片中人物的真实人脸模型,进而生成第一模拟图像。

针对第二张人脸图像,通过采用与第一张人脸图像建模相同的方法,实现第二张人脸图像的三维建模,同时,生成第二张人脸图像的建模图像,记为第二模拟图像。

S1300、将所述第一模拟图像和第二模拟图像输入至预设的运动预估模型中,其中,所述运动预估模型用于根据同一人脸的不同图像计算人脸运动向量的神经网络模型;

本实施方式中,通过两个模型联合的方式,来实现人脸图像的重演。具体地,两个模型分别为运动预估模型和人脸重演模型。其中,运动预估模型用于根据第一模拟图像和第二模拟图像提取人脸图像的运动向量。

具体地,将第一模拟图像和第二模拟图像进行像素叠加,像素叠加的时候,第一模拟图像和第二模拟图像的图像尺寸调整一致,将两张模拟图像按RGB颜色分别拆分成三个颜色通道,分别为红色、绿色和蓝色通道,然后,以通道颜色为类别,将同类别中的图像进行加权叠加,三个通道分别叠加后,将叠加后的三个通道图像进行合并生成叠加图像。

将合并后的叠加图像定义为第一叠加图像,将第一叠加图像输入至运动预估模型中,由于,运动预估模型被训练用于提取第一模拟图像和第二模拟图像之间的运动向量,因此,叠加图像通过运动预估模型卷积层进行特征提取后,得到第一模拟图像和第二模拟图像之间的运动向量,运动向量表征第一模拟图像向第二模拟图像变化时的数据迁移值,因此,将运动向量能够表征第一模拟图像到第二模拟图像的迁移变化。

S1400、读取所述运动预估模型输出的运动向量,并将预设的源图像和所述运动向量输入至预设的人脸重演模型中,其中,所述人脸重演模型用于根据人脸图像和运动向量生成重演图像的神经网络模型;

当运动预估模型输出运动向量后,读取运动预估模型输出的运动向量,并将其与源图像和运动图像进行叠加,生成第二叠加图像,将第二叠加图像输入至人脸重演模型中。

其中,源图像就是S1100中用于采集的第一参数集的人脸图像,也就是前述中定义的第一张人脸图像。

将第二叠加图像输入至人脸重演模型,人脸重演模型对第二叠加图像中的特征进行提取和融合,生成兼具源图像中的环境图像和运动向量表征的人脸图像姿态、相貌特征和表情特征的重演图像。

S1500、读取所述人脸重演模型输出的所述人脸图像的重演图像。

当人脸重演模型输出人脸图像的重演图像后,读取人脸图像的重演图像,并将该重演图像进行显示或者储存。

上述实施方式中,通过采集同一人脸图像在不同姿态下的第一参数集和第二参数集,通过第一参数集和第二参数集进行三维图像建模生成第一模拟图像和第二模拟图像,通过运动预估模型计算第一模拟图像和第二模拟图像之间的运动向量,并基于人脸重演模型对运动向量和源图像进行人脸图像重演生成重演图像。通过该方法,实现了基于两张人脸图像的参数集,生成真实人脸图像的重演,提高了重演图像的真实性,使重演技术的适用性更加广泛。

在一些实施方式中,参数集的采集需要通过用户人脸图像采集得到。请参阅图2,图2为本实施例参数采集的流程示意图。

如图2所示,步骤S1100包括:

S1111、采集所述人脸图像的源图像和驱动图像,其中,所述源图像和驱动图像中的人脸图像存在姿态差异;

采集人脸图像时,将第一张采集的人脸图像为源图像,采集的第二张人脸图像为驱动图像。但是驱动图像和源图像的采集顺序不是一成不变的,在一些训练过程中,为提升模型的鲁棒性,能够将驱动图像和源图像之间的位置进行调换。

源图像和驱动图像之间存在有姿态差异,在采集到驱动图像和源图像后,需要确认两张图片表征的人脸图像姿态上确实存在差异,且差异值超过设定的阈值时,才能够定义第二次采集的图像为驱动图像,否则,则需要将第二次采集的图像进行丢弃,重新采集图像作为驱动图像。

S1112、通过所述源图像采集所述第一参数集,并通过所述驱动图像采集所述第二参数集。

采集得到源图像和驱动图像后,通过源图像采集第一参数集,通过驱动图像采集第二参数集。

参数集的采集能够通过人工标注得到,也能够通过预先训练至收敛状态的神经网络模型,对两张人脸图像进行特征提取后生成。

在一些实施方式中,第一参数集包括:第一身份系数、第一表情系数和第一姿态系数,第二参数集包括:第一身份系数、第二表情系数和第二姿态系数。但是,参数集中包括的参数系数不局限于此,根据具体应用场景的不同,在一些实施方式中,参数集中还能够包括(不限于):光线系数、颜值系数或环境系数等

在一些实施方式中,通过身份系数、表情系数和姿态系数对人脸图像进行建模,得到模拟图像。请参阅图3,图3为本实施例生成模拟图像的流程示意图。

如图3所示,步骤S1200包括:

S1211、将所述第一身份系数、第一表情系数和第一姿态系数输入至预设的三维建模模型中,生成所述第一模拟图像;

通过源图像提取目标用户的第一参数集后,将第一身份系数、第一表情系数和第一姿态系数输入至三维建模模型中,其中,三维建模模型为3DMM模型,3DMM模型根据第一身份系数、第一表情系数和第一姿态系数生成第一参数集对应的第一模拟图像。

S1212、将所述第一身份系数、第二表情系数和第二姿态系数输入至所述三维建模模型中,生成所述第二模拟图像。

通过源图像提取目标用户的第二参数集后,将第一身份系数、第二表情系数和第二姿态系数输入至三维建模模型中,其中,三维建模模型为3DMM模型,3DMM模型根据第一身份系数、第二表情系数和第二姿态系数生成第二参数集对应的第二模拟图像。

本实施方式中第一模拟图像和第二模拟图像的生成方式不局限于此,根据具体应用场景的不同,在一些实施方式中,能够通过一些现有的人脸3D模拟软件生成。例如,通过faceworx、3dmeNow或者FaceGen Modeller等模拟软件直接生成。

在一些实施方式中,运动预估模型通过对称卷积层提取第一模拟图像和第二模拟图像的运动向量。请参阅图4,图4为本实施例提取运动向量的流程示意图。

如图4所示,步骤S1300包括:

S1311、将所述第一模拟图像和第二模拟图像进行图像叠加后生成第一叠加图像,并将所述第一叠加图像输入至所述运动预估模型中;

将第一模拟图像和第二模拟图像进行像素叠加,像素叠加的时候,第一模拟图像和第二模拟图像的图像尺寸调整一致,将两张模拟图像按RGB颜色分别拆分成三个颜色通道,分别为红色、绿色和蓝色通道,然后,以通道颜色为类别,将同类别中的图像进行加权叠加,三个通道分别叠加后,将叠加后的三个通道图像进行合并生成第一叠加图像。

将第一叠加图像输入到运动预估模型中,运动预估模型为预先训练至收敛,用于提取图像之间运动向量的卷积神经网络模型。需要指出的是,在训练状态下,运动预估模型并未训练至收敛状态。

在一些实施方式中,运动预估模型采用的模型为:U-net网络模型。U-net网络结构包括两个对称部分:前面一部分网络与普通卷积网络相同,使用了3x3的卷积和池化下采样,能够抓住图像中的上下文信息;后面部分网络则是与前面基本对称,使用的是3x3反卷积层和上采样,以达到输出图像分割的目的。此外,网络中还用到了特征融合,将前面部分下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息,达到更好的分割效果。在一些实施方式中,运动预估模型还能够为U

在一些实施方式中,运动预估模型采用的模型还能够为(不限于):卷积神经网络模型、深度卷积神经网络模型、循环神经网络模型或者上述神经网络模型的变种模型。

S1312、所述运动预估模型通过第一卷积通道对所述第一叠加图像进行卷积池化处理,生成第一下采样特征;

第一叠加图像被输入至运动预估模型中后,运动预估模型中的第一卷积通道对第一叠加图像进行卷积和池化处理,提取第一叠加图像中的第一下采样特征,上述这个流程称为对第一叠加图像进行下采样,下采样的过程中,运动预估模型对第一叠加图像进行特征提取和图像缩放。

S1313、所述运动预估模型通过第一反卷积通道对所述第一下采样特征进行插值处理,生成第一上采样特征;

通过第一卷积通道对第一叠加图像进行特征提取和缩小后,运动预估模型通过与第一卷积通道对称的第一反卷积通道对缩小后的图像进行插值处理,插值处理的过程中同时提取第一叠加图像的第一上采样特征,上述这个处理过程为上采样,上采样的过程中通过插值处理的方式提取图像特征并放大被缩小的第一叠加图像。

S1314、将所述第一下采样特征和所述第一上采样特征进行特征融合叠加生成所述运动向量。

运动预估模型在经过卷积和反卷积处理后,生成第一叠加图像的第一下采样特征和第一上采样特征,然后,对第一下采样特征和第一上采样特征进行融合叠加,融合叠加的过程就是对卷积和反卷积图像进行对应的特征进行加权得到一个融合后的运动向量。

具体地,第一卷积通道包括:第一卷积层、第二卷积层和第三卷积层,第一反卷积通道包括:第一反卷积层、第二反卷积层和第三反卷积层。其中,第一卷积层与第一反卷积层相互对称,第二卷积层与第二反卷积层相互对称,第三卷积层与第三反卷积层相互对称。第一卷积层对第一叠加图像进行特征提取后,将提取的特征同步至第二卷基层和第一反卷积层中,第二卷积层进行特征提取后,将提取的特征同步到第三卷积层和第二反卷积层,以此类推,第一叠加图像经过一个“U”形卷积层提取路径后,最终由第三反卷积层输出运动向量。在这个过程中,第一反卷积层、第二反卷积层和第三反卷积层进行特征提取的过程中,既能够接收由上一级卷积层同步的特征,又能够接收由与之对称的卷积层同步的特征,因此,下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息。

在一些实施方式中,人脸重演模型通过对称卷积层提取源图像和运动向量进行特征提取生成重演图像。请参阅图5,图5为本实施例生成重演图像的流程示意图。

如图5所示,S1400包括:

S1411、将所述源图像和运动向量进行叠加后生成第二叠加图像,并将所述第二叠加图像输入至所述人脸重演模型中;

将源图像和运动向量进行像素叠加,像素叠加的时候,将运动向量进行像素画生成运动图像,将运动图像和源图像各对应像素点的像素进行加权叠加,生成第二叠加图像。

将第二叠加图像输入到人脸重演模型中,人脸重演模型为预先训练至收敛,用于提取图像之间运动向量的卷积神经网络模型。需要指出的是,在训练状态下,人脸重演模型并未训练至收敛状态。

在一些实施方式中,人脸重演模型采用的模型为:U-net网络模型。U-net网络结构包括两个对称部分:前面一部分网络与普通卷积网络相同,使用了3x3的卷积和池化下采样,能够抓住图像中的上下文信息;后面部分网络则是与前面基本对称,使用的是3x3反卷积层和上采样,以达到输出图像分割的目的。此外,网络中还用到了特征融合,将前面部分下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息,达到更好的分割效果。在一些实施方式中,人脸重演模型还能够为U

在一些实施方式中,人脸重演模型采用的模型还能够为(不限于):卷积神经网络模型、深度卷积神经网络模型、循环神经网络模型或者上述神经网络模型的变种模型。

S1412、所述人脸重演模型通过所述第二卷积通道对所述第二叠加图像进行卷积池化处理,生成第二下采样特征;

第二叠加图像被输入至人脸重演模型中后,人脸重演模型中的第二卷积通道对第二叠加图像进行卷积和池化处理,提取第二叠加图像中的第二下采样特征,上述这个流程称为对第二叠加图像进行下采样,下采样的过程中,人脸重演模型对第二叠加图像进行特征提取和图像缩放。

S1413、所述人脸重演模型通过所述第二反卷积通道对所述第二下采样特征进行插值处理,生成第二上采样特征;

通过第二卷积通道对第二叠加图像进行特征提取和缩小后,人脸重演模型通过与第二卷积通道对称的第二反卷积通道对缩小后的图像进行插值处理,插值处理的过程中同时提取第二叠加图像的第二上采样特征,上述这个处理过程为上采样,上采样的过程中通过插值处理的方式提取图像特征并放大被缩小的第二叠加图像。

S1414、将所述第二下采样特征和所述第二上采样特征进行特征融合叠加生成所述重演图像。

人脸重演模型在经过卷积和反卷积处理后,生成第二叠加图像的第二下采样特征和第二上采样特征,然后,对第二下采样特征和第二上采样特征进行融合叠加,融合叠加的过程就是对卷积和反卷积图像进行对应的特征进行加权得到一个融合后的重演图像。

具体地,第二卷积通道包括:第一卷积层、第二卷积层和第三卷积层,第一反卷积通道包括:第一反卷积层、第二反卷积层和第三反卷积层。其中,第一卷积层与第一反卷积层相互对称,第二卷积层与第二反卷积层相互对称,第三卷积层与第三反卷积层相互对称。第一卷积层对第二叠加图像进行特征提取后,将提取的特征同步至第二卷基层和第一反卷积层中,第二卷积层进行特征提取后,将提取的特征同步到第三卷积层和第二反卷积层,以此类推,第二叠加图像经过一个“U”形卷积层提取路径后,最终由第三反卷积层输出重演图像。在这个过程中,第一反卷积层、第二反卷积层和第三反卷积层进行特征提取的过程中,既能够接收由上一级卷积层同步的特征,又能够接收由与之对称的卷积层同步的特征。

在本实施例中,S1100-S1500的流程既能够用于运动预估模型和人脸重演模型的实际应用,又能够应用于运动预估模型和人脸重演模型的训练。请参阅图6,图6为本实施例联合模型的训练流程示意图。

如图6所示,步骤S1500之后包括:

S1511、读取预设的驱动图像,其中,所述第二参数集根据所述驱动图像提取得到;

当S1100-S1500的流程被用于联合模型的训练时,此时,运动预估模型和人脸重演模型并未被训练至收敛状态。在进行训练时,通过采集大量成对的人脸图像作为训练样本集,其中,一组成对的人脸图像均来自于同一人脸图像,且同一组内的人脸图像的姿态不同。

请参阅图7,图7为本实施例联合函数的训练流程图。如图7所示,训练样本中的图像经过特征提取和三维建模后,生成两张三维模拟图像Mesh1和Mesh2,将Mesh1和Mesh2输入至未收敛状态的运动预估模型中,通过卷积和反卷积过程生成特征向量,确定训练样本中的一张图像为源图像,另一张图像为驱动图像,其中,Mesh1基于源图像生成,Mesh2基于驱动图像生成。

运动预估模型输出特征向量后,将源图像和运动向量输入至人脸重演模型中,通过卷积和反卷积过程生成重演图像。

S1512、基于预设的损失函数,计算所述重演图像与所述驱动图像之间的特征差值;

当人脸重演模型输出重演图像后,通过损失函数计算重演图像和驱动图像之间的特征差值,损失函数为联合损失函数包括:L2 loss和id loss,其中,L2 loss用于约束重演图像与驱动图像之间的像素差平方平均值,id loss用于约束重演图像与驱动图像之间的特征余弦相似度值。

通过上述两种损失函数,能够计算出两个特征差值,分别为像素差平方平均值和特征余弦相似度值。

S1513、将所述特征差值与预设的损失阈值进行比对,当所述特征差值大于所述损失阈值,根据所述特征差值反复迭代的对所述运动预估模型和人脸重演模型的权重进行校正,直至所述特征差值小于等于所述损失阈值为止。

针对于两个损失函数,本实施方式中设置有两个损失阈值,分别为第一损失阈值和第二损失阈值,其中,第一损失阈值对应像素差平方平均值,第二损失阈值对应特征余弦相似度值。

当联合损失函数计算得到两个特征差值后,将两个特征差值分别与对应的损失阈值进行比对,当且仅当两个特征差值均小于等于对应的损失阈值后,结束对该组训练样本的训练,通过其他样本对联合模型进行继续训练。当且仅当两个特征差值中有一个大于对应的损失阈值后,调用与该损失函数对应的回传函数,对运动预估模型和人脸重演模型的权重进行校正,使运动预估模型和人脸重演模型输出的重演图像越来越逼近驱动图像,直至通过反复更新迭代的联合模型输出的重演图像与驱动图像之间的两个特征差值,都小于各自对应的损失阈值后,完成对改组样本的训练。

通过成千上万组的样本采用上述训练过程进行训练,当训练得到的联合模型输出的重演图像的准确率,经过测试达到预期的准确率后,运动预估模型和人脸重演模型被认定为训练至收敛态,对联合模型的训练结束。

本实施方式中,L2 loss的特征描述如下:

其中,y

本实施方式中,id loss的特征描述如下:

其中,x

本申请可以通过实现了前述的方法的各个实施例的应用程序在计算机中的运行来构造一个相应的装置,具体请参阅图8,图8为本实施例人脸图像重演装置基本结构示意图。

如图8所示,一种人脸图像重演装置,包括:采集模块2100、建模模块2200、预估模块2300、重演模块2400和读取模块2500。其中,采集模块2100用于采集目标用户人脸图像的第一参数集和第二参数集;建模模块2200用于根据所述第一参数集和第二参数集对所述人脸图像进行三维建模,生成第一模拟图像和第二模拟图像;预估模块2300用于将所述第一模拟图像和第二模拟图像输入至预设的运动预估模型中,其中,所述运动预估模型用于根据同一人脸的不同图像计算人脸运动向量的神经网络模型;重演模块2400用于读取所述运动预估模型输出的运动向量,并将预设的源图像和所述运动向量输入至预设的人脸重演模型中,其中,所述人脸重演模型用于根据人脸图像和运动向量生成重演图像的神经网络模型;读取模块2500用于读取所述人脸重演模型输出的所述人脸图像的重演图像。

人脸图像重演装置通过采集同一人脸图像在不同姿态下的第一参数集和第二参数集,通过第一参数集和第二参数集进行三维图像建模生成第一模拟图像和第二模拟图像,通过运动预估模型计算第一模拟图像和第二模拟图像之间的运动向量,并基于人脸重演模型对运动向量和源图像进行人脸图像重演生成重演图像。通过该方法,实现了基于两张人脸图像的参数集,生成真实人脸图像的重演,提高了重演图像的真实性,使重演技术的适用性更加广泛。

在一些实施方式中,人脸图像重演装置还包括:第一采集子模块和第一处理子模块。其中,第一采集子模块用于采集所述人脸图像的源图像和驱动图像,其中,所述源图像和驱动图像中的人脸图像存在姿态差异;第一处理子模块用于通过所述源图像采集所述第一参数集,并通过所述驱动图像采集所述第二参数集。

在一些实施方式中,所述第一参数集包括:第一身份系数、第一表情系数和第一姿态系数,所述第二参数集包括:第一身份系数、第二表情系数和第二姿态系数,所述人脸图像重演装置还包括:第一建模子模块和第二建模子模块。其中,第一建模子模块用于将所述第一身份系数、第一表情系数和第一姿态系数输入至预设的三维建模模型中,生成所述第一模拟图像;第二建模子模块用于将所述第一身份系数、第二表情系数和第二姿态系数输入至所述三维建模模型中,生成所述第二模拟图像。

在一些实施方式中,所述运动预估模型包括第一卷积通道和第一反卷积通道,所述人脸图像重演装置还包括:第一输入子模块、第二处理子模块、第三处理子模块和第一执行子模块。其中,第一输入子模块用于将所述第一模拟图像和第二模拟图像进行图像叠加后生成第一叠加图像,并将所述第一叠加图像输入至所述运动预估模型中;第二处理子模块用于所述运动预估模型通过第一卷积通道对所述第一叠加图像进行卷积池化处理,生成第一下采样特征;第三处理子模块用于所述运动预估模型通过第一反卷积通道对所述第一下采样特征进行插值处理,生成第一上采样特征;第一执行子模块用于将所述第一下采样特征和所述第一上采样特征进行特征融合叠加生成所述运动向量。

在一些实施方式中,所述人脸重演模型包括第二卷积通道和第二反卷积通道,所述人脸图像重演装置还包括:第二输入子模块、第四处理子模块、第五处理子模块和第二执行子模块。其中,第二输入子模块用于将所述源图像和运动向量进行叠加后生成第二叠加图像,并将所述第二叠加图像输入至所述人脸重演模型中;第四处理子模块用于所述人脸重演模型通过所述第二卷积通道对所述第二叠加图像进行卷积池化处理,生成第二下采样特征;第五处理子模块用于所述人脸重演模型通过所述第二反卷积通道对所述第二下采样特征进行插值处理,生成第二上采样特征;第二执行子模块用于将所述第二下采样特征和所述第二上采样特征进行特征融合叠加生成所述重演图像。

在一些实施方式中,所述人脸图像重演装置还包括:第一读取子模块、第一计算子模块和第二执行子模块。其中,第一读取子模块用于读取预设的驱动图像,其中,所述第二参数集根据所述驱动图像提取得到;第一计算子模块用于基于预设的损失函数,计算所述重演图像与所述驱动图像之间的特征差值;第二执行子模块用于将所述特征差值与预设的损失阈值进行比对,当所述特征差值大于所述损失阈值,根据所述特征差值反复迭代的对所述运动预估模型和人脸重演模型的权重进行校正,直至所述特征差值小于等于所述损失阈值为止。

在一些实施方式中,所述损失函数为联合损失函数,所述联合损失函数用于约束所述重演图像与所述驱动图像之间的像素差平方平均值,以及特征余弦相似度值。

为解决上述技术问题,本申请实施例还提供一种计算机设备,用于运行根据所述人脸图像重演方法所实现的计算机程序。具体请参阅图8,图9为本实施例计算机设备基本结构框图。

如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种人脸图像重演方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种人脸图像重演方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本实施方式中处理器用于执行图8中采集模块2100、建模模块2200、预估模块2300、重演模块2400和读取模块2500的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有人脸图像重演装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备通过采集同一人脸图像在不同姿态下的第一参数集和第二参数集,通过第一参数集和第二参数集进行三维图像建模生成第一模拟图像和第二模拟图像,通过运动预估模型计算第一模拟图像和第二模拟图像之间的运动向量,并基于人脸重演模型对运动向量和源图像进行人脸图像重演生成重演图像。通过该方法,实现了基于两张人脸图像的参数集,生成真实人脸图像的重演,提高了重演图像的真实性,使重演技术的适用性更加广泛。

本申请还提供一种非易失性存储介质,所述的人脸图像重演方法被编写成计算机程序,以计算机可读指令的形式存储于该存储介质中,计算机可读指令被一个或多个处理器执行时,意味着该程序在计算机中的运行,由此使得一个或多个处理器执行上述任一实施例人脸图像重演方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号