首页> 中国专利> 视频检测方法、视频检测模型的训练方法及装置

视频检测方法、视频检测模型的训练方法及装置

摘要

本申请公开了一种视频检测方法及装置,用于解决现有的伪造视频检测方法存在的检测准确率低、通用性差的问题。所述视频检测方法包括:获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像;通过视频检测模型对所述至少一帧视频图像进行特征提取,得到所述目标人脸的脸部情绪特征;通过所述视频检测模型对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征;至少基于所述目标人脸的脸部情绪特征和脸部动作特征,确定所述待检测视频的检测结果。

著录项

  • 公开/公告号CN114842399A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 马上消费金融股份有限公司;

    申请/专利号CN202210564026.3

  • 申请日2022-05-23

  • 分类号G06V20/40(2022.01);G06V10/764(2022.01);G06V10/44(2022.01);G06V40/16(2022.01);G06V10/774(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);G06K9/62(2022.01);

  • 代理机构北京国昊天诚知识产权代理有限公司 11315;

  • 代理人徐晨影

  • 地址 401120 重庆市渝北区黄山大道中段52号渝兴广场B2栋4至8楼

  • 入库时间 2023-06-19 16:14:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-07-25

    授权

    发明专利权授予

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2022105640263 申请日:20220523

    实质审查的生效

说明书

技术领域

本申请涉及人工智能技术领域,尤其涉及一种视频检测方法、视频检测模型的训练方法及装置。

背景技术

随着深度学习的发展,各类人脸伪造技术层出不穷,比如制作一个不存在的人脸或者将视频中的人脸替换为其他人脸等,这些人脸伪造技术难免被一些人用于非法用途,伪造一些损害他人或对社会影响不好的视频。因此,对伪造视频的检测变得非常重要。

目前针对伪造视频的检测还处于发展阶段,大部分检测方法都是基于伪造过程中对人脸特征的变化以及出现的伪影来判断视频真伪。但是,这种方式容易对某些特定分布的深度伪造特征过拟合,因而只能对部分视频起到较好的检测效果,检测准确率低,通用性差。

发明内容

本申请实施例的目的是提供一种视频检测方法及装置,用于解决现有的视频检测方法存在的检测准确率低、通用性差的问题。

为了实现上述目的,本申请实施例采用下述技术方案:

第一方面,本申请实施例提供一种视频检测方法,包括:

获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像;

通过视频检测模型对所述至少一帧视频图像进行特征提取,得到所述目标人脸的脸部情绪特征;

通过所述视频检测模型对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征;

至少基于所述目标人脸的脸部情绪特征和脸部动作特征,确定所述待检测视频的检测结果。

可以看出,本申请实施例中,利用真实人脸与伪造人脸在外观以及动态动作上均具有差异性的自然规律,基于视频检测模型,从待检测视频中目标人脸的至少一帧视频图像中提取目标人脸的脸部情绪特征,基于视频检测模型,从待检测视频中基于时序排列的目标人脸的多帧第一光流图像中提取目标人脸的脸部动作特征,进一步至少基于目标人脸的脸部情绪特征和脸部动作特征,确定待检测视频的检测结果,由于脸部情绪特征属于空域上的静态特征,能够反映人脸外观,脸部动作特征属于时域上的动态特征,能够反映人脸动作,结合空域上静态的脸部情绪特征和时域上动态的脸部动作特征这两类特征进行视频检测,可以避免陷入对某些特定分布的深度伪造特征过拟合的状态,进而可以提高检测准确率和通用性。

第二方面,本申请实施例提供一种视频检测模型的训练方法,包括:

获取样本视频集合和所述样本视频集合中每个样本视频对应的真伪标签,所述样本视频集合包括真实视频和多种伪造视频,所述多种伪造视频与多种人脸伪造算法一一对应,每种伪造视频是基于对应的人脸伪造算法对所述真实视频进行伪造处理后得到的;

获取目标样本视频中样本人脸的至少一帧视频图像和基于时序排列的样本人脸的多帧第二光流图像;

通过初始视频检测模型对所述目标样本视频中样本人脸的至少一帧视频图像进行特征提取,得到所述样本人脸的脸部情绪特征;

通过所述初始视频检测模型对所述目标样本视频中样本人脸的多帧第二光流图像进行特征提取,得到所述样本人脸的脸部动作特征;

至少基于所述目标样本视频中样本人脸的脸部情绪特征和脸部动作特征,确定所述目标样本视频的检测结果;

基于所述样本视频集合中每个样本视频的检测结果和所述每个样本视频对应的真伪标签,对所述初始视频检测模型进行迭代训练,得到视频检测模型。

可以看出,本申请实施例中,采用真实视频以及基于多种人脸伪造算法对真实视频进行伪造处理所得到的伪造视频作为样本视频,利用样本视频及其对应的真伪标签训练初始视频检测模型,使得所得的视频检测模型能够学习多种伪造视频的特点,有利于提高视频检测模型的泛化能力,从而有利于提高视频检测模型对各种视频的检测效果;在具体的模型训练过程中,通过初始视频检测模型从样本视频中样本人脸的至少一帧视频图像中,提取出样本人脸的脸部情绪特征,通过初始视频检测模型从样本视频中基于时序排列的样本人脸的多帧光流图像中,提取出样本人脸的脸部动作特征,以及至少基于样本人脸的脸部情绪特征和脸部动作特征,对样本视频进行检测,而后基于样本视频集合中每个样本视频的检测结果和每个样本视频对应的真伪标签,对初始视频检测模型进行迭代训练,得到视频检测模型,由此使得初始时检测模型既能够充分学习能够充分学习样本视频在空域上的静态特征而具备准确提取反映人脸外观的脸部情绪特征,又能够充分学习样本视频在时域上的动态特征而具备准确提取反映人脸动态动作的脸部动作特征,以及具备结合这两类特征准确识别视频的能力,进而避免初始视频检测模型陷入对某些特定分布的深度伪造特征过拟合的状态,使得训练所得的视频检测模型具有较高的检测准确率和通用性,从而有利于提高基于该视频检测模型的视频检测的准确率和通用性。

第三方面,本申请实施例提供一种视频检测装置,包括:

第一图像获取单元,用于获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像;

第一空域特征提取单元,用于通过视频检测模型对所述至少一帧视频图像进行特征提取,得到目标人脸的脸部情绪特征;

第一时域特征提取单元,用于通过所述视频检测模型对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征;

第一检测单元,用于至少基于所述目标人脸的脸部情绪特征和脸部动作特征,确定所述待检测视频的检测结果。

第四方面,本申请实施例提供一种视频检测模型的训练装置,包括:

样本获取单元,用于获取样本视频集合和所述样本视频集合中每个样本视频对应的真伪标签,所述样本视频集合包括真实视频和多种伪造视频,所述多种伪造视频与多种人脸伪造算法一一对应,每种伪造视频是基于对应的人脸伪造算法对所述真实视频进行伪造处理后得到的;

第二图像获取单元,用于获取目标样本视频中样本人脸的至少一帧视频图像和基于时序排列的样本人脸的多帧第二光流图像;

第二空域特征提取单元,用于通过初始视频检测模型对所述目标样本视频中样本人脸的至少一帧视频图像进行特征提取,得到所述样本人脸的脸部情绪特征;

第二时域特征提取单元,用于通过所述初始视频检测模型对所述目标样本视频中样本人脸的多帧第二光流图像进行特征提取,得到所述样本人脸的脸部动作特征;

第二检测单元,用于至少基于所述目标样本视频中样本人脸的脸部情绪特征和脸部动作特征,确定所述目标样本视频的检测结果;

训练单元,用于基于所述样本视频集合中每个样本视频的检测结果和所述每个样本视频对应的真伪标签,对所述初始视频检测模型进行迭代训练,得到视频检测模型。

第五方面,本申请实施例提供一种电子设备,包括:

处理器;

用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述指令,以实现如第一方面或第二方面所述的方法。

第六方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面或第二方面所述的方法。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请的一个实施例提供的一种视频检测方法的流程示意图;

图2为本申请的另一个实施例提供的一种视频检测方法的流程示意图;

图3为本申请的一个实施例提供的一种空间流网络的结构示意图;

图4为本申请的一个实施例提供的一种视频检测模型的训练方法的流程示意图;

图5为本申请的一个实施例提供的一种视频检测装置的结构示意图;

图6为本申请的一个实施例提供的一种视频检测模型的训练装置的结构示意图;

图7为本申请的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。

部分概念说明:

OpenCV:是一个基于BSD(Berkly Software Distribution)许可(开源)发行的跨平台计算机视觉和机器学习软件库。OpenCV提供的视觉处理算法非常丰富。

Dlib工具:是一个现代化的C++工具箱,其中包含用于在C++中创建复杂软件以解决实际问题的机器学习算法和工具。

普利维特算子:又称为Prewitt算子,其利用像素点上下、左右邻点灰度差,识别数字图像中亮度变化明显的像素点,得到数字图像中目标的边界信息。

Freeman链码编码:用曲线起始点的坐标和边界点方向代码来描述曲线或边界的方法。Freeman链码编码常被用于在图像处理、计算机图形学、模式识别等领域中表示曲线和区域边界。示例地,Freeman链码编码可以采用8连通链码,也即邻接点有4个,分别在中心像素点的上、右上、右、右下、下、坐下、左和左上。8连通链码与实际的相似点相符,能够准确地描述中心像素点与其邻接像素点的信息。

为解决现有的视频检测方法只能对部分视频起到较好的检测效果而导致的检测准确率低和通用性差的问题,本申请实施例提出了一种基于双流网络架构的视频检测方法,利用真实人脸与伪造人脸在外观以及动态动作上均具有差异性的自然规律,基于视频检测模型,从待检测视频中目标人脸的至少一帧视频图像中提取目标人脸的脸部情绪特征,基于视频检测模型,从待检测视频中基于时序排列的目标人脸的多帧第一光流图像中提取目标人脸的脸部动作特征,进一步至少基于目标人脸的脸部情绪特征和脸部动作特征,确定待检测视频的检测结果,由于脸部情绪特征属于空域上的静态特征,能够反映人脸外观,脸部动作特征属于时域上的动态特征,能够反映人脸动作,结合空域上静态的脸部情绪特征和时域上动态的脸部动作特征这两类特征进行视频检测,可以避免陷入对某些特定分布的深度伪造特征过拟合的状态,进而可以提高检测准确率和通用性。

本申请实施例还提出了一种视频检测模型的训练方法,采用真实视频以及基于多种人脸伪造算法对真实视频进行伪造处理所得到的伪造视频作为样本视频,利用样本视频及其对应的真伪标签训练初始视频检测模型,使得所得的视频检测模型能够学习多种伪造视频的特点,有利于提高视频检测模型的泛化能力,从而有利于提高视频检测模型对各种视频的检测效果;在具体的模型训练过程中,通过初始视频检测模型从样本视频中样本人脸的至少一帧视频图像中,提取出样本人脸的脸部情绪特征,通过初始视频检测模型从样本视频中基于时序排列的样本人脸的多帧光流图像中,提取出样本人脸的脸部动作特征,以及至少基于样本人脸的脸部情绪特征和脸部动作特征,对样本视频进行检测,而后基于样本视频集合中每个样本视频的检测结果和每个样本视频对应的真伪标签,对初始视频检测模型进行迭代训练,得到视频检测模型,由此使得初始时检测模型既能够充分学习能够充分学习样本视频在空域上的静态特征而具备准确提取反映人脸外观的脸部情绪特征,又能够充分学习样本视频在时域上的动态特征而具备准确提取反映人脸动态动作的脸部动作特征,以及具备结合这两类特征准确识别视频的能力,进而避免初始视频检测模型陷入对某些特定分布的深度伪造特征过拟合的状态,使得训练所得的视频检测模型具有较高的检测准确率和通用性,从而有利于提高基于该视频检测模型的视频检测的准确率和通用性。

应理解,本申请实施例提供的视频检测方法和视频检测模型的训练方法,均可以由电子设备或安装在电子设备中的软件执行。此处所谓的电子设备可以包括终端设备,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等;或者,电子设备还可以包括服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。

以下结合附图,详细说明本申请各实施例提供的技术方案。

请参考图1,为本申请的一个实施例提供的一种视频检测方法的流程示意图,该方法可以包括如下步骤:

S102,获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像。

本申请实施例中,待检测视频中的目标人脸是指待检测视频中的主要人脸,比如待检测视频中包含用户A的人脸和用户B的人脸,用户A的人脸位于前景或者用户A的人脸区域大于用户B的人脸区域,用户B的人脸位于背景或者用户B的人脸区域小于用户A的人脸区域,那么,用户A的人脸即为目标人脸。

目标人脸的单帧视频图像可以是待检测视频中的任意一帧包含目标人脸的视频图像。目标人脸的单帧视频图像也可以是整个待检测视频对应的一帧包含目标人脸的视频图像。目标人脸的至少一帧视频图像可以是待检测视频中的任意一帧或多帧包含目标人脸的视频图像。考虑到RGB图像中包含有R(红)、G(绿)和B(蓝)三个颜色通道的图像数据,能够更好地反映待检测视频中的目标人脸的生命特征,进一步地,单帧视频图像可以是待检测视频中的任意一帧包含目标人脸的RGB图像。

第一光流图像是指能够表达视频图像的变化、包含了目标人脸运动信息的图像。实际应用中,光流图像可以是采用光流算法对任意时序相邻的两帧视频图像进行计算得到,其中,光流算法具体可以包括但不限于Farneback算法、FlowNet算法等算法中的一种或多种的组合。

为了使获取的至少一帧视频图像能够准确反映人脸的外观特征(尤其是准确反映人脸的情绪特征)以及使获取的多帧第一光流图像能够准确反映人脸的运动特征(尤其是脸部动作特征),在一种可选的实现方式中,可采用分段随机采样的方式,获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像;当然,在另一种可选的实现方式中,也可以对整个待检测视频进行随机采样,获取待检测视频中目标人脸的单帧视频图像。具体而言,上述S102可以包括:将待检测视频划分为多个视频片段;接着,对每个视频片段中目标人脸的多帧RGB图像进行随机采样,得到多个候选单帧视频图像,并根据多个候选单帧视频图像确定至少一帧视频图像;以及,对每个视频片段中目标人脸的多帧灰度图像进行随机采样,得到多帧候选灰度图像;进一步,基于每帧候选灰度图像及其时序相邻的候选灰度图像,确定每帧候选灰度图像对应的第一灌流图像,而后基于上述多帧灰度图像分别对应的第一光流图像,确定多帧第一光流图像。

示例地,可基于待检测视频的时长,将待检测视频等分为K个片段,每个片段的时长相等,且每个片段包含多帧视频图像。接着,针对每个片段,利用OpenCV将该片段分别转换为基于时序排列的多帧RGB图像和多帧灰度图像,从该片段的多帧RGB图像进行随机采样,得到该片段的候选单帧RGB图像和基于时序排列的多帧候选灰度图像;进一步地,可将每个片段的候选单帧RGB图像作为最终的单帧视频图像,也可以从每个片段的候选单帧RGB图像选择效果比较好(比如清晰度高,人脸清楚)的至少一帧RGB图像作为最终的单帧视频图像;与此同时,可采用光流算法,基于每帧候选灰度图像及其时序相邻的候选灰度图像,计算出每帧候选灰度图像对应的一帧第一光流图像,而后将上述多帧候选灰度图像分别对应的第一光流图像,确定为基于时序排列的多帧第一光流图像。

可选地,为提高单帧视频图像和多帧第一光流图像的质量,在对每个片段包含的RGB图像和灰度图像进行随机采样之前,还可对每个片段包含的各帧RGB图像和各帧灰度图像进行预处理,比如滤波等。具体的预处理方式可以根据实际需要进行选择,本申请实施例对此不作限定。

在此仅示出了上述S102的一种具体实现方式。当然,应理解,上述S102也可以采用其它的方式实现,本申请实施例对此不作限定。

S104,通过视频检测模型对目标人脸的至少一帧视频图像进行特征提取,得到待检测视频中的目标人脸的脸部情绪特征。

由于真实人脸与伪造人脸在外观以及动态动作上均具有差异性,脸部情绪尤其能反应人脸外观,脸部动作尤其能反应人脸动态动作,为准确提取这两类特征,在一种可选的实现方式中,如图2所示,本申请实施例的本申请的视频检测模型可以采用双流网络架构,即包括空间流网络和时间流网络,其中,空间流网络用于提取人脸的脸部情绪特征,时间流网络用于提取人脸的脸部动作特征,而后结合待检测视频中的目标人脸的脸部情绪特征和脸部动作特征这两类特征进行视频检测。

具体而言,如图2所示,上述S104可实现为:通过视频检测模型中的空间流网络对目标人脸的至少一帧视频图像进行特征提取,得到目标人脸的脸部情绪特征。

示例地,将目标人脸的至少一帧视频图像输入视频检测模型的空间流网络,由空间流网络对输入的单帧视频图像进行特征提取,由此得到目标人脸的脸部情绪特征。

实际应用中,空间流网络可以采用任意适当的结构。可选地,由于Inception-V3卷积神经网络能够增加网络深度和宽度,增加网络非线性,空间流网络可以采用Inception-V3卷积神经网络,从而有效解决因单帧视频图像内容差异而不能准确提取脸部情绪特征的问题。更为具体地,为充分利用单帧视频图像中的有用信息,提取丰富的脸部情绪特征,如图3所示,空间流网络可以包括多种卷积层、门控循环单元(Gated Recurrent Unit,GRU)层、全连接层(Fully Connected Layer)等,其中,多种卷积层可以包括二维不变卷积层、二维频谱卷积层等,每种卷积层中可设置批量标准化(Batch Normalization,BN)函数和线性整流函数(Rectified Linear Unit,ReLU)等。具体而言,每种卷积层用于从至少一帧视频图像中提取不同大小的脸部情绪特征;GRU层用于对多种卷积层提取的脸部情绪特征进行选择,保留对视频检测有用的脸部情绪特征;全连接层用于对经GRU层保留的脸部情绪特征进行整合,得到最终的脸部情绪特征。

S106,通过视频检测模型对多帧第一光流图像进行特征提取,得到目标人脸的脸部动作特征。

其中,目标人脸的脸部动作特征是指能够反映目标人脸的脸部动作的特征,例如包括但不限于反映目标人脸的唇部动作的特征等。

具体而言,如图2所示,上述S106可实现为:通过视频检测模型中的时间流网络对多帧第一光流图像进行特征提取,得到目标人脸的脸部动作特征。

示例地,将目标人脸的多帧第一光流图像输入视频检测模型中的时间流网络,由时间流网络按照多帧第一光流图像的时序对多帧第一光流图像进行特征提取,由此得到目标人脸的脸部动作特征。

需要说明的是,实际应用中,空间流网络和时间流网络可以具有不同的网络结构,比如空间流网络中引入了自注意力层,从而使得空间流网络能够聚焦于单帧视频图像中的关键脸部情绪特征;或者,空间流网络和时间流网络也可以具有相同的网络结构。

S108,至少基于目标人脸的脸部情绪特征和脸部动作特征,确定待检测视频的检测结果。

具体而言,待检测视频的检测结果可以指示待检测是否为伪造视频。

在一种可选的实现方式中,如图2所示,本申请实施例的视频检测模型还包括分类网络,分类网络具有基于输入的脸部特征进行人脸真伪识别的功能。具体而言,分类网络可以包括情绪识别网络和语音识别网络,其中,情绪识别网络可以识别人脸所表达的情绪,也即人脸的情绪状态,语音识别网络可以识别语音数据对应的脸部动作。

由于目标人脸的脸部情绪特征能够反映目标人脸的脸部情绪,目标人脸的脸部动作特征能够反映目标人脸的脸部动作,而真实人脸与伪造人脸在脸部情绪及脸部动作上均具有差异性,基于此,在上述S108中,将目标人脸的脸部情绪特征和脸部动作特征输入视频检测模型的分类网络,即可得到目标人脸是否为伪造人脸的识别结果,若目标人脸为伪造人脸,则可确定待检测视频为伪造视频;若目标人脸为真实人脸,则可确定待检测视频为真实视频。

在另一种可选的实现方式中,考虑到人脸在呈现不同情绪时瞳孔大小会发生相应的变化,且用户在说话时其脸部动作也会发生相应的变化,为了准确识别待检测视频的真伪,如图2所示,上述S108具体可实现为:

S181,基于目标人脸的至少一帧视频图像,确定目标人脸的瞳孔大小。

本申请实施例中,目标人脸的瞳孔大小可通过任意适当的方式确定。可选地,上述S181具体可实现为:基于预设图像分割算法,从目标人脸的至少一帧视频图像中分割出目标人脸的眼部区域;基于预设边缘检测算法对目标人脸的眼部区域进行边缘检测,以得到目标人脸的瞳孔边界;基于预设拟合算法对目标人脸的瞳孔边界,对眼部区域进行拟合处理,得到目标人脸的瞳孔大小。

示例地,可利用Dlib工具提取出上述至少一帧视频图像中的目标人脸,然后利用本领域常用的一种或多种图像分割算法对人眼的关键点进行检测,从单帧视频图像中分割出目标人脸的眼部区域;然后,目标人脸的眼部区域进行滤波,比如采用预设大小的滤波模板对目标人脸的眼部区域进行中值滤波,滤除眼部区域中正态分布的噪声;接着,基于一维最大熵阈值分割方法和预设阈值对目标人脸的眼部区域进行二值化处理,得到二值化眼部区域;进一步,采用普利维特算子(Prewittoperate)对阈值处理后的眼部区域进行边缘检测,得到目标人脸的瞳孔边界,并利用Freeman链码编码来表示目标人脸的瞳孔边界;而后,采用霍夫圆拟合算法和目标人脸的瞳孔边界,基于标准霍夫变换原理将图像空间转换为参数空间,然后对眼部区域进行圆心检测,从圆心推导出圆的半径,该半径即为目标人脸的瞳孔大小。

在此仅示出了确定瞳孔大小的一种具体实现方式。当然,应理解,瞳孔大小也可以采用其它的方式确定,本申请实施例对此不作限定。

S182,基于目标人脸的脸部情绪特征及瞳孔大小,确定待检测视频的第一检测结果。

其中,待检测视频的第一检测结果可用于指示待检测视频的真伪。

可选地,考虑到真实人脸的情绪与瞳孔大小之间理论上是相匹配的,比如真实人脸在表现为开心时其瞳孔大小较小,真实人脸在表现为惊恐时其瞳孔大小较大等等,但现有的人脸伪造技术所伪造出的人脸的情绪与瞳孔大小之间很难匹配上,基于此,在上述S182中,可通过情绪识别网络对目标人脸的脸部情绪特征进行情绪识别,得到目标人脸的情绪状态,而后基于目标人脸的情绪状态与目标人脸的瞳孔大小之间的匹配状态,确定待检测视频的第一检测结果。

示例地,基于目标人脸的情绪状态以及情绪状态与瞳孔大小之间的预设对应关系,可确定出与目标人脸的情绪状态匹配的瞳孔大小,若与目标人脸的情绪状态匹配的瞳孔大小与计算出的瞳孔大小之间的差值超过预设阈值,则可确定目标人脸为伪造人脸,进而可得到指示待检测视频为伪造视频的第一检测结果;若与目标人脸的情绪状态匹配的瞳孔大小与计算出的瞳孔大小之间的差值小于预设阈值,则可确定目标人脸为真实人脸,进而可得到指示待检测视频为真实视频的第一检测结果。

当然,实际应用中,第一检测结果也可以包括待检测视频为伪造视频的概率和/或待检测视频为真实视频的概率。示例地,可基于目标人脸的情绪状态与目标人脸的瞳孔大小之间的匹配程度值,确定待检测视频为伪造视频的概率和/或待检测视频为真实视频的概率,得到第一检测结果。

可选地,为进一步获得准确性较高的第一检测结果,在上述S182中,可将目标人脸的脸部情绪特征输入情绪识别网络,得到目标人脸的情绪状态,并将待检测视频的语音数据对应的文本数据输入预设文本识别模型,得到待检测视频中的目标人脸的情绪状态;进一步,基于情绪识别网络得到的情绪状态与预设文本识别模型得到的情绪状态之间的匹配状态以及目标人脸的情绪状态与目标人脸的瞳孔大小之间的匹配状态,确定待检测视频的第一检测结果。

示例地,若基于情绪识别网络得到的情绪状态与预设文本识别模型得到的情绪状态相同,则认为两者相匹配;进一步,若基于情绪识别网络得到的情绪状态与预设文本识别模型得到的情绪状态相匹配、且目标人脸的情绪状态与目标人脸的瞳孔大小相匹配,则确定第一检测结果为待检测视频为真实视频;若基于情绪识别网络得到的情绪状态与预设文本识别模型得到的情绪状态不匹配、或者目标人脸的情绪状态与目标人脸的瞳孔大小不匹配,则确定第一检测结果为待检测视频为伪造视频。

可以理解的是,在后一种实现方式中,不仅要判断目标人脸的情绪状态与目标人脸的瞳孔大小是否匹配,还要判断基于情绪识别网络得到的情绪状态与预设文本识别模型得到的情绪状态是否匹配,结合两个匹配结果确定待检测视频的第一检测结果,可以避免伪造出的人脸的情绪与瞳孔大小之间匹配而导致第一检测结果不准确。

S183,基于目标人脸的脸部动作特征以及待检测视频的语音数据,确定待检测视频的第二检测结果。

可选地,考虑到真实视频的语音数据与真实视频中的目标人脸的脸部动作(尤其是唇部动作)是相匹配的,但现有的人脸伪造技术所伪造出的视频的语音数据与该视频中的人脸的脸部动作很难匹配上,基于此,在上述S183中,可通过语音识别网络对待检测视频的语音数据进行语音识别,得到语音数据对应的目标脸部动作特征,而后基于目标人脸的脸部动作特征与语音数据对应的目标脸部动作特征之间的匹配状态,确定待检测视频的第二检测结果。

示例地,若目标人脸的脸部动作特征与语音数据对应的目标脸部动作特征不匹配,则可以确定第二检测结果为待检测视频为伪造视频;若目标人脸的脸部动作特征与语音数据对应的目标脸部动作特征匹配,则可以确定第二检测结果为待检测视频为真实视频。

当然,实际应用中,第二检测结果也可以包括待检测视频为伪造视频的概率和/或待检测视频为真实视频的概率。示例地,可基于目标人脸的脸部动作特征与语音数据对应的目标脸部动作特征的匹配程度值,确定待检测视频为伪造视频的概率和/或待检测视频为真实视频的概率,得到第二检测结果。

S184,基于待检测视频的第一检测结果和第二检测结果,确定待检测视频的检测结果。

示例地,若第一检测结果和第二检测结果均指示待检测侧视频为真实视频,则最终确定待检测视频为真实视频;否则,最终确定待检测视频为伪造视频。

又如,若第一检测结果和第二检测结果均包括待检测视频为伪造视频的概率,则可对第一检测结果和第二检测结果进行加权求和,得到最终概率,若该最终概率超过预设概率阈值,则确定待检测视频为伪造视频;否则,则确定待检测视频为真实视频。

在此仅示出了上述S108的一种具体实现方式。当然,应理解,上述S108也可以采用其它的方式实现,本申请实施例对此不作限定。

需要说明的是,在上述S102中,若针对待检测视频的每个片段均获取到单帧视频图像和基于时序排列的多帧第一光流图像,则可针对待检测视频的每个片段,基于该片段中的单帧视频图像和多帧第一光流图像,执行上述S104至S108,得到该片段对应的检测结果;而后,综合待检测视频的每个片段对应的检测结果,确定待检测视频是否为伪造视频。例如,如果待检测视频中超过1/2的片段对应的检测结果指示待检测视频为伪造视频,则确定待检测视频为伪造视频;否则,则确定待检测视频为真实视频。

本申请实施例提供的视频检测方法,利用真实人脸与伪造人脸在外观以及动态动作上均具有差异性的自然规律,基于视频检测模型,从待检测视频中目标人脸的至少一帧视频图像中提取目标人脸的脸部情绪特征,基于视频检测模型,从待检测视频中基于时序排列的目标人脸的多帧第一光流图像中提取目标人脸的脸部动作特征,进一步至少基于目标人脸的脸部情绪特征和脸部动作特征,确定待检测视频的检测结果,由于脸部情绪特征属于空域上的静态特征,能够反映人脸外观,脸部动作特征属于时域上的动态特征,能够反映人脸动作,结合空域上静态的脸部情绪特征和时域上动态的脸部动作特征这两类特征进行视频检测,可以避免陷入对某些特定分布的深度伪造特征过拟合的状态,进而可以提高检测准确率和通用性。

本申请实施例还提供一种视频检测模型的训练方法,训练得到的视频检测模型能够用于对待检测视频进行检测。下面对视频检测模型的训练过程进行详细说明。

请参考图4,为本申请的一个实施例提供的一种视频检测模型的训练方法的流程示意图,该方法可以包括如下步骤:

S402,获取样本视频集合和所述样本视频集合中每个样本视频对应的真伪标签。

其中,样本视频集合包括真实视频和多种伪造视频。多种伪造视频与多种人脸伪造算法一一对应,每种伪造视频是基于对应的人脸伪造算法对真实视频进行伪造处理后得到的。实际应用中,多种人脸伪造算法具体可以包括但不限于Face2Face算法、faceSwap算法、Deepfakes算法以及Neural Textures算法等。

样本视频对应的真伪标签用于表示样本视频是否为伪造视频。实际应用中,样本视频对应的真伪标签可以通过独热编码(one-hot)的形式表示,例如,真实视频对应的真伪标签为(1,0),伪造视频对应的真伪标签为(0,1)等。当然,样本视频对应的真伪标签还可以采用本领域常用的其它方式表示,本申请实施例对此不作限定。

S404,获取目标样本视频中样本人脸的至少一帧视频图像和基于时序排列的样本人脸的多帧第二光流图像。

上述S404的具体实现方式与图1所示实施例中S102的具体实现方式类似,在此不再赘述。

S406,通过初始视频检测模型对样本人脸的至少一帧视频图像进行特征提取,得到样本人脸的脸部情绪特征。

上述S406的具体实现方式与图1所示实施例中S104的具体实现方式类似,在此不再赘述。

S408,通过初始视频检测模型对样本人脸的多帧第二光流图像进行特征提取,得到样本人脸的脸部动作特征。

上述S408的具体实现方式与图1所示实施例中S106的具体实现方式类似,在此不再赘述。

S410,至少基于样本人脸的脸部情绪特征和脸部动作特征,确定目标样本视频的检测结果。

上述S410的具体实现方式与图1所示实施例中S108的具体实现方式类似,在此不再赘述。示例地,上述S410可以包括:基于目标样本视频中样本人脸的至少一帧视频图像,确定目标样本视频中样本人脸的瞳孔大小;基于目标样本视频中样本人脸的脸部动作特征以及目标样本视频的语音数据,确定目标样本视频的第二检测结果;基于目标样本视频的第一检测结果和第二检测结果,确定目标样本视频是否为伪造视频。

S412,基于样本视频集合中每个样本视频的检测结果和每个样本视频对应的真伪标签,对初始视频检测模型进行迭代训练,得到视频检测模型。

具体而言,可基于样本视频集合中每个样本视频的检测结果和真伪标签以及预设损失函数,确定初始视频检测模型的检测损失;进一步,基于初始视频检测模型的检测损失,对初始视频检测模型进行迭代训练,直到满足训练停止条件,得到视频检测模型。

更为具体地,上述S412可以包括:重复执行如下处理,直至初始视频检测模型满足预设训练停止条件:基于样本视频集合中每个样本视频的第一检测结果及第二检测结果以及每个样本视频的真伪标签,确定初始视频检测模型的总检测损失;基于总检测损失,调整初始视频检测模型的模型参数。

示例地,基于样本视频集合中每个样本视频的第一检测结果及每个样本视频的真伪标签以及第一预设损失函数,确定初始视频检测模型的第一检测损失;基于样本视频集合中每个样本视频的第二检测结果及每个样本视频的真伪标签以及第二预设损失函数,确定初始视频检测模型的第二检测损失;进一步,对初始视频检测模型的第一检测损失和第二检测损失进行加权求和,得到初始视频检测模型的总检测损失。其中,第一检测损失用于表示初始视频检测模型基于脸部情绪特征进行视频检测所产生的损失,第二检测损失用于表示初始视频检测模型基于脸部动作特征进行视频检测所产生的损失。第一预设损失函数和第二预设损失函数可以根据实际需要进行设置,本申请实施例对此不作限定。

可以理解的是,通过上述方式确定初始视频检测模型的总检测损失,综合考虑了初始视频检测模型基于不同的人脸特征进行视频检测所产生的检测损失,因而所得的总检测损失能够更准确地反映样本视频集合中每个样本视频的检测结果与每个样本视频对应的真伪标签之间的差异,进而利用该总检测损失对初始视频检测模型的模型参数进行调整,有利于提高最终所得的视频检测模型的检测准确率。

示例地,可采用反向传播算法,基于初始视频检测模型的检测损失和初始检测模型当前的模型参数,确定初始视频检测模型中各网络引起的检测损失;然后,以使初始视频检测模型的检测损失下降为目标,逐层调整各网络的模型参数。其中,初始视频检测模型的模型参数具体可以包括但不限于:初始视频检测模型中各网络的节点数量、不同网络的节点之间的连接关系及连接边权重、各网络中的节点对应的偏置等。

实际应用中,预设损失函数和训练停止条件可以根据实际需要进行设置,例如,预设损失函数可以设置为交叉熵损失函数,训练停止条件可以包括初始视频检测模型的检测损失小于预设损失阈值或者迭代次数达到预设次数阈值等等,本申请实施例对此不作限定。

本申请实施例在此示出了对初始视频检测模型进行迭代训练的一种具体实现方式。当然,应理解,也可采用本领域的其它方式对初始视频检测模型进行迭代训练,本申请实施例对此不作限定。

本申请实施例提供的视频检测模型的训练方法,采用真实视频以及基于多种人脸伪造算法对真实视频进行伪造处理所得到的伪造视频作为样本视频,利用样本视频及其对应的真伪标签训练初始视频检测模型,使得所得的视频检测模型能够学习多种伪造视频的特点,有利于提高视频检测模型的泛化能力,从而有利于提高视频检测模型对各种视频的检测效果;在具体的模型训练过程中,通过初始视频检测模型从样本视频中样本人脸的至少一帧视频图像中,提取出样本人脸的脸部情绪特征,通过初始视频检测模型从样本视频中基于时序排列的样本人脸的多帧光流图像中,提取出样本人脸的脸部动作特征,以及至少基于样本人脸的脸部情绪特征和脸部动作特征,对样本视频进行检测,而后基于样本视频集合中每个样本视频的检测结果和每个样本视频对应的真伪标签,对初始视频检测模型进行迭代训练,得到视频检测模型,由此使得初始时检测模型既能够充分学习能够充分学习样本视频在空域上的静态特征而具备准确提取反映人脸外观的脸部情绪特征,又能够充分学习样本视频在时域上的动态特征而具备准确提取反映人脸动态动作的脸部动作特征,以及具备结合这两类特征准确识别视频的能力,进而避免初始视频检测模型陷入对某些特定分布的深度伪造特征过拟合的状态,使得训练所得的视频检测模型具有较高的检测准确率和通用性,从而有利于提高基于该视频检测模型的视频检测的准确率和通用性。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

此外,与上述图1所示的视频检测方法相对应地,本申请实施例还提供一种视频检测装置。请参考图5,为本申请的一个实施例提供的一种视频检测装置500的结构示意图,该装置500包括:

第一图像获取单元510,用于获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像;

第一空域特征提取单元520,用于通过视频检测模型对所述至少一帧视频图像进行特征提取,得到目标人脸的脸部情绪特征;

第一时域特征提取单元530,用于通过所述视频检测模型对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征;

第一检测单元540,用于至少基于所述目标人脸的脸部情绪特征和脸部动作特征,确定所述待检测视频的检测结果。

可选地,所述第一检测单元包括:

瞳孔确定子单元,用于基于所述至少一帧视频图像,确定所述目标人脸的瞳孔大小;

第一检测子单元,用于基于所述目标人脸的脸部情绪特征及瞳孔大小,确定所述待检测视频的第一检测结果;

第二检测子单元,用于基于所述目标人脸的脸部动作特征以及所述待检测视频的语音数据,确定所述待检测视频的第二检测结果;

第三检测子单元,用于基于所述第一检测结果和所述第二检测结果,确定所述待检测视频的检测结果。

可选地,所述第一检测子单元具体用于:

通过所述视频检测模型中的情绪识别网络对将所述目标人脸的脸部情绪特征进行情绪识别,得到所述目标人脸的情绪状态;

基于所述目标人脸的情绪状态与所述目标人脸的瞳孔大小之间的匹配状态,确定所述待检测视频的第一检测结果。

可选地,所述瞳孔确定子单元具体用于:

基于预设图像分割算法,从所述至少一帧视频图像中分割出所述目标人脸的眼部区域;

基于预设边缘检测算法对所述目标人脸的眼部区域进行边缘检测,以得到所述目标人脸的瞳孔边界;

基于预设拟合算法和所述目标人脸的瞳孔边界,对所述眼部区域进行拟合处理,得到所述目标人脸的瞳孔大小。

可选地,所述第二检测子单元具体用于:

通过所述视频检测模型的语音识别网络对所述待检测视频的语音数据进行语音识别,得到所述语音数据对应的目标脸部动作特征

基于所述目标人脸的脸部动作特征与所述语音数据对应的目标脸部动作特征之间的匹配状态,确定所述待检测视频的第二检测结果。

可选地,所述第一空域特征提取单元,具体用于通过所述视频检测模型中的空间流网络对所述至少一帧视频图像进行特征提取,得到所述目标人脸的脸部情绪特征;

所述第一时域特征提取单元,具体用于通过所述视频检测模型中的时间流网络对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征。

可选地,所述第一图像获取单元获取待检测视频中目标人脸的至少一帧视频图像,包括:

将所述待检测视频划分为多个视频片段;

对每个所述视频片段中目标人脸的多帧RGB图像进行随机采样,得到多个候选单帧视频图像;

根据所述多个候选单帧视频图像确定所述至少一帧视频图像。

可选地,所述第一图像获取单元基于时序排列的目标人脸的多帧第一光流图像,包括:

将所述待检测视频划分为多个视频片段;

对每个所述视频片段中目标人脸的多帧灰度图像进行随机采样,得到多帧候选灰度图像;

基于每帧所述候选灰度图像及其时序相邻的候选灰度图像,确定每帧所述候选灰度图像对应的第一光流图像;

基于所述多帧候选灰度图像分别对应的第一光流图像,得到所述多帧第一光流图像。

显然,本申请实施例提供的视频检测装置可以作为上述图1所示的视频检测方法的执行主体,因此能够实现视频检测方法在图1所实现的功能。由于原理相同,在此不再重复说明。

本申请实施例提供的视频检测装置,利用真实人脸与伪造人脸在外观以及动态动作上均具有差异性的自然规律,基于视频检测模型,从待检测视频中目标人脸的至少一帧视频图像中提取目标人脸的脸部情绪特征,基于视频检测模型,从待检测视频中基于时序排列的目标人脸的多帧第一光流图像中提取目标人脸的脸部动作特征,进一步至少基于目标人脸的脸部情绪特征和脸部动作特征,确定待检测视频的检测结果,由于脸部情绪特征属于空域上的静态特征,能够反映人脸外观,脸部动作特征属于时域上的动态特征,能够反映人脸动作,结合空域上静态的脸部情绪特征和时域上动态的脸部动作特征这两类特征进行视频检测,可以避免陷入对某些特定分布的深度伪造特征过拟合的状态,进而可以提高检测准确率和通用性。

此外,与上述图4所示的视频检测模型的训练方法相对应地,本申请实施例还提供一种视频检测模型的训练装置。请参考图6,为本申请的一个实施例提供的一种视频检测模型的训练600的结构示意图,该装置600包括:

样本获取单元610,用于获取样本视频集合和所述样本视频集合中每个样本视频对应的真伪标签,所述样本视频集合包括真实视频和多种伪造视频,所述多种伪造视频与多种人脸伪造算法一一对应,每种伪造视频是基于对应的人脸伪造算法对所述真实视频进行伪造处理后得到的;

第二图像获取单元620,用于获取目标样本视频中样本人脸的至少一帧视频图像和基于时序排列的样本人脸的多帧第二光流图像;

第二空域特征提取单元630,用于通过初始视频检测模型对所述目标样本视频中样本人脸的至少一帧视频图像进行特征提取,得到所述样本人脸的脸部情绪特征;

第二时域特征提取单元640,用于通过所述初始视频检测模型对所述目标样本视频中样本人脸的多帧第二光流图像进行特征提取,得到所述样本人脸的脸部动作特征;

第二检测单元650,用于至少基于所述目标样本视频中样本人脸的脸部情绪特征和脸部动作特征,确定所述目标样本视频的检测结果;

训练单元660,用于基于所述样本视频集合中每个样本视频的检测结果和所述每个样本视频对应的真伪标签,对所述初始视频检测模型进行迭代训练,得到视频检测模型。

可选地,所述第二检测单元具体用于:

基于所述目标样本视频中样本人脸的至少一帧视频图像,确定所述目标样本视频中样本人脸的瞳孔大小;

基于所述目标样本视频中样本人脸的脸部情绪特征及瞳孔大小,确定所述目标样本视频中样本人脸的第一检测结果;

基于所述目标样本视频中样本人脸的脸部动作特征以及所述目标样本视频的语音数据,确定所述目标样本视频的第二检测结果;

基于所述目标样本视频的第一检测结果和第二检测结果,确定所述目标样本视频是否为伪造视频。

可选地,所述训练单元具体用于:

重复执行如下处理,直至所述初始视频检测模型满足预设训练停止条件:

基于所述样本视频集合中每个样本视频的第一检测结果及第二检测结果以及所述每个样本视频的真伪标签,确定所述初始视频检测模型的总检测损失;

基于所述总检测损失,调整所述初始视频检测模型的模型参数。

显然,本申请实施例提供的视频检测模型的训练装置可以作为上述图1所示的视频检测模型的训练方法的执行主体,因此能够实现视频检测模型的训练方法在图1所实现的功能。由于原理相同,在此不再重复说明。

本申请实施例提供的视频检测模型的训练装置,采用真实视频以及基于多种人脸伪造算法对真实视频进行伪造处理所得到的伪造视频作为样本视频,利用样本视频及其对应的真伪标签训练初始视频检测模型,使得所得的视频检测模型能够学习多种伪造视频的特点,有利于提高视频检测模型的泛化能力,从而有利于提高视频检测模型对各种视频的真伪检测效果;在具体的模型训练过程中,通过初始视频检测模型从样本视频中样本人脸的至少一帧视频图像中,提取出样本人脸的脸部情绪特征,通过初始视频检测模型从样本视频中基于时序排列的样本人脸的多帧光流图像中,提取出样本人脸的脸部动作特征,以及至少基于样本人脸的脸部情绪特征和脸部动作特征,对样本视频进行检测,而后基于样本视频集合中每个样本视频的检测结果和每个样本视频对应的真伪标签,对初始视频检测模型进行迭代训练,得到视频检测模型,由此使得初始时检测模型既能够充分学习能够充分学习样本视频在空域上的静态特征而具备准确提取反映人脸外观的脸部情绪特征,又能够充分学习样本视频在时域上的动态特征而具备准确提取反映人脸动态动作的脸部动作特征,以及具备结合这两类特征准确识别视频的能力,进而避免初始视频检测模型陷入对某些特定分布的深度伪造特征过拟合的状态,使得训练所得的视频检测模型具有较高的检测准确率和通用性,从而有利于提高基于该视频检测模型的视频检测的准确率和通用性。

图7是本申请的一个实施例电子设备的结构示意图。请参考图7,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成视频检测装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:

获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像;

通过视频检测模型对所述至少一帧视频图像进行特征提取,得到所述目标人脸的脸部情绪特征;

通过所述视频检测模型对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征;

至少基于所述目标人脸的脸部情绪特征和脸部动作特征,确定所述待检测视频的检测结果。

或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成视频检测模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:

获取样本视频集合和所述样本视频集合中每个样本视频对应的真伪标签,所述样本视频集合包括真实视频和多种伪造视频,所述多种伪造视频与多种人脸伪造算法一一对应,每种伪造视频是基于对应的人脸伪造算法对所述真实视频进行伪造处理后得到的;

获取目标样本视频中样本人脸的至少一帧视频图像和基于时序排列的样本人脸的多帧第二光流图像;

通过初始视频检测模型对所述目标样本视频中样本人脸的至少一帧视频图像进行特征提取,得到所述样本人脸的脸部情绪特征;

通过所述初始视频检测模型对所述目标样本视频中样本人脸的多帧第二光流图像进行特征提取,得到所述样本人脸的脸部动作特征;

至少基于所述目标样本视频中样本人脸的脸部情绪特征和脸部动作特征,确定所述目标样本视频的检测结果;

基于所述样本视频集合中每个样本视频的检测结果和所述每个样本视频对应的真伪标签,对所述初始视频检测模型进行迭代训练,得到视频检测模型。

上述如本申请图1所示实施例揭示的视频检测装置执行的方法或者上述如本申请图4所示实施例揭示的视频检测模型的训练方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的方法,并实现视频检测装置在图1所示实施例的功能,或者该电子设备还可执行图4的方法,并实现视频检测模型的训练装置在图4所示实施例的功能,本申请实施例在此不再赘述。

当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:

获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像;

通过视频检测模型对所述至少一帧视频图像进行特征提取,得到所述目标人脸的脸部情绪特征;

通过所述视频检测模型对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征;

至少基于所述目标人脸的脸部情绪特征和脸部动作特征,确定所述待检测视频的检测结果。

或者,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图4所示实施例的方法,并具体用于执行以下操作:

获取样本视频集合和所述样本视频集合中每个样本视频对应的真伪标签,所述样本视频集合包括真实视频和多种伪造视频,所述多种伪造视频与多种人脸伪造算法一一对应,每种伪造视频是基于对应的人脸伪造算法对所述真实视频进行伪造处理后得到的;

获取目标样本视频中样本人脸的至少一帧视频图像和基于时序排列的样本人脸的多帧第二光流图像;

通过初始视频检测模型对所述目标样本视频中样本人脸的至少一帧视频图像进行特征提取,得到所述样本人脸的脸部情绪特征;

通过所述初始视频检测模型对所述目标样本视频中样本人脸的多帧第二光流图像进行特征提取,得到所述样本人脸的脸部动作特征;

至少基于所述目标样本视频中样本人脸的脸部情绪特征和脸部动作特征,确定所述目标样本视频的检测结果;

基于所述样本视频集合中每个样本视频的检测结果和所述每个样本视频对应的真伪标签,对所述初始视频检测模型进行迭代训练,得到视频检测模型。

总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号