首页> 中国专利> 一种基于改进孪生网络用于检测篡改人脸视频和图像的方法

一种基于改进孪生网络用于检测篡改人脸视频和图像的方法

页面导航

摘要
著录项
说明书
相似文献

摘要

一种基于改进孪生网络用于检测篡改人脸视频和图像的方法，属于计算机图像处理技术领域。技术方案：S1、预处理模块Pre‑processing，将图像的人脸区域和背景区域裁剪出来，分别得到人脸图像块和背景图像块；S2、特征提取模块Feature extraction，使用改进的孪生网络提取图像特征，得到人脸图像块和背景图像块的灰度空间特征；S3、特征对齐模块Feature alignment，使用特征拼接的方法对其灰度空间特征进行拼接，并进行分类得到预测标签Y；S4、使用投票原则修正分类,得到结果标签Yt。该方法采用改进的孪生网络，提取图像人脸区域和背景区域的特征，然后度量他们的相似度，根据相似度的高低来最终进行真伪图像的分类。同时，提出的一种投票原则来修正最后的分类结果，使得结果更加精准。

著录项

公开/公告号CN112990031A

专利类型发明专利
公开/公告日2021-06-18

原文格式PDF
申请/专利权人大连理工大学;
展开▼

申请/专利号CN202110309489.0
发明设计人李育才;王波;宋增人;
展开▼

申请日2021-03-23
分类号G06K9/00(20060101);G06K9/62(20060101);G06T7/11(20170101);G06T7/194(20170101);
代理机构21235 大连智高专利事务所(特殊普通合伙);
代理人马庆朝
地址 116023 辽宁省大连市甘井子区凌工路2号
入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明属于计算机图像处理技术领域，尤其涉及一种基于改进孪生网络用于检测篡改人脸视频和图像的方法。

背景技术

近年来，随着科学技术的发展，社交媒体和短视频平台迅速崛起，占据了人们大部分的娱乐时间。越来越多的人喜欢在各种社交媒体和短视频平台上分享自己日常生活的图像和视频。这些图像和视频会在网络上迅速传播，成为人们互相交流和分享信息的主要载体。然而，图像篡改技术尤其是人脸图像篡改技术为图像以及视频的传播带来了一定的负面影响。被篡改之后的人脸图像和视频可能被应用于不正当的目的，例如敲诈勒索，通过面部信息非法获取公民个人隐私和财产，传播负面消息甚至制作低俗视频。一些重要政治名人的视频被操纵后，甚至有可能严重损害国家和社会安全。被篡改的图像和视频的广泛传播也会降低公民对新闻媒体行业的信任度，使公众更容易受到阴谋论的影响。因此，对于篡改人脸图像和视频的检测拥有十分重要的现实意义和价值。

随着深度学习和生成对抗网络的快速发展，目前的人脸篡改技术已经非常成熟，主要的篡改方法有Deepfake，Face2Face，Faceswap和Neural Textures。

Deepfake基于两个具有共享编码器的自动编码器，分别对源人脸和目标人脸的训练图像进行重构。然后将经过源人脸训练的编码器和解码器应用到目标人脸上，生成一幅伪造图像。然后使用泊松图像编辑将自动编码器的输出与图像的其余部分混合。Face2Face是一种面部重现系统，它将源视频的表情传输到目标视频，同时保持目标人的身份。FaceSwap是一种基于计算机图形学的方法，利用检测出的人脸地标，拟合一个3D人脸模型，该模型通过使用输入图像的纹理来最小化投影形状和局部地标之间的差异，将其反向投影到目标图像上生成伪造图像。Neural Textures是利用表情迁移，修改目标视频的面部纹理映射图，使其与源目标的表情匹配从而生成伪造视频的技术。尽管这些技术都依赖于先进的图像处理算法，但是现在已经有了一些集成的软件或程序框架，即使没有专业知识的人也可以使用这些软件或程序框架快速地处理人脸图像，从而使伪造人脸变得容易和普遍。

为了对抗人脸图像篡改带来的危害和负面影响，人们已经提出了多种方法来检测篡改人脸图像和视频。目前主要有两种检测方法，一种是使用传统的手工特征，另一种是使用神经网络提取特征。手工特征相比神经网络提取的特征更加清晰和健壮，可解释性更强，能更好地利用图像的细粒度信息。因此，这种方法在某些特定数据集上取得了较好的准确性，但在较大的数据集上，神经网络的方法可以取得更好的效果。神经网络可以学习到更多更丰富的图像特征，而不像使用手工特征的方法那样依赖于特定的特征。因此，这类方法受到了越来越多的重视和广泛的应用。伪造人脸的检测可以看作是一项分类任务，检测的准确性取决于特征的选择和分类器的选择。所有检测方法的过程大致可以分为特征提取和分类两个阶段。有一些方法将这两个阶段划分为两个独立的子问题，另外一些方法以基于深度神经网络的端到端的方式将这两个阶段集成在了一起。在特征提取阶段，主要有两种特征选择，一种是基于单幅图像的特征，另一种是基于视频帧间的特征。由于基于单个图像特征的方法也可以用来判断视频的真伪，因此对这类方法的研究较多。在分类阶段，分类器的选择主要有SVM、 CNN、RNN、MLP等，其中SVM和CNN应用比较广泛。

现有方法在部分公共数据集上取得了较好的检测精度，但仍有一些问题有待解决。第一个问题是，大多数方法的鲁棒性都很差。对于未压缩或轻度压缩的图像和视频，现有方法都能达到令人满意的检测精度，但当对伪造的人脸图像和视频进行高强度压缩时，现有方法的检测精度大大降低。因为压缩操作可以在特征层面上消除伪造痕迹，减小真实图像和虚假图像之间的特征分布差异，而这种特征差异这正是现有的大多数方法所依赖的检测原理。但是在现实应用中，图像和视频的质量在经过多种类似于压缩的后处理操作后，质量可能会相对较低，这极大地影响了现有方法的性能。第二个问题是几乎所有的方法都只使用人脸区域的特征或人脸与背景融合的边界区域，而忽略了背景的特征。虽然篡改算法只是篡改图像和视频的人脸区域，但值得注意的是,在没有篡改的真实的图像中,人脸面部区域和背景区域在某一特征水平是一致的,因为他们来自相同的相机,后续经过的处理操作也完全一致,而伪造图像则没有这样的特点。因此，背景特征实际上是十分有用的，而在真实图像中找到人脸区域与背景区域一致的特征空间是至关重要的。

发明内容

为了解决检测真假视频的准确性问题，本发明提出：一种基于改进孪生网络用于检测篡改人脸视频和图像的方法，技术方案如下：

S1、预处理模块Pre-processing，将图像的人脸区域和背景区域裁剪出来，分别得到人脸图像块和背景图像块；

S2、特征提取模块Feature extraction，使用改造的孪生网络提取图像特征，得到人脸图像块和背景图像块的灰度空间特征；

S3、特征对齐模块Feature alignment，使用特征拼接的方法对其灰度空间特征进行拼接，并进行分类得到预测标签Y；

S4、使用投票原则修正分类,得到结果标签Yt。

进一步地，所述步骤S1中，使用孪生网络度量图像人脸区域和背景区域的特征相似性，预处理模块Pre-processing的数据集中,将所有视频帧图像裁剪出相同大小的人脸图像块和背景图像块，将人脸图像块和背景图像块分别存放在不同的文件夹中，相同视频帧的图像块存放在相同文件夹下；步骤S1的过程如下：

S11、对于数据集中的每个视频，使用软件包dlib检测视频中每一帧的人脸区域，并根据人脸的中心裁剪出一个固定大小的人脸图像块；

S12、在图像的背景区域裁剪出与人脸图像块大小相同的n个背景图像块，n为奇数；

S13、创建多级文件夹来存储处理后的人脸图像块和背景图像块。

进一步地，所述步骤S13中，对于每个子数据集，创建一个文件夹F来存储相应的数据，在文件夹F中创建两个文件夹Fr和Ft，分别存储真实视频和篡改视频的数据；在Fr 和Ft中，创建N个文件夹Fk，(k＝1,2，…，N)，其中N为真实视频或篡改视频的数量； Fk中创建两个文件夹Ff和Fb分别存储每个视频裁剪后的人脸图像块和背景图像块；在训练阶段，分别从Fk文件夹的Fb和Ff文件夹中随机选择一个图像块，形成一组图像块对， IB表示背景图像块，IF表示人脸图像块。

进一步地，所述步骤S2中：孪生网络学习相似度度量并应用于人脸验证，通过孪生网络中改进的特征提取模块Feature extraction使得该网络学习人脸图像块和背景图像块之间的相似性，其过程如下：

S21、将图像块对中的IB和IF分别转换为背景图像块的灰度图IBG和人脸图像块的灰度图IFG，灰度图减少图像语义内容的影响；

S22、将IBG和IFG输入到两个共享权重的Xception网络中，分别得到两组512维的背景图像块的灰度空间特征GW(B)和人脸图像块的灰度空间特征GW(F)；

使用改进的孪生网络提取人脸图像块和背景图像块的特征，采用两个相同的Xception 网络作为孪生网络的主干，通过端到端训练和监督学习，让卷积神经网络自己在图像的灰度空间中提取出合适有效的特征，分别提取人脸图像块和背景图像块的特征，两个网络之间共享参数。

进一步地，所述步骤S3，特征对齐模块Feature alignment中，采用特征对齐的方式进行相似度的度量，将提取出的人脸图像块和背景图像块的特征拼接起来，通过三个全连接层进行最后的分类。

进一步地，采用特征对齐的方法进行相似度的度量，以区分它们是来自真实图像还是篡改过的图像，其方法为：在获取到图像块灰度空间的特征后，即GW(B)和GW(F)，在特征对齐模块中测量它们的相似度，将GW(B)和GW(F)连接起来，得到1024维的对齐特征，即CW，定义为：

进一步地，所述步骤S4中，在测试阶段，定义一种投票原则来修正分类结果，通过在同一帧图像上裁剪出n对图像块,n为奇数，并对每一对图像块的分类结果进行统计，分类结果以多数的结果为准；数据的选择方式步骤如下：

S41、从存储人脸图像块的文件夹Ff中,随机选择一个人脸图像块时，从存储相同的视频帧的背景图像块的文件夹Fb中选择n个背景图像块，n为奇数,并通过复制n次人脸图像块使它们形成n组图像对；

S42、将这n组图像块对输入到训练好的特征提取模块和特征对齐模块中，得到n个二值预测标签Yn，n＝1，3，5…；

S43、根据少数服从多数的投票原则，得到结果标签Yt，即人脸图像块和背景图像块属图像的分类结果；Y＝1表示Fk属于文件夹Fr,这表示一组图像块对来自一个真实视频,Y＝0 表示Fk属于文件夹Ft,这表示一组图像块对来自一个伪造视频。

本发明的有益效果为：

1.测试阶段定义的投票原则，修正分类结果，分类结果更准确，取得了较好的检测精度；

2.对齐后的特征保留了图像块对的所有特征信息，使之后的全连接层可以充分挖掘它们之间的相似性，使学习过程更加稳定和鲁棒，获得更令人满意的性能；

3.在没有篡改的真实的图像中，人脸面部区域和背景区域在某一特征水平是一致,后续经过的处理操作也完全一致,而伪造图像则没有这样的特点，利用这种特性，本发明不仅使用人脸区域的特征，还充分利用之前方法忽视的图像背景区域的特征，通过比较图像人脸区域和背景区域的相似性来进行伪造图像的检测，拥有非常好的鲁棒性能，使得在真实图像中找到人脸区域与背景区域一致的特征空间是至关重要的。

附图说明

图1为基于改进孪生网络用于检测篡改人脸视频和图像的方法的流程图；

图2为基于改进孪生网络用于检测篡改人脸视频和图像的方法整体结构框图；

图3为Xception网络框架图；

图4为投票原则的原理；

图5为试验数据图。

具体实施方式

一种基于改进孪生网络用于检测篡改人脸视频和图像的方法，包括：如图1-2基于改进孪生网络用于检测篡改人脸视频和图像的方法整体结构框图，

S1、预处理模块Pre-processing，将图像的人脸区域和背景区域裁剪出来，分别得到人脸图像块和背景图像块；

S2、特征提取模块Feature extraction，使用改进的孪生网络提取图像特征，得到人脸图像块和背景图像块的灰度空间特征；

S3、特征对齐模块Feature alignment，使用特征拼接的方法对其灰度空间特征进行拼接，并进行分类得到预测标签Y；

S4、使用投票原则修正分类,得到结果标签Yt。

其中，S1中，使用孪生网络度量图像人脸区域和背景区域的特征相似性，预处理模块 Pre-processing的数据集中,将所有视频帧图像裁剪出相同大小的人脸图像块和背景图像块，将人脸图像块和背景图像块分别存放在不同的文件夹中，相同视频帧的图像块存放在相同文件夹下；步骤S1的过程如下：

S11、对于数据集中的每个视频，使用软件包dlib检测视频中每一帧的人脸区域，并根据人脸的中心裁剪出一个固定大小的人脸图像块；

S12、在图像的背景区域裁剪出与人脸图像块大小相同的n个背景图像块，n为奇数；

S13、创建多级文件夹来存储处理后的人脸图像块和背景图像块。

其中，S2中，对于每个子数据集，创建一个文件夹F来存储相应的数据，我们在文件夹F中创建两个文件夹Fr和Ft，分别存储真实视频和篡改视频的数据；在Fr和Ft中，我们创建N个文件夹Fk，(k＝1,2，…，N)，其中N为真实视频或篡改视频的数量；Fk中创建两个文件夹Ff和Fb分别存储每个视频裁剪后的人脸图像块和背景图像块；在训练阶段，我们分别从Fk文件夹的Fb和Ff文件夹中随机选择一个图像块，形成一组图像块对，IB表示背景图像块，IF表示人脸图像块。

其中，所述步骤S2中：孪生网络学习相似度度量并应用于人脸验证，通过孪生网络中改进的特征提取模块Feature extraction使得该网络学习人脸图像块和背景图像块之间的相似性，其过程如下：

S21、将图像块对中的IB和IF分别转换为背景图像块的灰度图IBG和人脸图像块的灰度图IFG，灰度图减少图像语义内容的影响；

S22、将IBG和IFG输入到两个共享权重的Xception网络中，分别得到两组512维的背景图像块的灰度空间特征GW(B)和人脸图像块的灰度空间特征GW(F)；

使用改进的孪生网络提取人脸图像块和背景图像块的特征，采用两个相同的Xception 网络作为孪生网络的主干，Xception网络如图3所示，通过端到端训练和监督学习，让卷积神经网络自己在图像的灰度空间中提取出合适有效的特征，分别提取人脸图像块和背景图像块的特征，两个网络之间共享参数；共享权值保证了两个网络提取同一空间的特征，同时也相当于丰富了每个网络的特征数据，使网络更加高效。

其中，S3中，特征对齐模块Feature alignment中，摒弃原始孪生网络的度量方式，采用特征对齐的方式进行相似度的度量，将提取出的人脸图像块和背景图像块的特征拼接起来，通过三个全连接层进行最后的分类。

由于硬件和软件的差异以及制造的不完善，生成视频的过程会在视频上留下独特的印记，在一个视频中，印记通常应该是一致的和连续的，所以在真实视频中,人脸区域和的背景区域有很高的相似性，在由Deepfake和FaceSwap伪造的视频中,人脸区域被完全替换掉，所以人脸区域和背景区域之间的相似性较低,因为人脸区域和背景区域来自不同的视频；使用Face2Face和Neural Textures生成的篡改视频虽然只修改面部表情和个别属性,而不是人脸区域直接来源于其他视频,但是人脸的篡改仍然会破坏印记的一致性。为此，我们使用改进的孪生网络来度量视频帧人脸区域与背景区域之间的相似性。我们采用Xception网络作为孪生网络的骨干，通过端到端训练和监督学习，我们让卷积神经网络自己在图像的灰度空间中提取出合适有效的特征。

其中，S4中，在测试阶段，定义一种投票原则来修正分类结果，通过在同一帧图像上裁剪出n对图像块,n为奇数，并对每一对图像块的分类结果进行统计，分类结果以多数的结果为准；数据的选择方式步骤如下：

S42、将这n组图像块对输入到训练好的特征提取模块和特征对齐模块中，得到n个二值预测标签Yn，n＝1，3，5…；

如图5所示，IB1，IB2，IB3分别是同一张视频帧的三张背景图像块，IF是人脸图像块。 Y1，Y2，Y3分别表示三对图像对的测试结果标签，Yt表示投票之后的最终测试结果标签。 Yt＝1表示图像为真实图像，Yt＝0表示图像为篡改图像。表1说明了Yt和三组图像块对的标签之间的投票原则。

表1投票结果

经过反复试验，在测试阶段得到实验数据如图4所示，DP的中文是Deepfake，F2的中文是Face2Face，FS的中文是FaceSwap，NT的中文是Neural Textures，这四个是篡改图像方法的名称，LQ的中文是Low Quality低画质，HQ的中文是High Quality高画质，Raw的中文是原画质，这三个表示图像视频的画质情况；

Meso4、MesoInception4、Xception、Our method、Our method|(voting)分别表示使用的网络模型，Meso4、MesoInception4、Xception是现有技术中的网络模型，Our method是本发明的孪生网络模型，Ourmethod|(voting)是使用投票原则的孪生网络模型；

通过实验数据可以看出本发明很大程度上提高了鲁棒性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于改进孪生网络用于检测篡改人脸视频和图像的方法 [P] . 中国专利： CN112990031A . 2021-06-18
2. 基于关键帧人脸特征的人脸交换篡改视频检测方法、系统及介质 [P] . 中国专利： CN113469062A . 2021-10-01
3. System and method of video Telecommunication to compress and decompress The Video Data of color digitalThe present Invention relates to a method for compressing a digital color Video Data in a Telecommunication System Video that has a means for generating a video signal that is uN means for generating a video signal to a Plurality of color video framerate,With Every Frame Image consisting of a Plurality of Scanning Lines composed of a Plurality of pixelsAnd each pixel in the image Frame consists of the components of color digitalThe Method comprises the steps of determining a function); Luminance pixel based on at least one of the three components of color digital(b) identify at least one parameter decision for at least a significant portion of pixels in the scanlines of a Table of current image based on the difference ofThe role in Luminance between the pixels at a Predetermined distance from at least one pixel in each Scan line and at least a (c) comparison of decision parameter with [P] . MX166516B . 1993-01-11

机译：用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法，该方法具有用于生成视频信号的装置，该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率，每个帧图像由多个扫描线组成，扫描线由多个像素组成，图像中的每个像素由彩色数字分量组成（该方法包括确定功能的步骤）;基于彩色数字（b）的三个分量中的至少一个的亮度像素，基于两个像素之间的亮度差异，针对当前图像表的扫描线中的至少大部分像素，确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素，以及至少（c）比较决策参数与
4. A Methord of Video Recognition Network of Face Tampering Based on Deep Learning [P] . AU2019101186A4 . 2020-01-23

机译：基于深度学习的人脸篡改视频识别网络方法
5. NETWORK CAMERA APPARATUS, NETWORK CAMERA SERVER AND DIGITAL VIDEO RECORDER FOR PREVENTING FORGERY AND ALTERATION OF AN DIGITAL IMAGE, AND APPARATUS FOR AUTHENTICATING THE DIGITAL IMAGE FROM SAID APPARATUS, AND METHOD THEREOF [P] . 韩国专利： KR100425868B1 . 2004-04-03

机译：用于防止伪造和篡改数字图像的网络摄像机设备，网络摄像机服务器和数字视频记录器，以及用于从所述设备认证数字图像的设备及其方法