首页> 中国专利> 一种基于双流CNN的帧内取证深度学习方法

一种基于双流CNN的帧内取证深度学习方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于双流CNN的帧内取证深度学习方法，包括：采集视频数据集，对所述数据集进行解码得到视频帧，采用双流CNN对输入视频帧进行特征提取；所述双流CNN分别在网络开头加入空域富模型在卷积层提取噪声残差以提取篡改特征和对所述输入视频帧的内容进行特征提取；所述双流CNN分别获得所提取到的特征后，将两部分特征进行融合处理，并利用通道注意力机制调整所述两部分特征的通道权重，得到的合并特征兼顾篡改特征和视频帧的内容特征，输出结果，完成帧内取证。本发明相较于传统技术方案检测效果有所提高，有较强的鲁棒性，降低了计算复杂度，提高了篡改检测的分类正确率。

著录项

公开/公告号CN113033379A

专利类型发明专利
公开/公告日2021-06-25

原文格式PDF
申请/专利权人贵州大学;
展开▼

申请/专利号CN202110305089.2
发明设计人李智;贺琨;王国美;张健;刘程萌;
展开▼

申请日2021-03-18
分类号G06K9/00(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构32272 南京禹为知识产权代理事务所(特殊普通合伙);
代理人王晓东
地址 550025 贵州省贵阳市花溪区贵州大学
入库时间 2023-06-19 11:35:49

说明书

技术领域

本发明涉及图像识别、目标检测的技术领域，尤其涉及一种基于双流CNN的帧内取证深度学习方法。

背景技术

随着视频社交App用户数量日益增加，越来越多的人在社交软件上热衷短视频的拍摄与分享，随着各类专业视频编辑软件，如Sony Vegas、会声会影、爱剪辑等的普及，使得视频编辑的门槛大幅降低，人们不再满足于单纯地拍摄分享短视频，而是使用视频编辑软件对视频短片进行精心的后期处理后再上传，正常使用视频编辑软件对原始视频进行后期处理本质上也是一种篡改，但是这种篡改对原始视频有着正面且无害的影响，比如常见的嵌入字幕、电影后期处理、视频艺术加工等，而恶意地篡改视频是指在视频帧序列中加入不存在的人或物从而产生不正确的舆论导向或是造成严重的社会影响。

取证技术分为主动取证和被动取证，其中被动取证无需往视频中额外添加版权信息，仅靠视频自身信息就可对视频的真实性和完整性进行判定，因此被动取证方法适用场景更为广泛，已成为当前信息安全领域的一个研究热点。视频被动取证大致分为帧内取证与帧间取证两种：帧内取证是对视频单帧内容进行特征提取，通过提取的特征是否包含篡改痕迹从而判断视频是否被篡改，而帧间取证是观察比较帧与帧之间的关联性是否异常，从而判断视频是否经过篡改。

随着深度学习在图像识别、目标检测等领域的广泛应用，研究者们开始使用深度学习对图像与视频帧内取证进行相关研究。Adobe公司提出将图像与其所对应的噪声作为双流输入到Faster R-CNN进行深度学习分类，可以很好地检测出图像的拼接、复制以及移除篡改区域，YeYao等提出将输入帧经过特定的高通滤波器得到残差信号，再经过特定结构的CNN进行篡改判别的深度学习方案，与直接使用各类隐写分析算法得到的篡改判别结果相比，其提出的算法取得更好的实验结果，但YeYao提出的网络结构中使用超大型池化层，这会造成特征图的信息严重丢失，对分类的正确性造成较大的负面影响，陈临强等提出使用C3D神经网络结合SRM的空域滤波器进行视频帧篡改检测，与不带SRM层的C3D网络相比，带SRM层的C3D取得更好的实验结果。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有技术方案检测效果差，局限性大，鲁棒性低，计算复杂度高，分类准确率低。

为解决上述技术问题，本发明提供如下技术方案：采集视频数据集，对所述数据集进行解码得到视频帧，采用双流CNN对输入视频帧进行特征提取；所述双流CNN分别在网络开头加入空域富模型在卷积层提取噪声残差以提取篡改特征和对所述输入视频帧的内容进行特征提取；所述双流CNN分别获得所提取到的特征后，将两部分特征进行融合处理，并利用通道注意力机制调整所述两部分特征的通道权重，得到的合并特征兼顾篡改特征和视频帧的内容特征，输出结果，完成帧内取证。

作为本发明所述的基于双流CNN的帧内取证深度学习方法的一种优选方案，其中：所述空域富模型部分高通滤波卷积核包括，

作为本发明所述的基于双流CNN的帧内取证深度学习方法的一种优选方案，其中：在所述空域富模型卷积层中采用截断线性函数作为激活函数，包括，

其中，T表示阶段上限值，x表示提取得到的残差噪声值。

作为本发明所述的基于双流CNN的帧内取证深度学习方法的一种优选方案，其中：所述利用通道注意力机制调整所述两部分特征的通道权重包括，采用SE Block对合并特征图中的各通道权重进行调整：将全局空域信息压缩为通道描述子，使用全局平均池化生成所述合并特征图中各通道的统计量z；完全捕获通道依赖关系；将激励权重与所述合并特征图做乘积运算，得到调整通道权重后的合并特征图X。

作为本发明所述的基于双流CNN的帧内取证深度学习方法的一种优选方案，其中：所述合并特征图中各通道的统计量包括，

其中，U表示合并后的特征图像，H表示图像的高度，W表示图像的宽度。

作为本发明所述的基于双流CNN的帧内取证深度学习方法的一种优选方案，其中：所述合并特征图X包括，

X＝F

作为本发明所述的基于双流CNN的帧内取证深度学习方法的一种优选方案，其中：所述激励权重s包括，

s＝sigmoid(FC

其中，FC表示全连接公式。

作为本发明所述的基于双流CNN的帧内取证深度学习方法的一种优选方案，其中：所述模型训练的损失函数包括，

其中，x

作为本发明所述的基于双流CNN的帧内取证深度学习方法的一种优选方案，其中：所述结果输出过程包括，在得到所述合并特征后，将所述合并特征导入平均池化层以降低特征尺寸，并进行Dropout以防止产生过拟合现象，然后做全连接处理得到二分类结果值，通过Softmax层使得分类结果收敛于0到1的闭区间中，最终得到的概率值便为所述输入视频帧的正常/篡改判定概率值。

作为本发明所述的基于双流CNN的帧内取证深度学习方法的一种优选方案，其中：所述双流CNN结构的主要框架包括Inception-V4神经网络，第一个CNN网络框架在Inception-V4的起始位置处加入SRM卷积层，从所述输入视频帧的噪声残差中获取篡改痕迹特征；另一个CNN网络框架采用Inception-V4直接从所述输入视频帧中获取每一帧的内容特征。

本发明的有益效果：相较于传统技术方案检测效果有所提高，有较强的鲁棒性，降低了计算复杂度，提高了篡改检测的分类正确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的基于双流CNN的帧内取证深度学习方法的基本流程示意图；

图2为本发明一个实施例提供的基于双流CNN的帧内取证深度学习方法的CNN结构示意图；

图3为本发明一个实施例提供的基于双流CNN的帧内取证深度学习方法的调节各通道权重的SE Block结构示意图；

图4为本发明一个实施例提供的基于双流CNN的帧内取证深度学习方法的正常视频帧与篡改视频帧的对比示意图；

图5为本发明一个实施例提供的基于双流CNN的帧内取证深度学习方法的在正常帧数据集上滑动分割框得到3张分割的正常视频帧示意图；

图6为本发明一个实施例提供的基于双流CNN的帧内取证深度学习方法的在篡改帧数据集上滑动分割框得到N张分割的正常视频帧示意图；

图7为本发明一个实施例提供的基于双流CNN的帧内取证深度学习方法的CNN帧内取证算法流程示意图；

图8为本发明一个实施例提供的基于双流CNN的帧内取证深度学习方法的各个算法的帧内取证实验结果对比图；

图9为本发明一个实施例提供的基于双流CNN的帧内取证深度学习方法的随着迭代次数增加FACC的变化趋势图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

针对帧内取证的研究，研究学者们提出各类传统方法针对帧内篡改来进行检测，徐俊瑜提出通过检测视频帧是否经过滤波的方式来判断视频是否经过帧内篡改，因为篡改者需用滤波使整个篡改视频帧看起来更自然，但此算法在检测没有经过滤波处理的篡改视频时则完全失效；张璐波等提出一种基于LK光流的视频帧内运动目标复制粘贴篡改检测算法，通过提取运动目标区域的光流值然后根据光流的相关性筛选，寻找可能的篡改序列，最后利用特征匹配完成篡改检测，但此算法针对运动目标较小的复制粘贴篡改检测效果比较有限；李倩用对称帧差法检测单帧运动对象删除区域，可以对篡改后的未压缩视频进行有效的识别，但目前视频均为压缩视频，该算法的应用领域有着较大的局限性；Bidokhti等提出将视频帧分区，然后计算并观察各个分区的光流系数是否异常，以此来判断视频帧是否经过复制粘贴篡改的检测方案，但该算法检测结果容易受到视频GOP长度影响，算法鲁棒性并不高；Li等提出对运动矢量特征进行分析，用于判断静止背景的视频是否经过移除类篡改，但该算法对于运动较为复杂的视频，其检测效果有限；Pandey等使用SIFT算法从视频帧内的物品提取特征，并用该特征检测出复制、移除型篡改，但由于SIFT算法自身计算复杂度较高，对视频进行SIFT计算负荷过于庞大。

隐写术是通过向多媒体中隐秘地嵌入极少量的信息以满足信息传递的保密性，如果非法使用隐写术传输危险的隐秘信息，会给社会带来各种危害，且不容易被察觉。为此，针对隐写术的非正常使用提出使用隐写分析对隐写术进行检测和防御。由于隐写术是篡改隐秘程度的最高标准，本实施例借鉴隐写分析的研究思路，用于检测篡改幅度较大的帧内取证算法，从而提高帧内取证算法的分类性能。隐写分析算法通常对输入图像使用多个的高通滤波，这些高通滤波被称为空域富模型(Spatial Rich Model，SRM)，用于提取图像不同类型的噪声残差。在隐写分析中，由于隐写通常只会对像素进行较小的改动，因此隐写对图像造成的改动并不会使得图像内容产生改变，为此隐写分析时通常使用SRM来提取输入图像的噪声残差，使得隐写分析算法能够专注于像素的小改动，而不去关注图像内容产生的变化；本实施例使用SRM对视频帧进行噪声残差提取也是出于同样的目的，视频篡改时不一定会对视频帧内容产生较大的影响但会在视频帧中留下较小的篡改痕迹，取证算法通过视频帧的噪声残差能够从像素层面关注到视频帧像素因篡改而产生的细微变化，而非只是一昧地关注篡改对视频帧内容产生的影响，从而能更好地对篡改特征进行提取。因此，本发明提出的帧内取证算法在网络的起始位置加入SRM卷积层，使网络通过噪声残差信息更好地获得输入视频帧的篡改特征，并利用激活函数实现本算法的截断操作以降低取证算法的运算负担。

参照图1～6，为本发明的一个实施例，提供了一种基于双流CNN的帧内取证深度学习方法，包括：

S1：采集视频数据集，对数据集进行解码得到视频帧，采用双流CNN对输入视频帧进行特征提取；需要说明的是，

为了获得更好的分类性能，本实施例以Google团队所提出的Inception-V4神经网络为主要框架用于本发明所提出的双流CNN结构，第一个CNN网络框架在Inception-V4的起始位置处加入SRM卷积层，从输入视频帧的噪声残差中获取篡改痕迹特征，另一个CNN网络框架是使用Inception-V4直接从输入视频帧中获取每一帧的内容特征，最后将两个CNN学习到的特征进行融合作为输入视频帧的总特征，本发明所提的双流CNN总体结构如图2所示。

进一步的，Inception-V4中主要包含Stem、Inception与Reduction三大模块。其中Stem模块使用并行且不对称的网络结构，使用尺寸1x1的卷积核来对输入特征图进行降维，在保证信息损失足够小的前提下，降低网络的计算量，Inception模块则使用四路并行结构，获取不同的感受野，结构中部署各类尺寸的卷积核，但由于Inception模块中层次更深，结构更复杂，所以需要在其后面添加Reduction模块，以降低运算负担；Reduction模块是并行且不对称的卷积结构，跟Stem模块一样使用了1x1的卷积核以降低计算量，并且其卷积层步长均为2，能进一步地降低特征图的尺寸，从而有效地降低计算复杂度。

S2：双流CNN分别在网络开头加入空域富模型在卷积层提取噪声残差以提取篡改特征和对输入视频帧的内容进行特征提取；需要说明的是，

空域富模型部分高通滤波卷积核包括，

具体的，空域富模型(SRM)算法是设计一系列的高通滤波器，如上式所示，其主要作用是提取输入视频帧的噪声残差，不同的滤波器得到基于帧内容的不同的噪声残差特征，因此联合使用多个SRM高通滤波器可以检测多种篡改情况的篡改特征，使得在最后的二分类实验中获得更高的正确率，另外训练时将SRM卷积层的参数设置为不可训练，可使得SRM高通滤波器提取噪声残差的特征不会遭到破坏。

同时在SRM卷积层中本实施例使用TLU(截断线性函数)作为激活函数，将得到的噪声残差信息截断在指定范围内，如下公式所示，这样可以在保留关键残差噪声信息的同时，舍弃掉冗余的信息，从而降低深度学习网络的运算负担：

其中，T表示阶段上限值，x表示提取得到的残差噪声值，该公式是为了把噪声值x限制在-T到T的范围内。

S3：双流CNN分别获得所提取到的特征后，将两部分特征进行融合处理，并利用通道注意力机制调整两部分特征的通道权重，得到的合并特征兼顾篡改特征和视频帧的内容特征，输出结果，完成帧内取证。需要说明的是，

当两个CNN都学习输出特征后，为得到更为全面的二分类判断依据，需要融合两个CNN的输出结果得到合并特征图。由于合并后的特征未体现各通道的重要性，因此两个通道中既有重要特征也有冗余特征，本实施例引导网络将计算资源偏向合并特征中最为重要的部分，并抑制冗余特征，为此本实施例借助通道注意力机制来调整合并后两个特征的通道权重，本发明通过SE(Squeeze and Excitation)Block来实现对合并特征图中的各通道权重进行调整，整体结构如图3所示，首先将全局空域信息压缩(Squeeze)为通道描述子，实际操作为使用全局平均池化生成合并特征图中各通道的统计量z，如下公式所示，其中U代表合并后的特征图像，H代表图像的高度，W代表图像的宽度，C代表图像的通道数。

接下来需要完全捕获通道依赖关系，为限制模型复杂度并强化网络的泛化能力，本发明使用门限机制中bottleneck形式的两个全连接层，其中一个全连接层将合并特征图的统计量通道数降维到

s＝sigmoid(FC

其中，FC表示全连接公式。

最后本发明将激励权重与合并特征图做乘积运算，得到调节通道权重后的合并特征图X，如下公式所示，从而实现调节合并特征图中各通道权重的目的。

X＝F

在得到合并特征后，将其导入平均池化层以降低特征尺寸，并进行Dropout以防止产生过拟合现象，最后做全连接处理得到二分类结果值，通过Softmax层使得分类结果收敛于0到1的闭区间中，最终得到的概率值便为输入视频帧的正常/篡改判定概率值。

由于对输入的视频帧进行取证本质上是一个二分类问题，为此网络损失的计算则为直接使用交叉熵函数，如下公式所示：

其中，x

具体的，帧内取证数据集包括：

(1)复制粘贴帧内篡改数据集：本实施例采用复制粘贴型帧内篡改数据集进行实验操作，以验证本发明提出算法的有效性，使用的视频数据集包含原始的无篡改视频数据集和与原始无篡改视频所对应的篡改视频数据集，将它们解码后便能得到一系列的视频帧，无篡改视频解码得到的全部帧均为无篡改视频帧，而篡改视频解码得到的视频帧一部分是正常视频帧，另一部分是篡改视频帧，同一时间点下的正常视频帧与其所对应的篡改视频帧的对比如图4所示。图4中右图为篡改视频帧，手拿大象艺术品为视频帧的篡改部分，这其实是一种“复制粘贴”型篡改，它复制于同一视频，其它时间段中某一视频帧中手拿大象艺术品的内容，邻近篡改帧中也做了同样的复制粘贴操作，这样重新编码得到的篡改视频就在本不应该有手拿大象艺术品的时间段内出现手拿大象艺术品，光凭肉眼很难看出来该视频经过篡改。本实施例使用这类复制粘贴型篡改数据集输入双流CNN网络框架来进行训练，使得本实施例提出的算法能够成功地分类识别出复制粘贴型帧内篡改。但是这类帧内篡改数据集通常存在着两个问题：一是整体数据量偏小，很难满足深度学习需要大量学习样本的要求；二是视频数据集中篡改帧数据集数量往往远远小于正常帧数据集的数量，这是因为正常视频解码得到的视频帧均为正常视频帧，而篡改视频解码得到的视频帧中只有部分为篡改视频帧，剩余的帧皆为正常视频帧，由于正常帧和篡改帧数量严重不平衡，将会影响到深度学习框架的训练效果，为解决上述两个问题，本实施例对视频数据集进行扩充，以解决数据量偏小以及正常和篡改数据集两者数量不平衡问题。

(2)数据增强：本实施例通过对原始视频帧进行分割得到新的视频帧的方式对数据集进行数据增强。针对正常数据集，由于其自身数据量较多，所以只采用将单张正常视频帧分割出三张视频帧的方案来进行数据增强。具体做法如下：定义一个正方形分割框，框的高度和原始视频帧的高度一致，框宽度则与高度一致。将分割框放在正常视频帧上滑动，由于正常视频帧只需分割出三张增强数据集，本实施例便将分割框分别滑动到视频帧的左、中、右三个位置进行分割，因此得到对应位置的分割视频帧作为增强数据，分割流程如下图5所示。针对篡改数据集，由于其自身数据量较少，所以本着尽可能多地增加篡改数据集的原则，本实施例使用同一个正方形分割框来分割出尽量多的分割视频帧作为增强篡改数据集，为此设定每次拖动分割窗的步长为10个像素，每拖动一次就得到一个篡改视频帧，但是与分割正常数据集情况有所不同的是，针对于篡改数据帧，要额外地关注篡改帧的篡改内容，在尽可能多地分割篡改帧的同时也要保证分割框要包含全部或部分的篡改内容，这样才能保证分割得到的为篡改视频帧，分割流程如图6所示，通过使用数据增强策略，使得原本数据量不够丰富的视频帧数据集得到了一定的扩充，尤其是数量远少于正常视频帧的篡改视频帧，其原始篡改帧被尽可能多地分割出新的篡改帧，达到对数量稀少的篡改帧进行增强的目的，这样便能够平衡正常视频帧与篡改视频帧彼此之间的数量差距。

算法思想：本实施例对导入的视频进行解码操作，得到一系列的视频帧序列S，设fi代表视频帧的第i帧，其中N是视频帧长度，得到下式：

S＝{f

将视频帧f

设定当某一帧f

当导入视频中有一定数量的帧被算法判定为篡改帧时，则判定导入的视频为篡改视频，相反没有帧被判定为篡改帧时，本实施例则将导入的视频判定为正常视频。但是要特别说明的是，当导入视频仅有零星数帧被判定为篡改帧时，本实施例依旧将导入视频判定为正常视频，这是因为篡改视频如果要达到篡改效果，篡改者通常需要对视频内的很多帧均进行篡改，如果只对少量帧进行篡改，那么重编码得到的篡改视频的播放视觉效果跟原始视频几乎没区别，这样的做法没有达到篡改目的，并且考虑到算法分类器通常存在一定误差导致误判，为此当导入视频只有零散的一两帧被判为篡改帧时，基于误差的考虑，将输入视频判定为正常视频。

本发明提出一种基于双流CNN结构与通道注意力机制相结合的视频帧内取证深度学习算法，一个CNN在网络开头加入空域富模型(SRM)在卷积层进行噪声残差提取，使得网络从残差中专注于对篡改痕迹特征的提取，另一个CNN用于对输入视频帧的内容进行特征提取，两个CNN分别获得所提取到的特征后，将两部分特征进行融合处理，并使用通道注意力机制调整两部分特征的通道权重，这样合并特征可以兼顾篡改特征和视频帧的内容特征，从而将篡改检测的分类正确率进一步地提高。

实施例2

参照图7～9为本发明另一个实施例，为对本方法中采用的技术效果加以验证说明，本实施例采用传统技术方案与本发明方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

本实施例的帧内取证实验，选取网上公开的由P.Bestagini等人制作的REWIND帧内篡改数据集来进行实验，REWIND基于由英国萨里大学的视频取证团队制作的SULFA数据集所制作；SULFA中包含了大量由不同摄像机所拍摄的原始真实视频，而REWIND在其中挑选部分视频做复制粘贴型帧内篡改，将篡改视频与对应的原始视频组成取证数据集。

REWIND数据集中包含了40个原始视频与40个篡改视频(含不同压缩程度的视频)，其中每一个原始视频均与一个篡改视频所相对应，原始视频均未经过任何形式的篡改操作，而篡改视频则为通过将原始视频中某个时间段出现的视频内容复制粘贴到同一个视频中的其它时间段中所形成。所有视频均为使用H.264进行压缩编码，帧分辨率为320x240，数据集中的视频帧率有25fps、29.97fps、30fps三种。本实施例按照10:1的原则从整个数据集中划分得到训练集与测试集，同时也按实施例1所述的通过对视频帧分块的形式进行数据增强，以此来进一步地扩充整个数据集的数量，并平衡原始视频帧与篡改视频帧的数量，防止训练的网络产生欠拟合现象

实验步骤：使用Facebook公司推出的深度学习框架Pytorch对Inception-V4网络进行搭建，训练时使用的GPU为NVIDIA Tesla V100，损失计算使用交叉熵函数，优化器使用Adam，并设置学习率为5e-5，batchsize设置为16。流程如图7所示，在实验中本实施例对数据集进行数据增强并进行分类标记后，将所有训练集中每一帧输入Inception-V4进行训练，对整体模型进行调优，直至损失率降到最低且参数完善后停止，训练好的参数与权重将直接用于之后的测试工作。测试时，将测试集中视频的每一帧输入Inception-V4得到篡改概率值，根据篡改概率值的大小判断输入帧是否被篡改，之后与测试集的实际情况进行对比以判断分类的正误，对所有帧进行了测试后，本实施例将根据测试结果来判断网络的分类性能。

为了验证该模型帧内取证的性能，本实施例采用了以下的评估指标：

(1)视频帧识别准确率FACC(Frame Accuracy)，如下公式所示：

TP(True Positive)：真正例，预测为篡改帧，实际为篡改帧的样例数量；TN(TrueNegative)：真反例，预测为正常帧，实际为正常帧的样例数量；FP(False Positive)：假正例，预测为篡改帧，实际为正常帧的样例数量；FN(False Negative)：假反例，预测为正常帧，实际为篡改帧的样例数量。

(2)正常视频帧识别准确率PFACC(Pristine Frame Accuracy)，如下公式所示：

(3)篡改视频帧识别准确率FFACC(Forged Frame Accuracy)与召回率Recall，如下公式所示：

(4)视频识别准确率VACC(Video Accuracy)，如下公式所示：

(5)篡改视频识别精确率Precision，如下公式所示：

(6)综合评价指标F1-Score，如下公式所示：

实验结果：

(1)时域定位实验：

在得到双流Inception-V4的实验结果后，本实施例与其它取证算法作对比实验。对比的算法中SRM、SPAM、CC-JRM算法为传统隐写分析算法，YeNet算法则为基于深度学习的隐写分析算法，Yao算法则和本文一样是基于深度学习的帧内取证算法。本实施例使用实施例1提出的各个评估指标来评判算法的分类性能，将所有算法的实验结果进行比对，得到的结果如下表1和图8所示。

表1：各个算法的帧内取证实验结果表。

从上表和图8可以看出，本发明提出的Inception-V4 SRM在大部分指标中取得了最好的成绩，体现算法的优越性与有效性，尤其是与同为基于深度学习的帧内取证算法Yao相比，本发明的算法性能要更胜一筹。值得一提的是，本发明与原版InceptionV4算法的实验结果作比对，在各个指标也均取得了更好的效果，证明本发明提出的输入视频帧要先经过SRM层再进入InceptionV4计算的思想是正确的。

(2)迭代实验：

从实验过程中发现，即使训练过程中损失早已趋近于0，但随着训练迭代次数的不断增加，算法得到的FACC还在随之不断地变化，为此本实施例进一步地提高训练的迭代次数，以此来观察随着迭代次数的增加将对实验结果产生什么样的影响，实验结果如图9所示。

从图9可知，随着迭代次数的增加，整体上FACC也是向上增加的趋势，说明对训练集进行多次重复迭代的训练将有助于FACC的提高，但是FACC增长的趋势最终也会趋于平缓，而非随着迭代次数的增加而无限增长。

(3)重编码攻击实验

本实施例将原本编码格式为H264的视频数据集分别重编码为MPEG2、MPEG4与H265这三种新的编码格式视频，然后对新得到的视频数据集直接做取证实验，得到的实验结果如下表2所示。

表2：编码攻击的帧内取证实验结果表。

从上表中数据可知，本发明提出的算法对经过其它编码器重编码的视频数据集进行取证后也取得较好的取证结果，尽管实验结果中的准确率整体与取证原版H264数据集时的实验结果有较大的差距，但是也足以说明算法能够在一定程度上抵抗重编码攻击，从而证明了本发明提出的算法对内容相同但是编码格式不同的视频也能顺利地进行帧内取证。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于双流CNN的帧内取证深度学习方法 [P] . 中国专利： CN113033379A . 2021-06-25
2. 基于CNN-LSTM深度学习方法及多属性时序数据的故障诊断方法 [P] . 中国专利： CN109814523B . 2020.08.28
3. A method and learning device for learning a CNN-based object detector using 1x1 convolution used for hardware optimization, and a test method and test device using this {LEARNING METHOD AND LEARNING DEVICE FOR OBJECT DETECTOR BASED ON CNN USING 1 × 1 CONVOLUTION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAMEM} [P] . JP6853592B2 . 2021-03-31

机译：一种方法和学习设备，用于使用用于硬件优化的1x1卷积的基于CNN的对象检测器，以及使用该测试方法和测试设备，使用1×1卷积的CNN基于CNN的对象检测器的学习方法和学习设备用于硬件优化，以及使用Samem的测试方法和测试设备}
4. A learning method and learning device for a CNN-based monitoring object detector that can change modes according to the scale of an object, and a test method and test device using this. [P] . JP6856904B2 . 2021-04-14

机译：一种基于CNN的监视对象检测器的学习方法和学习设备，可以根据对象的比例改变模式，以及使用此测试方法和测试设备。
5. Being the manner which generates the camera in order to optimize the exposure of the image frame inside the consecutive image frame which incorporates the scene on the basis of the level of the movement [P] . 日本专利： JP5427935B2 . 2014-02-26

机译：是一种生成相机的方式，以优化基于运动水平的包含场景的连续图像帧内图像帧的曝光