首页> 中国专利> 基于图像内含社交网络平台指纹的起源社交网络识别方法

基于图像内含社交网络平台指纹的起源社交网络识别方法

摘要

本发明公开了一种以图像内含的社交网络平台指纹进行起源社交网络识别方法,涉及图像处理领域。本发明用简单的替代方案取代了VGG‑16主干模型的3个完全连接层,从而创建了一个新框架,该框架能够自动学习独特的社交网络平台指纹以利取证分析。为了进一步优化新框架的性能,本发明还用L‑ReLU替换了ReLu,以便具有负值的神经元仍然有机会从死亡状态中恢复,从而有助于区别输入图像并改善框架的性能。另外,本发明藉由加入一个“未知类”来容纳不属于任一已知社交网络的所有图像,因此本辨识框架可以有效地进一步降低误报率。

著录项

  • 公开/公告号CN112418252A

    专利类型发明专利

  • 公开/公告日2021-02-26

    原文格式PDF

  • 申请/专利号CN202011496031.2

  • 发明设计人 李长存;

    申请日2020-12-17

  • 分类号G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人傅朝栋;张法高

  • 地址 312399 浙江省绍兴市上虞区曹娥街道江西路2288号浙大网新科技园A2楼809室

  • 入库时间 2023-06-19 10:00:31

说明书

技术领域

本发明涉及图像处理领域,具体涉及一种基于图像内含社交网络平台指纹的起源社交网络识别方法。

背景技术

众所周知,当图像上传到社交网络平台(诸如WhatsApp,Twitter,Instagram,Facebook等)时,社交网络平台会使用自己特有的过滤器来预处理图像,以满足某些要求。过滤操作会在处理后的内容中留下伪影。由于每个平台使用不同的过滤器,因此,由于过滤器的操作而导致的伪影在某种程度上可能是独特的,因此可以将其提取出来并视之为社交网络的“指纹”以供识别社交网络平台之用。识别来源社交网络具有重要意义,因为社交网络是人们共享和分发数字图像的主要平台,而这些图像可能与恶意甚至犯罪活动有关。例如,内容本身可能是非法的,或者内容可能是在犯罪现场进行非法活动时所取的。通过识别来源社交网络,调查人员通常将能够确定相关图像的分发历史并缩小调查范围。

但是,以传统方法由人类定义的指纹无法赶上不断发展的过滤操作和社交网络。预先定义的指纹在定义后不久可能会过时,并且在不重新构造指纹的情况下进行重新训练无法解决该问题。而且,手工制作的平台指纹的有效性受到设计者对过滤器在图像中留下的伪像特性和指纹理解程度的限制。设计者忽略具高辨识力特征或伪像的风险很高。因此,亟待于提供一种新的起源社交网络识别方法,以克服上述方法的固有局限性。

发明内容

以数据驱动为基础的深度学习是一种更具前瞻性且与人类感知无关的自动指纹提取方法。卷积神经网络(CNN)是一种有效的深度学习机制,其学习能力在许多物件分类与模式识别任务中得到证明。只要训练集足够大,CNN就能从训练数据中自动学习具高辨识力的特征。该优点克服了上述手工方法的固有局限性。

基于此,本发明的目的是解决现有技术中存在的问题,并提供一种基于图像内含社交网络平台指纹的起源社交网络识别方法。

本发明具体采用的技术方案如下:

一种基于图像内含社交网络平台指纹的起源社交网络识别方法,其特征在于,步骤如下:

S1:获取训练数据集,所述训练数据集中包括来源于不同社交网络平台的图像样本以及从未上传到任何社交网络的图像样本,每个图像样本均带有社交网络平台来源标签;

S2:利用所述训练数据集对起源社交网络识别模型进行有监督训练,获得模型的最优参数;

所述起源社交网络识别模型依次由输入层、卷积层、卷积层、最大池化层、卷积层、卷积层、最大池化层、卷积层、卷积层、卷积层、最大池化层、卷积层、卷积层、卷积层、最大池化层、卷积层、卷积层、卷积层、最大池化层、全连接层和Softmax层组成,其中每层所述卷积层和每层所述全连接层中均以L-ReLU作为激活函数,在Softmax层中输出该图像样本起源于不同社交网络平台以及从未上传到任何社交网络的概率;

S3:将待识别的图像样本输入具有所述最优参数的起源社交网络识别模型中,由Softmax层输出该图像样本来源分类的概率分布,并将该图像样本判定为起源于概率值最大的来源分类。

作为优选,所述训练数据集中的每个图像样本以及所述待识别的图像样本均统一缩放至224×224像素。

作为优选,所述训练数据集中每一类标签的图像样本数量均超过3000个。

作为优选,每层所述卷积层中过滤器大小为3×3。

作为优选,每层所述最大池化层中过滤器大小为2×2,步幅为2。

作为优选,在利用所述训练数据集对起源社交网络识别模型进行有监督训练时,通过小批量随机梯度下降和Adam优化器更新网络权重和偏差,以获得模型的最优参数。

作为优选,所述激活函数L-ReLU的公式为:

其中:α为梯度常数。

作为优选,所述梯度常数α=0.01。

第二方面,本发明提供了一种基于图像内含社交网络平台指纹的起源社交网络识别装置,其包括存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器,用于当执行所述计算机程序时,实现如第一方面任一项方案所述的基于图像内含社交网络平台指纹的起源社交网络识别方法。

第三方面,本发明提供了一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如第一方面任一项方案所述的基于图像内含社交网络平台指纹的起源社交网络识别方法。

相对于现有技术而言,本发明的有益效果如下:

本发明用简单的替代方案取代了VGG-16主干模型的3个完全连接层,从而创建了一个新框架,该框架能够自动学习独特的社交网络平台指纹以利取证分析。为了进一步优化新框架的性能,本发明还用L-ReLU替换了ReLu,以便具有负值的神经元仍然有机会从死亡状态中恢复,从而有助于区别输入图像并改善框架的性能。另外,本发明藉由加入一个“未知类”来容纳不属于任一已知社交网络的所有图像,因此本辨识框架可以有效地进一步降低误报率。

附图说明

图1为起源社交网络识别模型架构示意图。

图2为基于图像内含社交网络平台指纹的起源社交网络识别方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

本发明使用深度学习方法来截取在图像上传过程中应用到的社交网络平台图像过滤器在图像中留下的独特伪像,并视这些伪像的特征为社交网络的“指纹”作为多媒体取证之用。在实际应用上,在使用从各种社交网络平台下载的大量图像对深度学习架构进行了训练之后,当向其提供新图像时,它将能够自动从图像中提取社交网络指纹并与先前学得的指纹进行比对。如果找到良好匹配,则将相应的社交网络视为该新图像的来源社交网络。

本发明选择基于CNN的VGG-16模型作为社交网络识别框架的主干,因为首先,CNN在计算机视觉和图像处理领域中被公认为深具效力。其次,VGG-16模型在整个网络中一致地使用3×3滤波器,这使网络保持简单而高效。第三,已知其前13个卷积层能够利用输入图像的精细特征来表征整个图像。这是一个有用的属性,它使得本发明中的框架能自动学习图像中社交网络过滤器植入的特有特征,以供社交网络辨识之用。但是,由于整个VGG-16模型并非旨在满足本发明的社交网络识别目的,因此原始VGG-16模型的最后3个完全连接层必须以新配置替换。

参见图1所示,为本发明基于原始VGG-16模型进行改进后的起源社交网络识别模型框架,该框架以224×224像素的彩色图像块(3个彩色通道)为输入,并由N个可能的社交网络中判定该输入图像的归属网络。该框架的主干依然沿用VGG-16模型,但部分模型层进行了调整。该框架依次由输入层、卷积层、卷积层、最大池化层、卷积层、卷积层、最大池化层、卷积层、卷积层、卷积层、最大池化层、卷积层、卷积层、卷积层、最大池化层、卷积层、卷积层、卷积层、最大池化层、全连接层和Softmax层组成。

其中输入层的大小为224×224像素。每层卷积层中用L-ReLU替换了原始的激活函数ReLu,因此每层卷积层包含大小为3×3的过滤器以及激活函数L-ReLU。另外,每层最大池化层中同样用L-ReLU替换了原始的激活函数ReLu,因此每层卷积层包含大小为2×2步幅为2的过滤器以及激活函数L-ReLU。在Softmax层中,其输出类别为N,其中包括N-1个社交网络平台类别和1个从未上传到任何社交网络的类别,因此最终该层可输出该图像样本起源于不同社交网络平台以及从未上传到任何社交网络的概率。

该识别模型框架的性能取决于配置的参数。其中,最小批量尺度(mini-batchsize)是对深度学习效果具有重大影响的关键参数。较小的批量尺度允许辨识模型在遍查整个数据集之前便能开始学习。但是,每个小批量只能提供整个数据集的不精确样本,因此可能会过度套适(overfitting)框架。本发明对完全连接层的数量和最小批量尺度的不同组合进行了效果评估,并观察到以单独一个具有N个神经元的完全连接层(每个神经元代表一个可能的社交网络平台类别)搭配最小批量尺度为20组合可以产出最佳性能。

另外,尽管原始VGG-16模型系以整流线性单位(ReLU)作为CNN的激活函数,但所谓的“垂死的ReLU”问题值得关注(亦即当某一神经元的激活函数值为负数时,该神经元便从此“死亡”,无法对后续学习进程作出贡献)。本发明从实验中观察到,泄漏式线性整流线性单位(L-ReLU)的性能稍好。L-ReLU被公式化为:

其中α是一个较小的梯度常数,经过优化α设置为0.01。

需特别注意的是,这N个类别包括参与训练的N-1个社交网络平台类别和1个“未知”类别(亦即与N-1个已知类别不同的任何来源)。拥有此一额外类别的好处是,它可以防止分类器将一个图像非来自任何已知社交网络的图像归属到某一已中网络。这有助于降低误报率(false positive rate)。

基于图1所示的起源社交网络识别模型框架进行起源社交网络识别方法步骤如下:

S1:获取训练数据集,该训练数据集中包括来源于N-1个不同社交网络平台的图像样本以及从未上传到任何社交网络的图像样本,每个图像样本均带有社交网络平台来源标签,所有图像样本预先统一缩放至224×224像素。

S2:利用上述训练数据集对起源社交网络识别模型进行有监督训练,获得模型的最优参数。具体的训练方式和参数更新方式可以根据实际情况选择。本发明中经过大量实验证明,在训练过程中,通过将初始学习率设置为0.0001,将正则化参数设置为0.0001,并使用最小批量随机梯度下降(mini-batch stochastic gradient descent)和Adam优化器,可以学习CNN的最佳权重和偏差集。将训练回数定为15可防止网络过度拟合。训练完毕后,将最优参数和起源社交网络识别模型一并导入,即可进行后续的识别预测。

S3:将待识别的图像样本输入具有最优参数的起源社交网络识别模型中,由Softmax层输出该图像样本来源分类的概率分布,并将该图像样本判定为起源于该概率分布中概率值最大的来源分类,注意该分类可能是某一社交网络平台也可能是从未上传到任何社交网络的分类。

由此可见,本发明构建的上述起源社交网络识别模型框架,能够很好地对图像样本中来源于社交网络平台的独特“指纹”进行提取,并根据该指纹识别计算输入图像归属于不同来源类别的机率,由此基于图像内含社交网络平台指纹实现准确的起源社交网络识别。为了进一步说明该方法的技术效果,下面将上述S1~S3的具体过程应用与具体数据集中,其具体步骤如前所述,下面主要展示其技术效果。

实施例

本实施例中,基于图像内含社交网络平台指纹实现准确的起源社交网络识别方法步骤依次如下:

步骤1.创建一个从N-1个社交网络平台下载的彩色图像和从未上传到任何社交网络的图像的数据集(确保每个社交网络类别的大小都大于3000)。

步骤2.将数据集中的所有彩色图像缩小为224×224像素。

步骤3.通过完成以下步骤训练图1中的框架:

3.1选择公式(1)中的L-ReLU作为卷积层和全连接层的激活函数并将α设置为0.01;

3.2选择小批量随机梯度下降和Adam优化器以更新权重和偏差;

3.3将网络训练回数设置为15;

3.4将学习率设置为0.0001;

3.5将正则化参数设置为0.0001;

3.6将每个图像及其所属的类别标签从数据集中输入到框架,以有监督的方式进行训练,获得最优参数;

步骤4.在完成步骤3中的训练过程后,将最优参数导入模型框架中,当新的待识别图像被呈现给框架以进行来源社交网络识别时,将图像缩小到224×224像素并将其馈送到框架内;

步骤5.以softmax层根据来自全连接层的社交网络指纹计算输入图像归属于每一网络的机率,并将该图像判定为来自机率最高的网络

本实施例使用可公开获得VISION数据集进行实验。本实施例从数据集中选择了2000张从未上传到任何社交媒体平台的图像。本实施例称这组图像为原始类,并将相应的4000已上载至Facebook再下载的版本称为Facebook类。而相应的4000已上载至WhatApp再下载的版本称为FWhatsApp类。因此,总共本实施例有3类、每类各4000张图像用于实验。本实施例使用80:10:10的比例将每类划分为训练,验证和测试子集。

为了找到完全连接层的层数和最小批量大小的最佳组合,本实施例将完全连接层数由1至3间作改变,并分别搭配最小批量大小为15与20进行模式训练并对测试子集进行分类试验。不同组合的分类精确度分别列示于表1。由表1可以观察到,当仅使用一个具有3个神经元的FC层并且将小批量大小设置为20时,该模型达到了99.67的最佳测试精度。本实施例亦将该实验的结果以混淆矩阵的形式列示于表2。

表1:分类精度(%)

表2:混淆矩阵(FC=1,最小批量大小=20)

以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号