首页> 中国专利> 一种不可察觉的对抗补丁生成方法及应用

一种不可察觉的对抗补丁生成方法及应用

摘要

本发明属于人工智能安全技术领域,公开了一种高强度对抗补丁样本生成方法及应用,首先通过Grad‑CAM计算图像中对CNNs分类决策影响较大的区域,并将该区域作为图像的特征贡献区域(CFRs);然后利用掩膜机制定位该区域,使得能够在确定的特征贡献区域完成加扰。本发明重新定义一个损失函数作为优化的目标函数,进而利用随机梯度下降优化算法并引入超参数寻找高效的扰动,即可获得基于CFRs的对抗样本。本发明通过只在特征贡献区域加扰以及将扰动范围限制在人眼难以察觉的微小范围内,实现了对抗强度和不可感知性之间良好的平衡,在CIFAR‑10和ILSVRC2012数据集上得到了实验验证。本发明产生的对抗样本应用于对抗训练,可有效提高深度学习防御能力。

著录项

  • 公开/公告号CN112364915A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 浙江科技学院;

    申请/专利号CN202011246415.9

  • 申请日2020-11-10

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11401 北京金智普华知识产权代理有限公司;

  • 代理人杨采良

  • 地址 310023 浙江省杭州市留和路318号

  • 入库时间 2023-06-19 09:54:18

说明书

技术领域

本发明属于人工智能安全技术领域,尤其涉及一种对抗补丁生成方法、生成系统、设备、储存介质及应用。

背景技术

目前,深度学习技术的发展,促进了深度神经网络(DNNs)在各个领域的成功应用。尤其是其中的卷积神经网络(CNNs),在图像分类领域表现出了优异的性能。但是,许多现有的研究表明,CNNs容易受到人类察觉不到的扰动的干扰,这种添加了微小扰动的样本被称为对抗样本。已有学者提出了多种生成对抗样本的技术,例如L-BFGS、FGSM、I-FGSM、PGD和C&W。这些技术生成的对抗样本可以成功的欺骗CNNs做出错误的预测,使得CNNs在某些安全敏感领域的应用(例如自动驾驶、基于人脸识别的金融支付等)受到限制,因此对对抗样本的研究具有重要意义。

最近的研究表明深层神经网络容易受到精心制作的对抗样本的影响,并且已经提出了许多先进的算法来制作对抗样本,上述所有工作要么通过某些优化技术生成了具体的对抗样本,要么尝试利用对抗现象来理解CNN易受微小扰动干扰的现象。相反,本发明尝试利用CNNs的可解释性来生成更有效的对抗样本,本发明中称之为补丁对抗样本,利用该对抗样本进行对抗训练,可有效增强深度神经网络的防御能力。

从两种被认为是最先进的解释CNNs的方法:CAM和Grad-CAM的工作中得到启发。通过Grad-CAM计算得到图像中哪一部分部分贡献最大,这类似于人类的注意力机制,该特殊区域在本发明称为“特征贡献区域”(CFRs)。到目前为止,这是从视觉上反映CNNs的最好解释。有了这个观察,本发明推测在CFRs上添加扰动生成的对抗样本用于对抗训练会比以往的方法更有效。

显然,本发明的方法是在语义级别上进行对抗扰动,而先前的工作主要集中在像素级别上。FGSM和C&W这样的典型方法只会扰乱图像中的所有像素,而不考虑其语义。尽管某些方法会扰乱局部图像区域,例如JSMA和one-pixel技术,但它们并未考虑相邻像素之间具有扰动的相互作用,即被扰动的像素可能不会形成连续区域。与本发明的工作类似的是目前一些被提出的补丁对抗样本或贴纸对抗样本,也是属于局部连续区域的对抗方法。因此,本发明对CFRs的扰动可以视为某种形式的对抗补丁。但是,本发明的方法在三个方面与现有的对抗补丁不同。首先已有的补丁或贴纸的形状是规则的,而本发明的CFRs形状是任意的。第二个问题是补丁或贴纸的位置是任意确定的,而本发明的CFRs由Grad-CAM在语义级别定位。最后,已提出的方法其补丁和贴纸的扰动幅度不受限制,而本发明的方法将扰动范围限制在人眼难以察觉的微小范围内。

尽管本发明工作似乎是在图像语义级别考虑CFRs,但它与图像语义分割不同,因为本发明的方法将更多的注意力放在影响分类的区域上,而图像分割则是尝试找到图像边缘。从网络可解释性开始,而图像分割则专注于对象本身。最近技术1Xie等人制作了对抗样本来欺骗语义分割和对象检测器,而技术2Gu等人利用YOLO检测器来定位敏感区域以增加扰动。本质上,他们的方法都没有充分利用网络解释。另外,本发明CFRs的大小远小于物体检测器获得的区域。

通过上述分析,现有技术存在的问题及缺陷为:第一,现有对抗样本生成方法主要集中在像素级别上的扰动,而不考虑其语义;第二,尽管某些方法是局部扰动,但是扰动的像素点可能是离散的,并未考虑相邻像素之间具有扰动的相互作用;第三,已被提出的对抗补丁或者对抗贴纸其补丁或贴纸的形状是规则的并且其位置是任意确定的;第四,已提出对抗补丁或者贴纸方法扰动幅度不受限制。

解决以上问题及缺陷的难度为:首先,目前的补丁扰动其对抗块在视觉上非常明显,如何生成对人类来说是不可见的,但对对抗训练有效的对抗补丁是一个具有挑战的问题。其次,如何从网络的可解释性来实现有效的对抗,CNNs一直被认为是一个黑盒,对它为什么做出这样的分类结果没有一个合理的解释,那么如果能够得知CNNs分类决策的依据,就可以实现一个更有效的生成对抗补丁样本方法。

解决以上问题及缺陷的意义为:目前提出的一类对抗补丁方法,其目的只是欺骗识别系统,很少用来对抗训练增强模型的防御能力;同样也没有考虑补丁的不可察觉性,在优化目标中仅考虑对抗补丁的放置位置及可能经过的变换,这就导致生成的对抗样本很容易被察觉。本发明通过对对抗补丁添加约束,利用Grad-CAM和掩膜机制确定的补丁位置和大小,在保证不可察觉性的同时确保了对抗的性能,实现了对抗强度和不可感知性之间良好的平衡。

发明内容

针对现有技术存在的问题,本发明提供了一种不可察觉的对抗补丁生成方法、生成系统、设备、储存介质及应用。

本发明是这样实现的,一种基于网络可解释性的生成不可察觉的对抗补丁的方法,所述基于网络可解释性的生成不可察觉的对抗补丁包括:

通过Grad-CAM和掩膜方法计算、定位图像中对CNNs分类决策影响较大的区域,并将定该区域作为图像的特征贡献区域(CFRs);定义一个损失函数作为优化的目标函数,利用随机梯度下降算法进行迭代优化,并引入超参数(即反温度T)寻找高效的扰动,即可得基于特征贡献区域的对抗补丁。

进一步,所述基于网络可解释性的生成不可察觉的对抗补丁的方法包括以下步骤:

步骤一,进行干净图像获取,利用Grad-CAM计算的图像的特征贡献区域(CFRs);

步骤二,通过掩膜定位图像的特征贡献区域;

步骤三,定义一个损失函数作为优化的目标函数;

步骤四,在局部区域利用随机梯度下降算法迭代优化补丁,并引入超参数(即反温度T)寻找高效的扰动;

步骤五,将计算得到的对抗补丁与步骤S101对应的干净图像相加即可得到补丁对抗样本。

进一步,步骤一中,所述利用Grad-CAM计算的图像的特征贡献区域(CFRs)包括:

(1)将获取的原始图像X通过CNN,在最后一层卷积层输出图像X的高层特征表示为A,其中用A

(2)采用全局平均池化操作,计算第k个卷积核的权重

其中,Z=u×v,

(3)结合权重

(4)以热力图的形式可视化

进一步,步骤二中,所述掩膜包括:

所述掩膜为一个与输入图像同样大小的0-1矩阵mask

其中,1表示保留像素的区域即CFRs的像素位置;0表示不保留像素的区域;t为阈值,

进一步,步骤三中,所述定义一个损失函数作为优化的目标函数包括:

所述目标函数如下:

J=-logS

其中,

进一步,步骤四中,所述对局部扰动进行迭代更新并引入超参数(即反温度T)寻找高效的扰动包括:

其中,T表示反温度,

进一步,步骤五中,所述将计算得到的对抗补丁与步骤S101对应的干净图像相加即可得到补丁对抗样本包括:

X′=X+δ

本发明的另一目的在于提供一种基于网络可解释性生成不可察觉的对抗补丁系统,所述基于网络可解释性生成不可察觉的对抗补丁系统包括:

(1)特征贡献区域获取模块,用于利用Grad-CAM计算的图像的特征贡献区域;

(2)局部区域定位模块,用于通过掩膜定位图像的特征贡献区域;

(3)重新定义损失函数模块,用于在一定约束下以另一种形式进行估算补丁;

(4)在局部区域利用随机梯度下降算法迭代优化以及引入反温度模块,用于求解一定约束下高效的对抗补丁;

(5)将对抗补丁与干净图像相加模块,用于可得到相应的补丁对抗样本。

本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:

过Grad-CAM计算图像中对CNNs分类决策影响较大的区域,并将所述区域作为图像的特征贡献区域;

利用掩膜机制定位所述区域,在确定的特征贡献区域完成加扰。

本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:

过Grad-CAM计算图像中对CNNs分类决策影响较大的区域,并将所述区域作为图像的特征贡献区域;

利用掩膜机制定位所述区域,在确定的特征贡献区域完成加扰。

本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的方法。

结合上述的所有技术方案,本发明所具备的优点及积极效果为:

(1)本发明通过网络的可解释性,只在特征贡献区域生成对抗补丁;

(2)本发明方法将扰动限制在微小的范围内,因此生成的补丁是人眼不可察觉的;

(3)本发明生成的补丁形状是任意的,并且是由Grad-CAM在图像语义级别上的定位;

最后,本发明结合了Grad-CAM和优化技术,实现在对抗强度和不可感知性之间取得良好的平衡,其扰动的幅度大大降低并且对抗补丁的大小显著减小。

本发明利用Grad-CAM和掩膜机制来计算、定位图像中对CNNs分类决策影响较大的区域,将生成对抗样本的损失函数和扰动的l

本发明的方法生成的对抗样本具有更高对抗性和可转移性,并且本发明在CIFAR-10和ILSVRC2012数据集上通过实验验证了这一点。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于网络可解释性生成不可察觉的对抗补丁方法流程图。

图2是本发明实施例提供的利用Grad-CAM生成的热力图以及top-3分类示意图。

图3是本发明实施例提供的CIFAR-10上部分图片的CFRs和非CFRs。

图4是本发明实施例提供的不同网络结构的准确率。

图5是本发明实施例提供的在CIFAR-10数据集上PGD、C&W和CFR方法生成的扰动和对抗样本的比较(三种方法的扰动的l

图6是本发明实施例提供的在ILSVRC2012数据集上PGD、C&W和CFR方法生成的扰动和对抗样本的比较(三种方法的扰动的l

图7是本发明实施例提供的在CIFAR-10数据集上使用ResNet-18网络(t=0.2,LR=10,β=1)迭代次数N和超参数T对对抗成功率的影响。

图8是本发明实施例提供的在ILSVRC2012数据集上使用VGG-16网络(t=0.2,LR=20,β=1)迭代次数N和超参数T对对抗成功率的影响。

图9是本发明实施例提供的在CIFAR-10数据集上使用ResNet-18网络(N=30,T=0.1,LR=10,β=1)阈值t对对抗成功率和扰动的l

图10是本发明实施例提供的在ILSVRC2012数据集上使用VGG-16网络(N=30,T=0.1,LR=20,β=1)阈值t对对抗成功率和扰动的l

图11是本发明实施例提供的CIFAR-10数据集上替代模型和目标模型VGG-11在不同方法下的准确率。

图12是本发明实施例提供的CIFAR-10数据集上替代模型和目标模型VGG-13在不同方法下的准确率。

图13是本发明实施例提供的CIFAR-10数据集上替代模型和目标模型VGG-16在不同方法下的准确率。

图14是本发明实施例提供的CIFAR-10数据集上替代模型和目标模型RseNer-18在不同方法下的准确率。

图15是本发明实施例提供的CIFAR-10数据集上替代模型和目标模型RseNer-34在不同方法下的准确率。

图16是本发明实施例提供的ILSVRC2012数据集上替代模型和目标模型VGG-16在不同方法下的准确率。

图17是本发明实施例提供的ILSVRC2012数据集上替代模型和目标模型VGG-19在不同方法下的准确率。

图18是本发明实施例提供的ILSVRC2012数据集上替代模型和目标模型RseNer-34在不同方法下的准确率。

图19是本发明实施例提供的ILSVRC2012数据集上替代模型和目标模型RseNer-50在不同方法下的准确率。

图20是本发明实施例提供的ILSVRC2012数据集上替代模型和目标模型RseNer-101在不同方法下的准确率。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

针对现有技术存在的问题,本发明提供了一种不可察觉的对抗补丁生成方法、生成系统、设备、储存介质及应用,下面结合附图对本发明作详细的描述。

本发明实施例提供的基于网络可解释性生成不可察觉的对抗补丁方法包括:

通过Grad-CAM和掩膜方法计算、定位图像中对CNNs分类决策影响较大的区域,并将定该区域作为图像的特征贡献区域(CFRs);定义一个损失函数作为优化的目标函数,利用随机梯度下降算法进行迭代优化,并引入超参数(即反温度)寻找高效的扰动,即可得基于特征贡献区域的对抗补丁。

如图1所示,本发明实施例提供的基于网络可解释性生成不可察觉的对抗补丁方法包括以下步骤:

S101,利用Grad-CAM计算的图像的特征贡献区域(CFRs);

S102,通过掩膜定位图像的特征贡献区域;

S103,定义一个损失函数作为优化的目标函数;

S104,在局部区域利用随机梯度下降算法迭代优化补丁,并引入超参数(即反温度T)寻找高效的扰动;

S105,将计算得到的对抗补丁与步骤S101对应的干净图像相加即可得到对抗样本。

步骤S101中,本发明实施例提供的利用Grad-CAM搜索计算干净图像的特征贡献区域(CFRs)包括:

(1)将获取的原始图像X通过CNN,在最后一层卷积层输出图像X的高层特征表示为A,其中用A

(2)采用全局平均池化操作,计算第k个卷积核的权重

其中,Z=u×v,

(3)结合权重

(4)以热力图的形式可视化

步骤S102中,本发明实施例提供的掩膜包括:

所述掩膜为一个与输入图像同样大小的0-1矩阵mask

其中,1表示保留像素的区域即CFRs的像素位置;0表示不保留像素的区域;t为阈值,

步骤S103中,本发明实施例提供的一个损失函数作为优化的目标函数包括:

J=-logS

其中,

步骤S104中,本发明实施例提供的对补丁进行迭代更新以及引入反温度包括:

其中,T表示反温度;

步骤S105中,本发明实施例提供的将计算得到的对抗补丁与步骤S101对应的干净图像相加即可得到补丁对抗样本包括:

X′=X+δ

下面结合具体实施例对本发明的技术效果作进一步描述。

实施例1:

1.本发明试图提出一种新的对抗补丁方法,尝试利用CNNs的可解释性在语义级别上创建补丁对抗样本,目的是为了进行对抗训练,增强深度神经网络的防御能力。该方法结合了Grad-CAM和优化技术,可以在对抗强度和不可感知性之间取得良好的平衡。本发明从两个方面改进了对抗补丁方法:首先,扰动的幅度大大降低,这几乎是人类无法察觉的;第二,对抗补丁的大小显著减小。

2.本发明通过对抗样本证实了Grad-CAM的合理解释。本发明工作表明,在由Grad-CAM定位的CFRs中的对抗扰动可以有效地欺骗CNNs。这从一个新的角度揭示了CNNs具有人类神经网络特征的一个重要事实,即CNNs在某种程度上具有类似于人类的注意力机制,这为进一步探索人工智能提供了重要的线索。

3.受“注意力机制”的启发,本发明认为CNNs的性能受到某些特定特征区域的影响很大。因此,如果本发明找到特征区域作为添加补丁的位置,则会比以往的方法更有效。本发明的想法是将图像分为两个语义部分:CFRs和Non-CFRs,CFRs确定了补丁的位置和大小。

3.1基本的符号定义

深度神经网络:深度神经网络可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布。从函数逼近角度可以把深度神经网络表示为高维逼近函数:f(X,θ):R

其中Y是1×C的向量,里面有C个值,只有1个值是1(对应真实标签),其他C-1个值都是0。对于N个输入-标签对(X

对抗样本:对于深度神经网络分类器f(X,θ),输入样本为X,其真实标签为Y,δ为对抗扰动。那么对抗样本可以表示为X′=X+δ。通常情况下,扰动δ通过l

3.2特征贡献区域(Contributing Feature Regions)

特征贡献区域(CFRs)指的是图像中用于模型预测的重要区域。典型的搜索特征贡献区域的方法包括Grad-CAM、CAM和c-MWP。本发明选择Grad-CAM作为搜索特征贡献区域,是因为相比于CAM和c-MWP,Grad-CAM不仅不受特定CNNs架构的约束,并且只需要更小的计算量即可生成更优的定量定性结果。

假设输入图像X,通过CNNs后,在最后一层卷积层输出该图像的高层特征表示A,其中用A

其中,Z=u×v,

本发明可以热图的形式可视化

由于CFRs通常是不规则的,因此本发明引入了一种掩膜机制来定位。形式上,掩膜是具有与输入图像相同大小的矩阵。mask

其中,t是阈值,

3.3在特征贡献区域生成对抗补丁

首先,对抗扰动的初始表述定义如下:

s.t.f(X+δ)≠y

X+δ∈[0,1]

本发明不同之处在于,仅扰动CFRs,因此通过如下公式解决此问题:

s.t.f(X+δ

X+δ

但是,由于约束f(X+δ)≠y是高度非线性的,因此现有算法难以精确计算||δ

其中,β是一个超参数,控制失真的程度。对于输入图像X,本发明优化目标是在模型错误分类情况下,在约束

max F

s.t.X+δ

由于最大化F和最小化1/F是等价的,于是本发明可以得到下面最优化问题:

s.t.X+δ

本发明使用随机梯度下降(SGD)算法来求解δ

其中LR是一个超参数,相当于学习率。

本发明首先生成一个随机扰动δ

那么,本发明目标函数修改为:

本发明提出生成对抗样本的算法如算法1所示:

4.下面结合实验验证对本发明作进一步描述。

(1)CFRs是最终分类决定的重要依据;(2)CFRs对抗将产生不可察觉的干扰;(3)在本节中,本发明展示了白盒对抗和黑盒对抗的实验,结果表明本发明具有强大的白盒对抗能力和较高的可传递性;(4)本发明在白盒设置下生成了补丁对抗样本,进一步表明目前最先进的防御方法对本发明的对抗样本防御性能较低。

4.1实验设置

数据集:本发明在CIFAR-10和ILSVRC2012这两个数据集上进行实验验证。CIFAR-10数据集由60,000个32×32×3图像组成,包含10个类,每类6,000张图。这里面有50,000张用于训练,构成了5个训练批,每一批10,000张图;另外10,000用于测试。ILSVRC2012图像分类数据集包含了来自1,000个类别的120万张图片,50,000张图像作为验证集。对已经被错误分类的图像添加扰动没有什么意义,因此本发明用于生成补丁对抗样本的图像都是被所有网络正确分类的图像。

模型:对于CIFAR-10,本发明使用VGG-11和ResNet-18,它们的测试准确率分别达到91.66%和92.19%。对于ILSVRC2012本发明训练了VGG-19和ResNet-34,测试准确率分别为71.02%和72.17%。

评价指标:本发明设置的评价指标为对抗成功率ASR,峰值信噪比PSNR以及l

对抗成功率ASR:给定n个正确分类的输入X

峰值信噪比Peak Signal-to-Noise Ratio(PSNR):给定一个大小为H×W的干净图像X和其对应的对抗样本X′,可以得到其均方误差(MSE)为下式:

那么PSNR可以定义为:

4.2CFRs的影响

本发明首先通过两组特殊对抗图像评估CFRs对分类器的影响。一组中的图像保持CFR的像素不变,而其余像素设置为0,表示为Adv-CFR。相反,另一组将CFR的像素设置为0,图像的其余像素保持不变,这被表示为Adv-Non-CFR。这些对抗图像是从CIFAR-10的10,000张干净图像中精心制作的。图3显示了Adv-CFR和Adv-Non-CFR的样本。

结果如图4所示,输入Adv-CFR的准确率高达85%以上。但是,输入Adv-Non-CFR的准确率非常低。实验结果表明,CFR对模型决策具有最大的语义部分,并且是对模型分类有积极贡献的领域。

4.3对抗的效果分析

本发明在白盒设置下使用两个数据集上生成对抗样本。表1中的结果显示了干净测试数据的分类准确性以及由本发明的补丁对抗方法在不同模型而生成对抗样本的ASR。图5、图6展示了几种全局对抗和本发明所产生的扰动和对抗样本。可以看出,本发明生成的对抗补丁添加到干净图像上得到的对抗样本与相应的图像非常接近,本发明提出的对抗补丁与之前的方法对比其补丁在视觉上几乎是不可察觉的。当使得l

表1第二列:不同模型上干净样本的准确率(Accuracy);第三列:对抗样本的对抗成功率(ASR)

4.4与其他方法对比

表2不同方法的ASR、PSNR和l

表2展示了不同方法的ASR、PSNR和l

4.5超参数分析

迭代次数N和反温度T:N和T是本发明中的主要超参数,在这里探讨它们对ASR的影响。本发明观察到N对ASR上有正向的影响(图7和图8)。随着N增大,ASR也趋于增加。当N=30时,两个数据集上的ASR均可达到100%。当N=1到N=5时,ASR增长最快,之后趋于缓慢增长,直到100%。随着迭代次数的增加,本发明的目标函数可以更好地找到全局最优解,从而避免陷入局部最优解。对于两个不同的数据集,T>1或T过小都会对结果产生负影响(图7和图8)。首先,本发明设置T是为了防止

阈值t:阈值t的大小直接确定了掩膜mask

4.6黑盒对抗

在这一小节中,本发明展示黑盒对抗的实验效果。在黑盒对抗中,首先指定黑盒模型的替代模型,然后生成一组能够成功欺骗替代模型的对抗样本。通常这组对抗样本被认为具有很强的可转移性,即在误导替代模型情况下,也会误导目标模型。潜在的假设是具有高度可转移的对抗样本可以在许多不同的目标模型上实现类似的对抗性能。因此本发明可以预期,具有可转移性的对抗样本会降低替代模型的准确性,同时也会降低目标模型的准确性,从而导致高的黑盒对抗能力。为了证明本发明的黑盒对抗能力,本发明在两个数据集上对不同的目标模型进行黑盒对抗实验。

CIFAR-10:本发明首先只在一个经过正常训练的模型上制作对抗样本,并在所有五个模型上进行测试。模型的准确率如图11-图15所示,如图11,Natural表示五个模型在干净的测试样本上面的准确率。本发明利用PGD、M-DI

ILSVRC2012:本发明在ILSVRC2012数据集上面做了同样地实验,选取一个模型作为替代模型,并在所有五个模型上进行测试。如图16,本发明利用PGD、M-DI

4.7进一步评估补丁对抗样本的有效性

为了评估防御情况下补丁对抗样本的对抗强度,本发明采用白盒设置生成对抗样本。本发明主要关注对抗训练,因为对抗训练是被公认的最有效的防御方法之一。在这里本发明使用了两种防御策略:Fast对抗训练和PGD对抗训练。表3展示了CIFAR-10和ILSVRC2012数据集的结果。本发明观察到,这两种防御策略针对三种对抗方法都不能产生较高的防御性能(对抗成功率ASR都高于50.00%)。其中这两种防御方法在CFRs对抗方法上具有最低的防御性能,例如在CIFAR-10数据集上,经过PGD对抗训练的ResNet-18模型,利用PGD和C&W生成的对抗样本成功率分别是57.57%和65.71%,而本发明的方法对抗成功率达到77.39%。本发明提出的这种方法基于网络可解释性生成对抗补丁,对抗性能也更强,这也为以后开发出更好的防御系统开辟了一个新的方向,更加的关注网络的可解释性。

表3模型ResNet-18和VGG-16经过Fast和PGD对抗训练,利用PGD、C&W和CFRs对抗补丁生成的样本的对抗成功率

本发明证明了基于网络可解释性的对抗补丁是最为有效的。正如本发明的理论和实验所表明的,本发明设计出了一个人眼不可察觉的对抗补丁方法。本发明使用CIFAR-10和ILSVRC2012数据集进行了广泛的实验,结果表明本发明的补丁对抗样本比现有的全局对抗(例如PGD和C&W)以及局部对抗(例如JSMA和One-Pixel)要强的多,并且基于网络可解释性的补丁对抗样本也为以后实现更好的防御方法提供了一个新的视角。

总之,本发明首先通过Grad-CAM计算图像中对CNNs分类决策影响较大的区域,并将该区域作为图像的特征贡献区域(Contributing Feature Regions,以下简称CFRs);然后利用掩膜机制定位该区域,使得能够在确定的特征贡献区域完成加扰。该发明使得对抗补丁的形状是任意的,并且其位置是由Grad-CAM在图像语义层面上的定位。为了尽可能创建一个肉眼不可察觉的补丁,本发明重新定义一个损失函数作为优化的目标函数,进而利用随机梯度下降优化算法并引入超参数寻找高效的扰动,即可获得基于CFR的补丁对抗样本。本发明通过只在特征贡献区域加扰以及将扰动范围限制在人眼难以察觉的微小范围内,实现了对抗强度和不可感知性之间良好的平衡。本发明的方法生成的对抗样本具有更高的可转移性,并且本发明在CIFAR-10和ILSVRC2012数据集上通过实验验证了这一点。本发明的补丁对抗样本为实现更好的防御方法提供了新的思路。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号