首页> 中国专利> 识别对抗样本以保护模型安全的方法及装置

识别对抗样本以保护模型安全的方法及装置

摘要

本说明书实施例提供一种识别对抗样本以保护隐私安全的方法,该方法包括:首先,对涉及隐私数据的多个非对抗样本进行采样,得到第一对照样本集;接着,向第一对照样本集中加入待检测的目标样本,得到第一实验样本集;然后,分别利用第一对照样本集和第一实验样本集对初始机器学习模型进行训练,得到训练后的第一对照模型和第一实验模型;再接着,利用测试样本集分别对第一对照模型和第一实验模型进行性能评估,得到针对预设评估指标的第一对照值和第一实验值;再然后,计算第一对照值和第一实验值的差值,作为目标样本针对模型性能的第一增益值。由此,可以基于第一增益值或重复上述流程而得到的多个增益值,判别目标样本是否为对抗样本。

著录项

  • 公开/公告号CN110852450A

    专利类型发明专利

  • 公开/公告日2020-02-28

    原文格式PDF

  • 申请/专利权人 支付宝(杭州)信息技术有限公司;

    申请/专利号CN202010040234.4

  • 发明设计人 石磊磊;熊涛;

    申请日2020-01-15

  • 分类号G06N20/00(20190101);G06F21/62(20130101);

  • 代理机构11309 北京亿腾知识产权代理事务所(普通合伙);

  • 代理人陈霁;周良玉

  • 地址 310000 浙江省杭州市西湖区西溪路556号8层B段801-11

  • 入库时间 2023-12-17 07:00:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-03-28

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06N20/00 专利号:ZL2020100402344 变更事项:专利权人 变更前:上海风报信息科技有限公司 变更后:蚂蚁智安安全技术(上海)有限公司 变更事项:地址 变更前:200120 上海市浦东新区自由贸易试验区张杨路707号二层西区 变更后:200120 中国(上海)自由贸易试验区南泉北路447号16层1607室

    专利权人的姓名或者名称、地址的变更

  • 2020-07-17

    专利权的转移 IPC(主分类):G06N20/00 登记生效日:20200630 变更前: 变更后: 申请日:20200115

    专利申请权、专利权的转移

  • 2020-04-14

    授权

    授权

  • 2020-03-24

    实质审查的生效 IPC(主分类):G06N20/00 申请日:20200115

    实质审查的生效

  • 2020-02-28

    公开

    公开

说明书

技术领域

本说明书一个或多个实施例涉及数据计算安全的技术领域,尤其涉及一种识别对抗样本以保护模型安全的方法及装置。

背景技术

对抗样本是指在数据集中故意添加细微的干扰所形成的,导致机器学习模型以高置信度输出错误结果的输入样本。例如,在图像识别场景下,原来被图像处理模型识别为熊猫的图片,在加入一点细微的甚至人眼无法察觉的改动后,被误分类为长臂猿。

对抗样本可以被攻击者用于对机器学习模型进行攻击。比如,在模型训练过程中,因对抗样本中包括错误的标签,导致模型训练性能下降,并且,导致训练完成所得到模型的预测结果准确率偏低。

因此,迫切需要一种合理、可靠的方案,可以准确地识别出对抗样本,以保护模型安全,从而提高模型的训练性能和预测性能。

发明内容

本说明书一个或多个实施例描述了一种识别对抗样本以保护模型安全的方法及装置,可以用于提高模型的训练性能和预测性能。

根据第一方面,提供一种识别对抗样本以保护模型安全的方法,该方法包括:对多个非对抗样本进行若干次采样,得到若干对照样本集;向所述若干对照样本集中分别加入待检测的目标样本,得到若干实验样本集;针对所述若干对照样本集中任意的第一对照样本集,利用所述第一对照样本集训练初始机器学习模型,得到训练后的第一对照模型;利用测试样本集对所述第一对照模型进行性能评估,得到针对预设评估指标的第一对照值,所述测试样本集基于所述多个非对抗样本而确定;针对向所述第一对照样本集中加入所述目标样本而得到的第一实验样本集,利用所述第一实验样本集训练所述初始机器学习模型,得到训练后的第一实验模型;利用所述测试样本集对所述第一实验模型进行性能评估,得到针对所述预设评估指标的第一实验值;将所述第一实验值与所述第一对照值的差值,确定为第一增益值;利用基于所述若干对照样本集和所述若干实验样本集确定出的若干增益值,判定所述目标样本是否属于对抗样本。

在一个实施例中,所述多个非对抗样本和目标样本为图像样本,所述初始机器学习模型为图像处理模型;或,所述多个非对抗样本和目标样本为文本样本,所述初始机器学习模型为文本处理模型;或,所述多个非对抗样本和目标样本为语音样本,所述初始机器学习模型为语音处理模型。

在一个实施例中,多个非对抗样本进行若干次采样,得到若干对照样本集,包括:利用枚举法,对所述多个非对抗样本进行多次采样,得到多个对照样本集;或,利用分层采样法,对所述多个非对抗样本进行若干次采样,得到所述若干对照样本集;或,利用自助采样法,对所述多个非对抗样本进行若干次采样,得到所述若干对照样本集。

在一个实施例中,所述预设评估指标包括以下中的一种或多种:错误率、精度、查全率、查准率。

在一个实施例中,利用基于所述若干对照样本集和所述若干实验样本集确定出的若干增益值,判定所述目标样本是否为对抗样本,包括:确定所述若干增益值的增益均值,并且,在所述增益均值小于设定阈值的情况下,判定所述目标样本属于对抗样本;或,确定所述若干增益值中大于设定阈值的增益比例,并且,在所述增益比例小于第一预设比例的情况下,判定所述目标样本属于对抗样本。

在一个具体的实施例中,判定所述目标样本是否为对抗样本,还包括:对所述若干对照样本集针对所述预设评估指标的若干对照值进行平均,得到对照均值;将所述对照均值与第二预设比例的乘积,确定为所述设定阈值。

根据第二方面,提供一种识别对抗样本以保护模型安全的装置,该装置包括:采样单元,配置为对多个非对抗样本进行若干次采样,得到若干对照样本集;添加单元,配置为向所述若干对照样本集中分别加入待检测的目标样本,得到若干实验样本集;第一训练单元,配置为针对所述若干对照样本集中任意的第一对照样本集,利用所述第一对照样本集训练初始机器学习模型,得到训练后的第一对照模型;第一评估单元,配置为利用测试样本集对所述第一对照模型进行性能评估,得到针对预设评估指标的第一对照值,所述测试样本集基于所述多个非对抗样本而确定;第二训练单元,配置为针对向所述第一对照样本集中加入所述目标样本而得到的第一实验样本集,利用所述第一实验样本集训练所述初始机器学习模型,得到训练后的第一实验模型;第二评估单元,配置为利用所述测试样本集对所述第一实验模型进行性能评估,得到针对所述预设评估指标的第一实验值;增益确定单元,配置为将所述第一实验值与所述第一对照值的差值,确定为第一增益值;判定单元,配置为利用基于所述若干对照样本集和所述若干实验样本集确定出的若干增益值,判定所述目标样本是否属于对抗样本。

根据第三方面,提供一种识别对抗隐私样本以保护隐私安全的方法。该方法包括:对多个非对抗隐私样本进行若干次采样,得到若干对照隐私样本集;向所述若干对照隐私样本集中分别加入待检测的目标隐私样本,得到若干实验隐私样本集;针对所述若干对照隐私样本集中任意的第一对照隐私样本集,利用所述第一对照隐私样本集训练初始机器学习模型,得到训练后的第一对照模型;利用测试隐私样本集对所述第一对照模型进行性能评估,得到针对预设评估指标的第一对照值,所述测试隐私样本集基于所述多个非对抗隐私样本而确定;针对向所述第一对照隐私样本集中加入所述目标隐私样本而得到的第一实验隐私样本集,利用所述第一实验隐私样本集训练所述初始机器学习模型,得到训练后的第一实验模型;利用所述测试隐私样本集对所述第一实验模型进行性能评估,得到针对所述预设评估指标的第一实验值;将所述第一实验值与所述第一对照值的差值,确定为第一增益值;利用基于所述若干对照隐私样本集和所述若干实验隐私样本集确定出的若干增益值,判定所述目标隐私样本是否属于对抗隐私样本。

根据第四方面,提供一种识别对抗隐私样本以保护隐私安全的装置。该装置包括:采样单元,配置为对多个非对抗隐私样本进行若干次采样,得到若干对照隐私样本集;添加单元,配置为向所述若干对照隐私样本集中分别加入待检测的目标隐私样本,得到若干实验隐私样本集;第一训练单元,配置为针对所述若干对照隐私样本集中任意的第一对照隐私样本集,利用所述第一对照隐私样本集训练初始机器学习模型,得到训练后的第一对照模型;第一评估单元,配置为利用测试隐私样本集对所述第一对照模型进行性能评估,得到针对预设评估指标的第一对照值,所述测试隐私样本集基于所述多个非对抗隐私样本而确定;第二训练单元,配置为针对向所述第一对照隐私样本集中加入所述目标隐私样本而得到的第一实验隐私样本集,利用所述第一实验隐私样本集训练所述初始机器学习模型,得到训练后的第一实验模型;第二评估单元,配置为利用所述测试隐私样本集对所述第一实验模型进行性能评估,得到针对所述预设评估指标的第一实验值;增益确定单元,配置为将所述第一实验值与所述第一对照值的差值,确定为第一增益值;判定单元,配置为利用基于所述若干对照隐私样本集和所述若干实验隐私样本集确定出的若干增益值,判定所述目标隐私样本是否属于对抗隐私样本。

根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第三方面的方法。

根据第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第三方面的方法。

综上,在本说明书实施例披露的上述识别方法及装置中,首先确定目标样本对模型性能的增益值,再利用增益值判别该目标样本是否属于对抗样本,如此可以准确识别出对抗样本,进而保护原本会使用到对抗样本的模型的安全,以保证模型良好的训练性能和预测性能。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的识别对抗样本的方法实施框图;

图2示出根据一个实施例的识别对抗样本以保护模型安全的方法流程图;

图3示出根据一个实施例的识别对抗样本的时序步骤图;

图4示出根据一个实施例的识别对抗样本以保护模型安全的装置结构图;

图5示出根据一个实施例的识别对抗隐私样本以保护隐私安全的方法流程图;

图6示出根据一个实施例的识别对抗隐私样本以保护隐私安全的装置结构图。

具体实施方式

下面结合附图,对本说明书提供的方案进行描述。

目前模型训练所使用的训练样本可以包括不同来源,如人工打标,从网站或网络平台中爬取等,其中很容易混入对抗样本。如前所述,识别出对抗样本对保证模型训练性能和预测性能,从而保护模型安全来说,十分重要。

此外发明人考虑到,根据对抗样本的定义,对抗样本的标签是错误的,所以给模型带来的性能增益为负值或者非常小。因此,可以通过计算样本对模型性能的增益,检测该样本是否为对抗样本,或者说,可以通过计算样本对模型性能的增益,识别出对抗样本。

基于此,发明人提出一种识别对抗样本以保护模型安全的方法。在一个实施例中,图1示出根据一个实施例的识别对抗样本的方法实施框图,如图1所示,首先,对多个非对抗样本进行若干次采样,得到若干个对照样本集,图1中标识为N个,其中N为正整数。接着,向若干对照样本集中分别加入待检测的目标样本,得到若干实验样本集。然后,基于若干对照样本集和若干实验样本集确定目标样本对模型性能的若干增益值,具体包括:一方面,对于若干对照样本集中任意的第一对照样本集,利用其训练初始机器学习模型,并对训练得到的第一对照模型进行性能评估,得到指示模型性能的第一对照值;另一方面,对于包括目标样本和第一对照样本集中样本的第一实验样本集,利用其训练上述初始机器学习模型,并对训练得到的第一实验模型进行性能评估,得到指示模型性能的第一实验值;进一步地,将第一对照值和第一实验值的差值确定为第一增益值,据此可以确定出上述若干增益值。再接着,根据若干增益值和预设判别规则,判定该目标样本是否为对抗样本。如此,可以实现准确地识别出对抗样本。

下面,结合具体的实施例,描述上述识别方法的具体实施步骤。

图2示出根据一个实施例的识别对抗样本以保护模型安全的方法流程图,所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群。如图2所示,所述方法包括以下步骤:

步骤S210,对多个非对抗样本进行若干次采样,得到若干对照样本集;步骤S220,向所述若干对照样本集中分别加入待检测的目标样本,得到若干实验样本集;步骤S230,针对所述若干对照样本集中任意的第一对照样本集,利用所述第一对照样本集训练初始机器学习模型,得到训练后的第一对照模型;步骤S240,利用测试样本集对所述第一对照模型进行性能评估,得到针对预设评估指标的第一对照值,所述测试样本集基于所述多个非对抗样本而确定;步骤S250,针对向所述第一对照样本集中加入所述目标样本而得到的第一实验样本集,利用所述第一实验样本集训练所述初始机器学习模型,得到训练后的第一实验模型;步骤S260,利用所述测试样本集对所述第一实验模型进行性能评估,得到针对所述预设评估指标的第一实验值;步骤S270,将所述第一实验值与所述第一对照值的差值,确定为第一增益值;步骤S280,利用基于所述若干对照样本集和所述若干实验样本集确定出的若干增益值,判定所述目标样本是否属于对抗样本。

首先需要说明的是,上述第一对照样本集、第一实验样本集、第一对照模型、第一实验模型等中的“第一”,以及后文中的类似用语,仅用于区分同类事物,不具有其他限定作用。

此外,对于图2示出的步骤中涉及的多个非对抗样本和目标样本,一方面,从样本所包括数据内容的角度来说,在一个实施例中,这些样本可以为隐私数据样本,也就是说,其中涉及到用户隐私数据。此时,识别对抗样本以保护模型安全显得尤为重要。比如说,针对用于识别用户身份的分类模型(如人脸识别模型),若其训练样本中包括的对抗样本未被识别并剔除,则在该分类模型投入使用时,可能导致一个用户提供的身份信息(如人脸等)被错误地识别为归属于另一个用户,从而导致身份被冒用或者用户账户被误扣款等,危机用户隐私安全。另一方面,从样本的数据形式的角度来说,在一个实施例中,这些样本可以为图像样本,相应地,初始机器学习模型可以为图像处理模型。在一个具体的实施例中,这些样本可以包括人脸图像、虹膜图像、指纹图像等,初始机器学习模型可以为身份识别模型。在另一个实施例中,这些样本可以为文本样本,相应地,初始机器学习模型可以为文本处理模型。在又一个实施例中,这些样本可以为语音样本,相应地,初始机器学习模型可以为语音处理模型。

图2中示出的上述步骤具体如下:

首先在步骤S210,对多个非对抗样本进行若干次采样,得到若干对照样本集。在一个实施例中,其中多个非对抗样本可以是经过人工反复核对,确认标签无误的正常样本。

需要说明,其中若干次采样中若干,以及文中它处的若干包括一个或多个的情况。对于上述若干次采样,可以通过多种采样方法实现。在一个实施例中,可以利用枚举法进行多次采样,得到多个对照样本集。其中枚举法是一种列举出所有可能的方法,假定多个非对抗样本共包括3个样本,分别用A、B和C指代,那么,利用枚举法采用得到的对照样本集包括:Ø,{A},{B},{C},{A,B},{A,C},{B,C}和{A,B,C}。

在另一个实施例中,可以利用分层采样法进行若干次采样,得到若干对照样本集。其中分层采样法包括,每次采样时选取的各个标签所对应的样本数量之间的比例相同或相近。在一个例子中,假定在二分类场景下,多个非对抗样本中包括正样本和负样本,对于其中任意两次采样,得到的两个对照样本集中,正样本和负样本的比例可以均保持为3:1,例如其中一个对照样本集中正样本和负样本数量分别为30和10,而另一个对照样本集中正样本和负样本数量分别为45和15。

在又一个实施例中,还可以利用自助采样法进行若干次采样,得到若干对照样本集。具体地,对于其中的某次采样,假定多个非对抗样本的数量为M,需要采集的样本数量为m,那么,可以每回从M个非对抗样本中随机挑选一个样本,将其归入m个样本,然后再将这个样本放回M个非对抗样本中,使得该样本在下回挑选时仍可以被挑选到,这个过程重复执行m次后,就可以得到包括m个样本的对照样本集。

如此通过若干次采样,可以得到若干对照样本集。接着在步骤S220,向所述若干对照样本集中分别加入待检测的目标样本,得到若干实验样本集。也就是说,分别向每个对照样本集中加入待检测的目标样本,得到与每个对照样本集对应的每个实验样本集,组成若干实验样本集。

然后在步骤S230,针对所述若干对照样本集中任意的第一对照样本集,利用所述第一对照样本集训练初始机器学习模型,得到训练后的第一对照模型。并且,在步骤S240,利用测试样本集对所述第一对照模型进行性能评估,得到针对预设评估指标的第一对照值,所述测试样本集基于所述多个非对抗样本而确定。

需要说明,在执行步骤S210之后,可以同时执行步骤S220和步骤S230,也可以先后执行步骤S220和步骤S230,总之对二者的执行顺序不作限定。

在一个实施例中,步骤S230可以包括:将第一对照样本集中的多个第一样本分别输入初始机器学习模型中,得到对应的多个第一预测结果;再根据多个第一预测结果和多个第一样本的样本标签,以及预设的损失函数,调整初始机器学习模型中的模型参数,得到调参后的第一对照模型。由此,可以利用若干对照样本集分别对初始机器学习模型进行调参,得到对应的若干对照模型。

对于上述测试样本集,可以基于上述多个非对抗样本确定。需要理解,测试样本集通常是与训练样本集(如上述若干对照样本集)互斥的,即测试样本集中的样本通常是不会在训练样本集中出现、未在训练过程中使用过。并且,测试样本集和训练样本集的划分通常要保持数据分布的一致性。

在一个实施例中,上述测试样本集可以为一个。此时,在上述若干对照模型为多个的情况下,意味着可以使用相同的测试样本集对不同的对照模型进行性能评估。在一个具体的实施例中,在上述步骤S210中可以包括:基于上述多个非对抗样本划分出两个互斥的集合,其中一个集合作为上述测试样本集,而另一个集合用于采样确定上述若干对照样本集。

在另一个实施例中,上述测试样本集可以为多个,如此可以利用不同的测试样本集对不同的对照模型进行性能评估。在一个具体的实施例中,上述步骤S210中可以包括:基于上述分层采样法,将上述多个(如M个)非对抗样本划分为预定数量(如k个,其中k为小于M的正整数)的互斥集合,并且,将其中(k-1)个互斥集合的并集作为一个对照样本集,将剩余的一个互斥集合作为对应的测试样本集,如此可以得到(k-1)个对照样本集和对应的(k-1)个测试样本集。如此,可以确定出用于评估模型性能的测试样本集。

对于上述初始机器学习模型,在一个实施例中,初始机器学习模型可以为初始化模型,也就是说,初始机器学习模型可以是尚未经过任何训练的模型,其中的模型参数为模型初始化时被赋予的参数。在另一个实施例中,初始机器学习模型还可以为使用上述多个非对抗样本以外的一些非对抗样本训练过的模型。另一方面,初始机器学习模型可以为分类模型、回归模型、神经网络模型等,对此不作限定。

上述预设评估指标可以包括:错误率、精度、查全率和查准率等等。需要理解,其中错误率是指预测错误的测试样本数占测试样本总数的比例。精度是指预测正确的测试样本数占测试样本总数的比例。对于二分类问题,查准率表示预测为正例的测试样本中,真正为正例(即标签标识为正例)的测试样本所占的比例;查全率表示测试样本中包括的正例(即标签标识为正例)中,被预测正确的样本所占的比例。在一个例子中,上述预测评估指标包括查准率,上述第一对照值中可以包括查准率0.88。在另一个例子中,上述预测评估指标包括错误率,上述第一对照值可以包括错误率0.16。

以上在步骤S230和步骤S240,可以得到对应于任意的第一对照样本集的第一对照值,依此,可以得到对应于若干对照样本集的若干对照值。另一方面,在步骤S250,针对向所述第一对照样本集中加入所述目标样本而得到的第一实验样本集,利用所述第一实验样本集训练所述初始机器学习模型,得到训练后的第一实验模型。并且,步骤S260,利用所述测试样本集对所述第一实验模型进行性能评估,得到针对所述预设评估指标的第一实验值。

需要说明的是,利用第一对照样本集进行训练的初始机器学习模型,与利用第一实验样本集进行训练的初始机器学习模型是相同的,并且,对第一实验模型进行性能评估所使用的测试样本集,与对第一对照模型进行性能评估所使用的测试样本集是相同的。此外,对步骤S250和步骤S260的描述可以参见上述对步骤S230和步骤S240的描述,不作赘述。

在一个例子中,上述预测评估指标包括查准率,上述第一实验值中可以包括查准率0.80或0.90。在另一个例子中,上述预测评估指标包括错误率,上述第一对照值可以包括错误率0.10或0.20。

以上在步骤S250和步骤S260,可以得到对应于任意的第一实验样本集的第一实验值,依此,可以得到对应于若干实验样本集的若干实验值。需要说明的是,对于前述步骤S210-步骤S260的执行顺序,仅要求步骤S210是最先执行的步骤,以及之后一方面顺序执行步骤S230和步骤S240,另一方面顺序执行步骤S220、步骤S250和步骤S260,其余不作限定。具体地,在一种实施方式中,可以依次顺序执行步骤S210、步骤S230、步骤S220、步骤S250、步骤S240和步骤S260。在另一种实施方式中,可以先后执行步骤S210、步骤S220、步骤S230、步骤S240、步骤S250和步骤S260。

再然后,步骤S270,将所述第一实验值与所述第一对照值的差值,确定为第一增益值。

需要理解,增益值用于表征目标样本给模型性能带来的优化效果。在一个实施例中,当预设评估指标用于正向表征模型性能时(例如,预设评估指标为精度、查全率或查准率时),第一增益值为第一实验值减去第一对照值得到的差值。在一个例子中,预设评估指标为查准率,若第一对照值和第一实验值分别为0.88和0.80,则第一增益值为-0.80,若第一对照值和第一实验值分别为0.88和0.90,则第一增益值为0.20。

在另一个实施例中,当预设评估指标用于负向表征模型性能时(例如,预设评估指标为错误率时),第一增益值为第一对照值减去第一实验值得到的差值。在一个例子中,预设评估指标为错误率,若第一对照值和第一实验值分别为0.16和0.10,则第一增益值为0.60,若第一对照值和第一实验值分别为0.16和0.20,则第一增益值为-0.04。

如此,可以基于上述若干对照值和若干实验值,得到对应的若干增益值。基于此,在步骤S280,利用基于所述若干对照样本集和所述若干实验样本集确定出的若干增益值,判定所述目标样本是否属于对抗样本。

在一个实施例中,本步骤中可以包括:确定所述若干增益值的增益均值;进一步地,在所述增益均值小于设定阈值的情况下,判定所述目标样本属于对抗样本,而在所述增益均值不小于设定阈值的情况下,判定所述目标样本不属于对抗样本。

在一个具体的实施例中,其中设定阈值可以为人工设定的阈值,如0或0.05。在另一个具体的实施例中,其中设定阈值可以基于以下步骤设定:首先,对上述若干对照样本集针对所述预设评估指标的若干对照值进行平均,得到对照均值;再将所述对照均值与第二预设比例的乘积,确定为所述设定阈值。在一个更具体的实施例中,其中第二预设比例可以由业务人员根据专家经验或实际需求设定,如设定为0.05或0.02。在一个例子中,假定上述对照均值为0.80,第二预设比例为0.05,则可以将设定阈值确定为0.04。

根据一个具体的例子,假定设定阈值为0.04,若上述增益均值为0.01,则可以判定对应的目标样本属于对抗样本,而若上述增益均值为0.06,则可以判断对应的目标样本不属于对抗样本。

在另一个实施例中,本步骤中可以包括:确定所述若干增益值中大于设定阈值的增益比例,并且,在所述增益比例小于第一预设比例的情况下,判定所述目标样本属于对抗样本。需要说明的是,其中设定阈值可以参见上述实施例中的相关描述,此外,在一个具体的实施例中,其中第一预设比例可以由业务人员根据专家经验或实际需求设定,如设定为0.80或0.90。

根据一个具体的例子,假定第一预设比例为0.80,若确定出的增益比例为0.20,则可以判定对应的目标样本属于对抗样本,而若确定出的增益比例为0.87,则可以判定对应的目标样本不属于对抗样本。

如此,可以实现检测出目标样本是否属于对抗样本。

综上,在本说明书实施例披露的识别对抗样本的方法中,首先确定目标样本对模型性能的增益值,再利用增益值判别该目标样本是否属于对抗样本,如此可以准确识别出对抗样本,进而保护原本会使用到对抗样本的模型的安全,以保证模型良好的训练性能和预测性能。比如说,在需要训练用于识别用户身份的模型的过程中,可以先采用上述识别对抗样本的方法,识别出预先采集的训练样本中包括的对抗样本,并利用去除对抗样本后的训练样本集训练身份识别模型,以保障模型安全。同时,训练出来的模型具有良好的预测性能,可以有效防止误识别,进而防止因误识别而造成的身份冒用、隐私泄漏、财产损失等高危后果。

下面再结合具体的实施例,对上述识别方法进行介绍。图3示出根据一个实施例的识别对抗样本的时序步骤图。如图3所示,其中识别对抗样本包括以下步骤:

步骤S31,对正常样本(也就是非对抗样本)进行采样,得到对照样本集。

步骤S32,利用对照样本集对初始模型进行训练,并利用测试样本集对训练后的模型进行性能评估,得到对照评估结果。

步骤S33,在对照样本集中加入待检测样本,得到实验样本集。

步骤S34,利用实验样本集对初始模型进行训练,并利用测试样本集对训练后的模型进行性能评估,得到实验评估结果。

步骤S35,根据实验评估结果和对照评估结果,确定出模型性能的增益。

步骤S36,重复步骤S31和步骤S35,确定待检测样本对每次采样带来的模型性能的增益。

步骤S37,计算待检测样本带来的模型增益的均值。

步骤S38,将均值低于阈值的样本识别为对抗样本。

以上可以实现对抗样本的识别。

与上述识别方法相对应的,本说明书实施例还披露一种识别装置。图4示出根据一个实施例的识别对抗样本以保护模型安全的装置结构图。如图4所示,所述装置400可以包括:采样单元410,配置为对多个非对抗样本进行若干次采样,得到若干对照样本集;添加单元420,配置为向所述若干对照样本集中分别加入待检测的目标样本,得到若干实验样本集;第一训练单元430,配置为针对所述若干对照样本集中任意的第一对照样本集,利用所述第一对照样本集训练初始机器学习模型,得到训练后的第一对照模型;第一评估单元440,配置为利用测试样本集对所述第一对照模型进行性能评估,得到针对预设评估指标的第一对照值,所述测试样本集基于所述多个非对抗样本而确定;第二训练单元450,配置为针对向所述第一对照样本集中加入所述目标样本而得到的第一实验样本集,利用所述第一实验样本集训练所述初始机器学习模型,得到训练后的第一实验模型;第二评估单元460,配置为利用所述测试样本集对所述第一实验模型进行性能评估,得到针对所述预设评估指标的第一实验值;增益确定单元470,配置为将所述第一实验值与所述第一对照值的差值,确定为第一增益值;判定单元480,配置为利用基于所述若干对照样本集和所述若干实验样本集确定出的若干增益值,判定所述目标样本是否属于对抗样本。

在一个实施例中,所述多个非对抗样本和目标样本为图像样本,所述初始机器学习模型为图像处理模型;或,所述多个非对抗样本和目标样本为文本样本,所述初始机器学习模型为文本处理模型;或,所述多个非对抗样本和目标样本为语音样本,所述初始机器学习模型为语音处理模型。

在一个实施例中,所述采样单元410配置为:利用枚举法,对多个非对抗样本进行多次采样,得到多个对照样本集;或,利用分层采样法,对所述多个非对抗样本进行若干次采样,得到所述若干对照样本集;或,利用自助采样法,对所述多个非对抗样本进行若干次采样,得到所述若干对照样本集。

在一个实施例中,所述预设评估指标包括以下中的一种或多种:错误率、精度、查全率、查准率。

在一个实施例中,所述判定单元480配置为:确定若干增益值的增益均值,并且,在所述增益均值小于设定阈值的情况下,判定所述目标样本属于对抗样本;或,确定所述若干增益值中大于设定阈值的增益比例,并且,在所述增益比例小于第一预设比例的情况下,判定所述目标样本属于对抗样本。

在一个实施例中,所述判定单元480还配置为:对所述若干对照样本集针对所述预设评估指标的若干对照值进行平均,得到对照均值;将所述对照均值与第二预设比例的乘积,确定为所述设定阈值。

综上,在本说明书实施例披露的识别对抗样本的装置中,首先确定目标样本对模型性能的增益值,再利用增益值判别该目标样本是否属于对抗样本,如此可以准确识别出对抗样本,进而保护原本会使用到对抗样本的模型的安全,以保证模型良好的训练性能和预测性能。

根据另一方面的实施例,本说明书还披露一种识别对抗隐私样本以保护隐私安全的方法。图5示出根据一个实施例的识别对抗样本以保护隐私安全的方法流程图,所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群。如图5所示,所述方法包括以下步骤:

步骤S510,对多个非对抗隐私样本进行若干次采样,得到若干对照隐私样本集;步骤S520,向所述若干对照隐私样本集中分别加入待检测的目标隐私样本,得到若干实验隐私样本集;步骤S530,针对所述若干对照隐私样本集中任意的第一对照隐私样本集,利用所述第一对照隐私样本集训练初始机器学习模型,得到训练后的第一对照模型;步骤S540,利用测试隐私样本集对所述第一对照模型进行性能评估,得到针对预设评估指标的第一对照值,所述测试隐私样本集基于所述多个非对抗隐私样本而确定;步骤S550,针对向所述第一对照隐私样本集中加入所述目标隐私样本而得到的第一实验隐私样本集,利用所述第一实验隐私样本集训练所述初始机器学习模型,得到训练后的第一实验模型;步骤S560,利用所述测试隐私样本集对所述第一实验模型进行性能评估,得到针对所述预设评估指标的第一实验值;步骤S570,将所述第一实验值与所述第一对照值的差值,确定为第一增益值;步骤S580,利用基于所述若干对照隐私样本集和所述若干实验隐私样本集确定出的若干增益值,判定所述目标隐私样本是否属于对抗隐私样本。

针对以上步骤,需要说明的是,以上步骤相较于图2中示出的步骤,主要区别在于,其中涉及的非对抗隐私样本和目标隐私样本涉及隐私数据。在一个实施例中,其中隐私数据可以包括用户个人信息和生物特征信息等。此外需要说明的是,对图5中示出步骤的描述,可以参见对图2中示出步骤的描述,在此不作赘述。

与图5中示出的识别方法相对应的,本说明书实施例还披露一种识别装置。具体地,图6示出根据一个实施例的识别对抗隐私样本以保护隐私安全的装置结构图。如图6所示,所述装置600可以包括:

采样单元610,配置为对多个非对抗隐私样本进行若干次采样,得到若干对照隐私样本集;添加单元620,配置为向所述若干对照隐私样本集中分别加入待检测的目标隐私样本,得到若干实验隐私样本集;第一训练单元630,配置为针对所述若干对照隐私样本集中任意的第一对照隐私样本集,利用所述第一对照隐私样本集训练初始机器学习模型,得到训练后的第一对照模型;第一评估单元640,配置为利用测试隐私样本集对所述第一对照模型进行性能评估,得到针对预设评估指标的第一对照值,所述测试隐私样本集基于所述多个非对抗隐私样本而确定;第二训练单元650,配置为针对向所述第一对照隐私样本集中加入所述目标隐私样本而得到的第一实验隐私样本集,利用所述第一实验隐私样本集训练所述初始机器学习模型,得到训练后的第一实验模型;第二评估单元660,配置为利用所述测试隐私样本集对所述第一实验模型进行性能评估,得到针对所述预设评估指标的第一实验值;增益确定单元670,配置为将所述第一实验值与所述第一对照值的差值,确定为第一增益值;判定单元680,配置为利用基于所述若干对照隐私样本集和所述若干实验隐私样本集确定出的若干增益值,判定所述目标隐私样本是否属于对抗隐私样本。

此外需要说明的是,对图6中示出装置的描述,还可以参见前述对图4中示出装置的描述,在此不作赘述。

根据又一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图1或图2或图3或图5所描述的方法。

根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图1或图2或图3或图5所述的方法。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号