首页> 中国专利> 基于聚类的联邦学习搭便车攻击防御方法

基于聚类的联邦学习搭便车攻击防御方法

摘要

本发明公开了一种本发明提供的基于聚类的联邦学习搭便车攻击防御方法,1)利用变分自编码器进行搭便车攻击客户端检测,保护模型的隐私,提高鲁棒性;2)在联邦学习过程中,收集多轮变分自编码器的重建概率并对重建概率聚类后依据时间域上聚类结果的相似度筛选出异常的搭便车攻击客户端;3)接收客户端利用本地样本数据对聚合的全局模型的测试结果,依据测试结果反映客户端是否为搭便车攻击者,从而保护模型的隐私,不会被泄露。

著录项

  • 公开/公告号CN112434758A

    专利类型发明专利

  • 公开/公告日2021-03-02

    原文格式PDF

  • 申请/专利权人 浙江工业大学;

    申请/专利号CN202011499170.0

  • 申请日2020-12-17

  • 分类号G06K9/62(20060101);G06N20/00(20190101);G06F21/56(20130101);

  • 代理机构33224 杭州天勤知识产权代理有限公司;

  • 代理人曹兆霞

  • 地址 310014 浙江省杭州市下城区潮王路18号

  • 入库时间 2023-06-19 10:05:17

说明书

技术领域

本发明属于面向联邦学习的安全防御领域,具体涉及一种基于聚类的联邦学习搭便车攻击防御方法。

背景技术

联邦学习自从提出以来,一直都备受关注。在联邦学习中,具有两个角色的分布式训练模型:客户端和中央服务器。客户端不上传私有数据,而是本地更新全局模型,只有模型参数(梯度信息)在客户端之间通信。典型的训练迭代工作如下。首先,中央服务器每个客户端发送最新的全局模型。然后,每个客户端使用本地数据本地更新模型,并上传更新模型。最后,中央服务器对所有提交的本地更新执行模型聚合,以形成新的全局模型,该模型比使用任何单个客户端的数据训练的模型具有更好的性能。与简单地从客户端收集所有数据并根据这些数据训练模型的替代方法相比,联邦学习能够通过仅传输模型参数来节省通信开销,并且保护隐私,因为所有数据都保持在本地。

近年来,由于FL的隐私性,带来了一个微妙的威胁:以前充当被动数据提供者的客户端,现在正积极参与到的培训过程中。因此这会带来许多新颖的攻击方式,这给隐私和安全带来了新的挑战。

在一个联邦学习环境中,每个贡献的客户端都可以获得一个奖励,可能有一些客户假装在贡献技巧奖励。这类客户端被称为搭便车者,把生成假权重报告给中央服务器的过程称为搭便车攻击。免费搭便车攻击者提交虚假更新可能有两个主要动机。首先,客户可能没有所需的数据,或者担心数据隐私,因此本地数据不可用于模型训练。另一方面,客户端可能希望节省本地CPU周期或其他计算资源。

在目前联邦学习搭便车攻击中,最强劲的攻击策略为增量权重攻击。对于增量权重攻击,考虑一个复杂的攻击者,它通过减去两个先前接收的全局模型并添加高斯噪声来生成假的梯度更新。搭便车者可能试图通过添加具有零均值和某个标准差的高斯噪声来避免检测,使得所得的梯度更新矩阵具有与其他客户端相似的标准差。

由于在安全关键型领域中,搭便车攻击会带来了很大的危害,造成模型泄露,这对于联邦学习的安全应用领域是重大挑战,因此提高联邦学习的鲁棒性,使其有效安全地应用在安全决策领域已经日益成为了人们关注的重点。

发明内容

鉴于上述,本发明的目的是提供一种基于聚类的联邦学习搭便车攻击防御方法,以保护客户端的隐私信息以及联邦学习的全局模型不被泄露。

为实现上述发明目的,本发明提供以下技术方案:

一种基于聚类的联邦学习搭便车攻击防御方法,包括以下步骤:

服务端将客户端训练得到的更新模型作为变分自编码器的输入,计算变分自编码器对更新模型的重建概率,依据该重建概率进行搭便车攻击客户端的第一次筛选滤除;

针对每个客户端,服务端对多轮训练的更新模型的重建概率进行聚类,依据时间域上聚类结果的相似度进行搭便车攻击客户端的第二次筛选滤除;

服务端对经过二次筛选滤除剩下的更新模型进行聚合得到全局模型,并将全局模型分配至客户端进行下一轮训练,客户端在对全局模型进行下一轮训练时上传利用本地样本数据对全局模型的测试精度,依据测试精度实现对搭便车攻击客户端的第三次筛选滤除。

与现有技术相比,本发明提供的基于聚类的联邦学习搭便车攻击防御方法的有益效果表现在:

1)利用变分自编码器进行搭便车攻击客户端检测,保护模型的隐私,提高鲁棒性;2)在联邦学习过程中,收集多轮变分自编码器的重建概率并对重建概率聚类后依据时间域上聚类结果的相似度筛选出异常的搭便车攻击客户端;3)接收客户端利用本地样本数据对聚合的全局模型的测试结果,依据测试结果反映客户端是否为搭便车攻击者,从而保护模型的隐私,不会被泄露。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。

图1是本发明实施例提供的基于聚类的联邦学习搭便车攻击防御方法的流程示意图;

图2是本发明实施例提供的基于聚类的联邦学习搭便车攻击防御方法的算法示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。

针对联邦学习的隐私安全问题,尤其是搭便车攻击通过提交虚假更新来欺骗中央服务器,从而免费获得聚合完的全局模型造成的隐私泄露问题。实施例提供了一种基于聚类的联邦学习搭便车攻击防御方法,以保护模型不被泄露。

图1是本发明实施例提供的基于聚类的联邦学习搭便车攻击防御方法的流程示意图;图2是本发明实施例提供的基于聚类的联邦学习搭便车攻击防御方法的算法示意图。如图1和图2所示,实施例提供的基于聚类的联邦学习搭便车攻击防御方法,包括以下步骤:

步骤1,服务端依据变分自编码器对更新模型的重建概率进行搭便车攻击客户端的第一次筛选滤除。

在联邦学习中,客户端的更新模型参数上传至服务端,服务端作为中央服务器对上传的更新模型进行聚合。在众多的客户端中会存在搭便车攻击客户端,这类攻击者的攻击策略为随机权重攻击与增量权重攻击。对于随机权重攻击,搭便车攻击者将试图通过从范围[R,R]内的均匀分布中随机采样每个值,来构建与接收到的全局模型具有相同维数的梯度更新矩阵。搭便车攻击者可能有先前的模型训练经验,因此R接近模拟其他正常客户端的更新。

增量权重攻击是一个复杂攻击,它通过减去两个先前接收的全局模型并添加高斯噪声来生成假的梯度更新。搭便车攻击者可能试图通过添加具有零均值和某个标准差的高斯噪声来避免检测,使得所得的梯度更新矩阵具有与其他客户端相似的标准差。假设搭便车攻击者接收到了第j-1轮的全局模型M

其中,η表示选取权重更新的缩放比例,N为添加的噪声。这表明,在第j轮构建的假梯度更新G

为了避免搭便车攻击者上传的异常更新模型对全局模型的影响,以及防止搭便车攻击者窃取全局模型和其他客户端的隐私信息,需要在聚合所有更新模型时需要对客户端进行异常检测,滤除掉可能的搭便车攻击客户端。

实施例中采用根据变分自编码器对更新模型的重建概率进行搭便车攻击客户端的第一次筛选滤除。即服务端将客户端训练得到的更新模型作为变分自编码器的输入,计算变分自编码器对更新模型的重建概率,依据该重建概率筛选出搭便车攻击客户端,实现异常客户端的第一次筛选滤除。

变分自动编码器(VAE)是一种定向概率图形模型(DPGM),包括编码器和解码器,编码器和解码器均由神经网络近似,形成类似自动编码器的架构。VAE的目标函数是数据的边际似然函数的变分下界,因为边界似然函数是难以用分析形式表达的。实施例中,采用数据的似然函数作为重建概率,即变分自编码器对模型参数的重建概率为:

其中,p

其中,

整体边界似然函数是所有数据点的边界似然函数的和,可以写作:

其中,N为数据点的边界似然函数之和。由于KL距离总是非负数,所以要求满足

要强调的是,VAE建模的是分布的参数,而不是分布本身。也就是说,编码器输出q

在一个实施方式中,依据该重建概率进行搭便车攻击客户端的第一次筛选滤除时,比较每个客户端的更新模型对应的重建概率,将重建概率与所有重建概率的均值之差大于设定阈值的重建概率对应的客户端作为搭便车攻击客户端并滤除,实现搭便车攻击客户端的第一次筛选滤除。

在另外一个实施方式中,依据该重建概率进行搭便车攻击客户端的第一次筛选滤除时,将客户端的更新模型对应的重建概率排序,依据排序结果将与相邻重建概率相差大于容忍阈值的重建概率对应的客户端作为搭便车攻击客户端并滤除,实现搭便车攻击客户端的第一次筛选滤除。

步骤2,针对每个客户端,服务端对多轮训练的更新模型的重建概率进行聚类,依据时间域上聚类结果的相似度进行搭便车攻击客户端的第二次筛选滤除。

服务端对客户端进行第一轮筛选后,对于那些较为鲁棒的客户端,根据历史重建概率进行搭便车攻击客户端的第二次筛选滤除。可以对历史重建概率进行聚类,观察聚类情况,由于搭便车攻击的策略为添加随机噪声,但攻击者无法确切的知晓每次添加的噪声大小,因此攻击者的更新在时间序列上会与正常参与者存在明显不同,从而去除。

实施例中,采用t-SNE算法对多轮训练的更新模型的重建概率进行聚类,依据时间域上聚类结果的相似度进行搭便车攻击客户端的第二次筛选滤除。

具体实施时,采用t-SNE算法对每个客户端的多轮训练的更新模型进行聚类并依据聚类结果进行搭便车攻击客户端的第二次筛选滤除的过程为:

首先,初始化K个聚类中心,则重建概率距离聚类中心的距离满足t-分布;

其中,z

实施例中,考虑到以下三点:1.强化预测,q分布为属于聚类j的概率,那么p如果使用常规分布来表示,显得比较原始。2.置信度越高,属于某个聚类概率越大。3.规范每个质心的损失贡献,以防止大类扭曲隐藏的特征空间。因此,然后还需要规范每个聚类中心的损失贡献,以防大类扭曲重建概率,则:

其中,

接下来,依据KL散度来衡量概率q

最后,比较每个客户端的相邻两个轮次的相似度L,若两个轮次的相似度L之差大于设定阈值,则认为客户端为搭便车攻击客户端并滤除,实现搭便车攻击客户端的第二次筛选滤除。

步骤3,服务端依据客户端对对全局模型的测试精度实现对搭便车攻击客户端的第三次筛选滤除。

实施例中,服务端对经过二次筛选滤除剩下的更新模型进行聚合得到全局模型,并将全局模型分配至客户端进行下一轮训练,客户端在对全局模型进行下一轮训练时上传利用本地样本数据对全局模型的测试精度,依据测试精度实现对搭便车攻击客户端的第三次筛选滤除。

实施时,服务端可以采用以下两种方式对经过二次筛选滤除剩下的更新模型进行聚合,得到全局模型;

方式一:平均聚合方式,即对所有客户端的更新模型参数取平均值获得全局模型参数;

方式二:加权聚合方式,即为每个客户端的更新模型参数赋予权重,然后加权求和所有客户端的更新模型参数获得全局模型参数。

由于搭便车攻击者是不具有本地样本数据,也不具有训练能力的,因此,搭便车攻击者不能够对全局模型进行测试,更没有测试精度,基于此,依据测试精度实现对搭便车攻击客户端的第三次筛选滤除时,若客户端无法生成测试精度且没有上传测试精度,则认为该客户端为搭便车攻击客户端并滤除,实现对搭便车攻击客户端的第三次筛选滤除。

实施例中,在每轮训练时,对客户端均采用三次筛选滤除,直到连续多次没有检测出搭便车攻击客户端,停止筛选滤除操作,认为剩下的客户端均为可靠的客户端,可以直接进行多轮次的联邦学习。

实施例提供的基于聚类的联邦学习搭便车攻击防御方法,1)利用变分自编码器进行搭便车攻击客户端检测,保护模型的隐私,提高鲁棒性;2)在联邦学习过程中,收集多轮变分自编码器的重建概率并对重建概率聚类后依据时间域上聚类结果的相似度筛选出异常的搭便车攻击客户端;3)接收客户端利用本地样本数据对聚合的全局模型的测试结果,依据测试结果反映客户端是否为搭便车攻击者,从而保护模型的隐私,不会被泄露。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号