首页> 中国专利> 基于本地差分隐私的联邦学习图像分类方法

基于本地差分隐私的联邦学习图像分类方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提出一种基于本地差分隐私的联邦学习图像分类方法，实现步骤为：构建联邦学习场景模型；本地客户端获取训练样本集和测试样本集；构建基于卷积神经网络的图像分类模型；本地客户端初始化参数；本地客户端对基于卷积神经网络的图像分类模型的权重参数进行本地更新；本地客户端对权重参数进行本地差分隐私扰动并上传；中心服务器获取权值参数全局更新后的基于卷积神经网络的图像分类模型并发送；中心服务器获取训练好的基于卷积神经网络的图像分类模型；本地客户端获取图像分类结果。本发明通过对本地更新后的权重参数进行本地差分隐私扰动后，再全局更新，降低了计算存储开销，进而提高了训练效率，且适用于不同隐私保护需求场景的图像分类。

著录项

公开/公告号CN113850272A

专利类型发明专利
公开/公告日2021-12-28

原文格式PDF
申请/专利权人西安电子科技大学;
展开▼

申请/专利号CN202111059634.0
发明设计人朱笑岩;王亚杰;张琳杰;马建峰;
展开▼

申请日2021-09-10
分类号G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06N20/00(20190101);
代理机构61205 陕西电子工业专利中心;
代理人陈宏社;王品华
地址 710071 陕西省西安市太白南路2号
入库时间 2023-06-19 13:26:15

说明书

技术领域

本发明属于图像处理技术领域，涉及一种基于本地差分隐私的联邦学习图像分类方法，可用于医学图像分类。

背景技术

图像分类是一种根据不同类别的目标各自在图像信息中所反映的不同特征，把不同类别的图像区分开来的图像处理方法。现在主要的图像分类方法是通过训练卷积神经网络模型实现的，其需要大量的训练图像数据，但用户的图像数据包含了大量用户隐私信息，所以进行卷积神经网络模型训练时的海量图像数据交互必然会带来隐私安全问题。例如在医疗领域，由于医疗数据是非常敏感的，通常包含个人隐私信息，在多个医疗机构进行数据共享的过程中，就会导致病人的隐私泄露。

基于上述原因，需要一种隐私保护的方法来支持数据共享、模型训练，谷歌于2016年提出了联邦学习，其主要流程为：服务器随机为全局模型参数赋值以进行初始化，并将模型分发给各个参与方，各参与方在本地利用自己的数据训练模型，然后将模型更新的参数发送回服务器，服务器据此更新全局模型并再次分发给各参与方，然后再进行新一轮的迭代更新。联邦学习作为一种隐私保护的分布式框架，可在各个参与方不共享本地数据，仅通过上传模型参数更新实现模型构建，可以在一定程度上保证训练数据的隐私和安全。然而，已有研究表明，攻击者能通过上传更新的模型参数反推出参与方的本地原始数据，例如，服务器有能力利用聚合结果去分析获取参与方上传数据的统计特征，仍会导致参与方的隐私泄漏，因而如何保护各参与方共享的模型参数是一个重要问题。

例如申请公布号为CN 112949741 A，名称为“基于同态加密的卷积神经网络图像分类方法”的专利申请，公开了一种基于同态加密的卷积神经网络图像分类方法，该方法步骤主要包括：构建多方深度学习场景模型；参数服务器初始化加密参数；每个用户生成自己的公钥和私钥；参数服务器生成自己的公钥和私钥；辅助服务器生成自己的公钥和私钥，以及联合公钥；每个用户获取训练图像样本集和测试图像样本集；参数服务器构建卷积神经网络模型，并初始化训练参数；用户P获取梯度向量密文并上传；参数服务器对梯度密文向量进行聚合；参数服务器和辅助服务器对聚合梯度向量密文进行同态重加密；用户P获取卷积神经网络模型的训练结果；每个用户获取图像分类结果。由于卷积神经网络模型训练本身是一项计算密集型的任务,计算以及通信开销大，即使没有加密，也需要高吞吐量的计算单元，而同态加密带来高昂的计算和通信开销且需要额外的辅助服务器。

发明内容

本发明的目的在于针对上述现有技术的不足，提出了一种基于本地差分隐私的联邦学习图像分类方法，在保证训练数据的隐私和安全以及分类精度的前提下，降低计算存储开销。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)构建联邦学习场景模型：

构建包括中心服务器和I个本地客户端L＝{L

(2)本地客户端获取训练样本集和测试样本集：

每个本地客户端L

(3)构建基于卷积神经网络的图像分类模型H：

本地客户端L构建基于卷积神经网络的图像分类模型，卷积神经网络包括依次层叠的输入层、m个卷积层-ReLU层-池化层、输出层，其中m≥2，输出层包括依次层叠的多个全连接层；

(4)本地客户端L初始化参数：

本地客户端L初始化迭代次数为t，最大迭代次数为T，T≥50，当前基于卷积神经网络的图像分类模型为H

(5)本地客户端L对基于卷积神经网络的图像分类模型H的权重参数进行本地更新：

(5a)本地客户端L将从训练样本集中有放回且随机选取的c·N个训练样本作为当前基于卷积神经网络的图像分类模型H

(5b)本地客户端L采用交叉熵损失函数，并通过每个预测标签

(6)本地客户端L对权重参数Δ

(6a)每个本地客户端L

(6b)每个本地客户端L

(6c)本地客户端L将θ

(7)中心服务器获取权值参数全局更新后的基于卷积神经网络的图像分类模型并发送：

中心服务器对上传向量

(8)中心服务器获取训练好的基于卷积神经网络的图像分类模型：

中心服务器判断t≥T是否成立，若是，得到训练好的基于卷积神经网络的图像分类模型H'，若否，令t＝t+1，

(9)本地客户端获取图像分类结果：

每个本地客户端L

本发明与现有技术相比，具有以下优点：

第一：本发明本地客户端通过选择图像分类模型本地更新后的权重参数中部分权重参数组成上传向量，实现对权重参数的本地差分隐私扰动，中心服务器然后对上传向量进行聚合，实现对本地更新后的权重参数的全局更新，避免了现有技术频繁的加解密过程，降低了计算存储开销，在保证训练数据的隐私和安全以及分类精度的前提下，有效地提高了卷积神经网络模型训练效率。

第二：本发明本地客户端在对本地更新后的权重参数进行本地差分隐私扰动的过程中，可以通过选择不同大小的隐私预算，确定采集扰动输入值对应输出值的区间，能够实现对隐私保护程度的控制，适用于不同隐私保护需求场景的图像分类。

附图说明

图1为本发明的实现流程图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述：

参照图1，本发明包括如下步骤：

步骤1)构建联邦学习场景模型：

构建包括中心服务器和I个本地客户端L＝{L

步骤2)本地客户端获取训练样本集和测试样本集：

每个本地客户端L

在本实施例中，使用MNIST手写数字图像数据集，该数据集对应的标签是0-9的数字，令M＝10，MNIST数据集中包括60000个训练图像样本和10000个测试图像样本，每个图像样本是一个大小为28×28的灰度图像，将数据集分割为10部分，作为10个本地客户端进行本地训练，为每个本地客户端平均分配训练样本和测试样本。

步骤3)构建基于卷积神经网络的图像分类模型H：

在本实施例中，卷积层-ReLU层-池化层的层数为2，全连接层的层数为3，2个卷积层-ReLU层-池化层中卷积层卷积核的大小均为5，步长均为1，第一卷积层-ReLU层-池化层中卷积层的填充为2，卷积核个数设置为6，第二卷积层-ReLU层-池化层中卷积层的填充为0，卷积核个数设置为16。第一全连接层的的输入为400，输出为120，第二全连接层的输入为120，输出为84，第三全连接层的输入为84，输出为10。

步骤4)本地客户端L初始化参数：

本地客户端L初始化迭代次数为t，最大迭代次数为T，T≥50，当前基于卷积神经网络的图像分类模型为H

步骤5)本地客户端L对基于卷积神经网络的图像分类模型H的权重参数进行本地更新：

步骤5a)本地客户端L将从训练样本集中有放回且随机选取的c·N个训练样本作为当前基于卷积神经网络的图像分类模型H

在该步骤中，通过第一层卷积，获得6个28×28的特征图，然后进行池化减小特征维度，获得6个14×14的特征图，再进行第二层卷积与池化操作，最后通过三个全连接层对池化层进行分类，获得10个预测标签。

步骤5b)本地客户端L采用交叉熵损失函数，并通过每个预测标签

在该步骤中，本地客户端L计算图像分类模型H

其中α为学习率，0.001≤α≤1，ln表示以自然常数e为底的对数，

步骤6)本地客户端L对权重参数Δ

步骤6a)每个本地客户端L

在该步骤中，图像分类模型的权重参数包含k＝61706个取值，若全部上传，会带来高昂的计算和通信开销，研究表明，上传1％的权重参数值即可使模型得到很好的收敛且绝对值越大的参数值对模型训练影响越大。在对参数值扰动前，需要将参数值标准化到[-1,1]区间，这样可以减小扰动带来的误差。在本实施例中选择参数因子θ

步骤6b)每个本地客户端L

本地差分隐私保护的充分考虑了数据上传过程和中心服务器泄露本地数据的可能性，为本地数据提供可量化的隐私保护，其通过隐私预算ε调节所需隐私保护程度。ε越小，隐私保护程度越好，数据泄露概率越低。在本实施例中，令ε＝1。

在该步骤中，本地差分隐私要求一个扰动方法F，对任意两个输入值x

通过构建

步骤6c)本地客户端L将θ

在该步骤中，上传向量为

步骤7)中心服务器获取权值参数全局更新后的基于卷积神经网络的图像分类模型并发送：

中心服务器对上传向量

在该步骤中，聚合公式为

对于任意给定的输入值x

步骤8)中心服务器获取训练好的基于卷积神经网络的图像分类模型：

中心服务器判断t≥T是否成立，若是，得到训练好的基于卷积神经网络的图像分类模型H'，若否，令t＝t+1，

步骤9)本地客户端获取图像分类结果：

每个本地客户端L

在该步骤中，所有本地客户端得到的平均分类准确率为94％，分类准确率与现有方法相当。现有方法使用同态加密的流程主要包括密钥生成、同态加密、同态赋值以及同态解密。在基于卷积神经网络的图像分类模型训练过程中，由于存在大量权重参数值，加解密过程耗费大量计算资源，而本发明只需上传的每个权重参数值扰动一次即可，且计算的过程仅为简单的数值计算，又因为本发明不需要额外的辅助服务器，因此降低了计算存储开销。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于本地差分隐私的联邦学习图像分类方法 [P] . 中国专利： CN113850272A . 2021-12-28
2. 一种基于联邦学习的隐私保护图像分类方法 [P] . 中国专利： CN113642664A . 2021-11-12
3. REMOTE TESTING ANALYSIS FOR SOFTWARE OPTIMIZATION BASED ON CLIENT-SIDE LOCAL DIFFERENTIAL PRIVACY-BASED DATA [P] . 美国专利： US2019236306A1 . 2019-08-01

机译：基于客户端本地差分隐私数据的软件优化远程测试分析
4. REMOTE TESTING ANALYSIS FOR SOFTWARE OPTIMIZATION BASED ON CLIENT-SIDE LOCAL DIFFERENTIAL PRIVACY-BASED DATA [P] . 世界知识产权组织专利： WO2019152196A1 . 2019-08-08

机译：基于客户端本地差分隐私数据的软件优化远程测试分析
5. METHOD AND APPARATUS FOR CLASSIFICATION OF LESION BASED ON LEARNING DATA APPLYING ONE OR MORE AUGMENTATION METHODS IN LESION INFORMATION AUGMENTED PATCH OF MEDICAL IMAGE [P] . 美国专利： US2020335197A1 . 2020-10-22

机译：基于学习数据的病变分类方法和装置，该学习数据在医学图像的病变信息增强补丁中采用一种或多种增强方法