首页> 中国专利> 一种基于EMD距离融合多源异构数据的联邦学习方法

一种基于EMD距离融合多源异构数据的联邦学习方法

摘要

本发明公开了一种基于EMD距离融合多源异构数据的联邦学习方法,其中,联邦模型进行训练包括:各参与方对己方本地数据Xi进行预处理并分块;中心服务器选取要训练的联邦模型并初始化模型参数;参与方结合本地数据对模型进行训练;各参与方计算各方数据块相对于整体模型的EMD距离,中心服务器对各方数据块的EMD距离从小到大排序,去掉EMD距离超过K的数据块,发送剩下的数据块编号给对应的参与方;对进入下一轮迭代的参与方的数据重新划分数据块,重复执行步骤S3‑S4,直到结果收敛。本发明可以定量地测量多源异构数据的质量,在模型逐步优化的过程中去掉不够优质的数据,提高了联邦模型最后的效果。

著录项

  • 公开/公告号CN113139603A

    专利类型发明专利

  • 公开/公告日2021-07-20

    原文格式PDF

  • 申请/专利权人 广州大学;

    申请/专利号CN202110447846.X

  • 申请日2021-04-25

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06F21/62(20130101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人雷芬芬

  • 地址 510006 广东省广州市番禺区大学城外环西路230号

  • 入库时间 2023-06-19 11:54:11

说明书

技术领域

本发明涉及计算机科学与技术中人工智能技术领域,具体涉及一种基于EMD距离融合多源异构数据的联邦学习方法。

背景技术

数据是人工智能的三个要素之一。然而,由于商业竞争、法律法规限制、数据来源和形式不同等因素,互联网中海量的数据往往都以数据孤岛的形式存在。联邦学习(Federated Learning)是一种加密的分布式机器学习,是能够打通数据壁垒、保护数据隐私的新兴技术。谷歌公司在论文“Communication-Efficient Learning of Deep Networksfrom Decentralized Data”(Mcmahan H B,Moore E,Ramage D,et al.Communication-Efficient Learning of Deep Networks from Decentralized Data[A/OL].arXiv.org,2016)首次提出了联邦学习的概念,并联合了成百上千的安卓手机,对其手机输入法GBoard进行优化,大大提升了用户体验。联邦学习可以联合多个数据源的数据,减少决策中的片面性和不确定性,从而得到比仅仅使用单一来源的数据更加全面、更加客观、更加准确的决策。联邦学习是一种分布式的机器学习,使得数据可以在不出本地的前提下协同进行机器学习模型的训练和迭代,克服了数据流通不便的障碍,把不同来源的数据联合利用的同时能够保护数据隐私。因此,联邦学习是发挥大数据价值的一个新思路。

多源数据融合的概念起源于上世纪七十年代军事系统的多传感器数据融合技术。随后,Waltz E等人的著作《Multisensor Data Fusion》使得多源数据融合正式成为一个技术概念,我国也有《数据融合理论与应用》等理论著作。目前来说多源数据融合包括了数据来源不同(如不同的传感器、不同的用户等)、数据种类不同(如图片数据及对应的文字描述等)以及数据分布不同(各部分数据并非严格服从相同的统计学分布)等多种复杂情况。单一来源的数据往往不够全面,具有偏向性,单一种类的数据很难完整表达出现实情况。而多源异构数据融合可以有效地利用数据之间的互补性,减少决策过程中的感知误差,提高决策的科学性和准确性。多源异构数据融合分为数据级、特征级、决策级三个层面。

针对联邦学习中多源异构数据的情况,目前主要有两种解决思路,一种是改变模型结构,以适应多源异构数据的复杂情况;另一种主要在于处理数据,在联邦模型训练前先对数据进行一定的处理以提高数据的可用性。然而,第一种解决思路是通过修改现有人工智能模型结构,可以在一定程度上适应联邦学习数据多源异构的复杂情况,但对于现有模型的修改难度大、周期长,修改后的模型还要经过验证与证明在多源异构数据上会收敛,且这种修改往往针对现存异构数据的情况,难以适应多源异构数据变化大的需求;第二种解决思路多源异构数据由于自身分布不同等原因,即使经过处理也很难使得现有模型达到其在标准数据集如CIFAR-10、MNIST等的效果。

综上,行业内急需研发一种不用修改联邦学习中现有模型,给多源异构数据的质量评估提供参考标准,提升联邦模型效果的联邦学习方法。

发明内容

本发明的目的是为了克服以上现有技术存在的不足,提供了一种不用修改联邦学习中现有模型且能提升联邦模型效果的基于EMD距离融合多源异构数据的联邦学习方法。

本发明的目的通过以下的技术方案实现:

一种基于EMD距离融合多源异构数据的联邦学习方法,包括:基于EMD距离融合多源异构数据对联邦模型进行训练,联邦系统各参与方把训练好的联邦模型部署到自己的计算机系统中,用于具体的业务处理中;其中,基于EMD距离融合多源异构数据对联邦模型进行训练包括:

S1,联邦学习系统的各参与方按照预设规则对己方本地数据X

S2,确定中心服务器,中心服务器选取要训练的联邦模型并初始化模型参数,将联邦模型及其参数发送至各参与方;

S3,参与方利用接收到的模型及其参数,结合本地数据对模型进行训练,得到优化后的联邦整体模型;

S4,各参与方计算各方数据块

S5,对进入下一轮迭代的参与方的数据进行随机打乱顺序、重新划分数据块,重复执行步骤S3-S4,直到结果收敛,完成联邦模型的训练。

优选地,预设规则包括:统一的数据单位和维度、统一的数据体系和度量坐标。

优选地,步骤S3包括:参与方将每一轮己方模型的参数更新,并以块为单位将更新后的模型参数上传到中心服务器,中心服务器利用联邦平均算法FedAvg算出该轮迭代的整体模型参数,得到优化后的联邦整体模型。

优选地,确定中心服务器包括:除去各参与方的第三方服务器作为中心服务器或者各轮迭代中随机选取的参与方作为中心服务器。

优选地,步骤S1中的分块包括:各参与方以参与方中的最小数据量作为参考划分数据块,每一数据块大小相同。

本发明相对于现有技术具有如下优点:

本发明设计的方法给联邦学习融合多源异构数据提供了一个新的度量指标,可以定量地测量多源异构数据的质量,在模型逐步优化的过程中去掉不够优质的数据,提高了联邦模型最后的效果。本发明节省了现有方法中数据收集的消耗,使得训练数据集易于扩展和调整,进一步发掘了大数据的潜在价值,依靠联邦学习可以很好地保护数据隐私。因此,本发明设计的方法在保护数据隐私的前提下能更加全面、科学地使用数据,给数据隐私保护和数据价值发掘提供了一个思路和案例。具体地:

1、本发明能给联邦学习融合多源异构数据进行训练提供一个定量的度量;

2、本发明设计的方法提高了现有联邦学习方法在多源异构数据上的效果;

3、本发明设计的方法使得模型决策更加全面、客观,克服了现有方法中由于数据的偏向性导致的模型偏向性问题;

4、本发明设计的方法能对数据隐私进行保护,保证了数据安全;

5、本发明设计的方法可以适用于大规模分布式训练的应用场景之下;

6、本发明设计的方法使得训练的数据集更加容易扩展,在不增加模型复杂度的前提下提高了数据利用价值。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明的基于EMD距离融合多源异构数据的联邦学习方法的流程示意图。

图2为本发明的联邦学习系统的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

参见图1-2、一种基于EMD距离融合多源异构数据的联邦学习方法,其特征在于,包括:基于EMD距离融合多源异构数据对联邦模型进行训练,联邦系统各参与方把训练好的联邦模型部署到自己的计算机系统中,用于具体的业务处理中;其中,基于EMD距离融合多源异构数据对联邦模型进行训练包括:在联邦学习数据不出本地的前提下,各参与方的本地数据X

S1,联邦学习系统的各参与方按照预设规则对己方本地数据X

联邦学习各方(即参与到联邦学习建模活动的活动主体,可以是机构、公司或者个人等,后文统一称为参与方)数据不出本地,先对本地数据进行预处理。数据预处理是数据融合中不可或缺的一步,数据预处理的质量直接影响后续模型的效果。一个好的预处理结果不仅能够使融合的结果更加合理、准确,还能提高后续模型训练的速度和质量。由于数据不出本地,各方收集到的数据首先要在单位、维度等达成一致。因此,预处理时联邦学习各参与方应该协商好统一的数据单位和维度,建立统一的数据体系和度量坐标等。对于不同维度的数据可以用主成分分析法等进行降维,差异过大的数据可以进行Min-Max、z-score等归一化处理等。

S2,确定中心服务器,中心服务器选取要训练的联邦模型并初始化模型参数,将联邦模型及其参数发送至各参与方;

S3,参与方利用接收到的模型及其参数,结合本地数据对模型进行训练,得到优化后的联邦整体模型;步骤S3包括:参与方将每一轮己方模型的参数更新,并以块为单位将更新后的模型参数上传到中心服务器,中心服务器利用联邦平均算法FedAvg算出该轮迭代的整体模型参数,得到优化后的联邦整体模型。

联邦学习中各方数据不出本地,因此需要数据融合方法来协同地利用各方数据。按照所依照的理论,数据融合方法可大致分为基于估计方法、基于统计方法以及基于信息论方法。估计方法主要有加权平均数法、卡尔曼滤波法(Petrovic V S,Xydeas CS.Gradient-based multiresolution image fusion.IEEE Transactions on ImageProcessing,2004,13(2):228-237P)等线性估计技术以及高斯滤波等非线性技术;统计方法主要有贝叶斯推理、随机集理论(Goutsias J,Mahler R,Nguyen H T.Random Sets:Theory and Applications.New York:springer-Verlqg,1997)等。此外,神经网络、遗传算法等人工智能方法可以认为是决策级的数据融合。

S4,各参与方计算各方数据块X

一般来说,图像的特征很多,其分布可以用一组集群表示,其中每个集群均由其平均值以及属于该集群的分布百分比即权重来表示,这种表示称为图像特征分布的签名(signature)。设s是一个签名,m是某个特征,w是该特征的权重,则签名可以写作s=(m,w)。不同签名可以有大小不同,如表示简单分布的签名比表示复杂分布的签名要短。设

fij≥0,1≤i≤m,1≤j≤n (1)

其中式1约束流是从P流向Q而不是反过来。式4是尽可能地减少流动的距离。因此,两个不同分布P与Q的EMD距离为

实际应用中使用EMD距离时,不同情况使用方式可能不同,所选取的特征只需符合以上四个约束即可。

S5,对进入下一轮迭代的参与方的数据进行随机打乱顺序、重新划分数据块(划分方法与步骤S3的相同),重复执行步骤S3-S4,直到结果收敛,完成联邦模型的训练。

联邦学习系统中各参与方共同利用己方数据,协同训练一个更优的联邦整体模型。在迭代训练整个过程中,各参与方在借助可信的第三方服务器(也可从众多参与方中推选一个出来作为服务器)的协助下,利用中间参数进行每一轮的迭代、参数更新和评估。

在本实施例,以提高神经网络CNN模型对手写数字识别能力为例。

这里选取MNIST数据集作为训练数据,随机不均匀、划分MNIST作为多源异构数据级的模拟。预处理好数据后,选定一个各参与方都信任的服务器,或者各轮在各参与方随机选取一方作为可信的第三方。确定第三方作为中心服务器后,第三方搭建要训练的共同模型CNN并初始化参数,把CNN模型和参数发送给各参与方。参与方利用接收到的模型和参数,结合本地数据对模型进行训练,并把每一轮己方模型的参数更新以块为单位上传到中心服务器。中心服务器利用联邦平均算法FedAvg算出该轮的整体模型参数,并计算各方数据块

综上,本发明的基于EMD距离融合多源异构数据的联邦学习方法不需要修改联邦学习现有模型,仅对使用的多源数据进行处理,在联邦训练过程中逐步淘汰不良数据,去粗存精,发掘多源异构数据的潜在价值,提高联邦学习在多源异构数据上的效果。

上述具体实施方式为本发明的优选实施例,并不能对本发明进行限定,其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号