公开/公告号CN114841224A
专利类型发明专利
公开/公告日2022-08-02
原文格式PDF
申请/专利权人 新智数字科技有限公司;
申请/专利号CN202110046644.4
申请日2021-01-14
分类号G06K9/62(2022.01);G06N20/00(2019.01);G06F21/62(2013.01);
代理机构北京嘉科知识产权代理事务所(特殊普通合伙) 11687;
代理人杨波
地址 100020 北京市朝阳区望京东路1号摩托罗拉大厦10层
入库时间 2023-06-19 16:12:48
法律状态公告日
法律状态信息
法律状态
2022-08-19
实质审查的生效 IPC(主分类):G06K 9/62 专利申请号:2021100466444 申请日:20210114
实质审查的生效
2022-08-02
公开
发明专利申请公布
技术领域
本发明涉及计算机技术领域,具体为一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法。
背景技术
横向联邦学习,是联邦学习的一种分布式结构,旨在模型训练和推理过程中保护数据拥有方的数据隐私,其中各个分布式节点的数据特征相同,样本空间不同,聚类算法,是通过寻找一组原型向量刻画数据内部聚类结构的算法,聚类算法是机器学习中常见的无监督学习方法,对分析数据的内部特征和数据之间的关系非常有帮助,是数据挖掘和数据分析的常见方法,而学习向量量化,是一种聚类算法,假设数据样本带有类别标记,学习过程中利用样本的监督信息来辅助聚类,学习向量量化在获胜者通吃训练算法中,对于每个数据点,根据给定距离度量确定最接近输入的原型,然后调整这个所谓的获胜者原型的位置,即如果正确地对数据点进行分类则将获胜者移近或如果它不正确地对数据点进行分类则将其移开,学习向量量化为训练和分类选择适当的距离或相似性度量。
聚类分析是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法,以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性,聚类算法是一种重要的机器学习算法,可用于探索数据的内部聚类结构和特征,对数据挖掘和数据分析十分重要,目前横向联邦学习框架下缺少聚类算法的具体实现方法,导致利用联邦学习进行学习任务时,无法有效探索数据的内部结构,影响后续的数据挖掘和分析的效果,如果单独使用学习向量量化方法,在数据量较少的情况下,难以取得比较好的结果。
发明内容
本发明的目的在于提供一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法,以解决上述背景技术中提出的缺少聚类算法影响后续的数据挖掘和分析的效果,以及在数据量较少的情况下,难以取得比较好的结果的问题。
为实现上述目的,本发明提供如下技术方案:一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法,其步骤如下:
步骤一:参与方k拥有本地数据集
步骤二:协调方设定超参数:原型向量数q、学习率η、本地更新轮数s、收敛界限∈和最大轮数T;
步骤三:协调方初始化一组原型向量P
步骤四:协调方将超参数发送给各个参与方k;
步骤五:协调方将原型向量及其对应的类别标记发送给各个参与方k;
步骤六:每个参与方k并执行以下:
(a):初始化本地原型向量为协调方发送的最新原型向量P
(b):从本地样本集D
(c):通过计算公式一,计算样本
(d):找出与
(e):
(f):重复执行(b)-(e);
(g):将更新后的p
步骤七:当t满足条件二后,利用计算公式二,协调方根据参与方发送的信息更新原型向量p
步骤八:如果满足条件三,停止训练;否则,继续重复执行步骤五到步骤八;
进一步的,所述参与方k有K个,所述协调方有1个。
进一步的,所述协调方不拥有任何数据,协调方进行参与方学习过程中数据的聚合和交互。
进一步的,所述q为原型向量数、η为学习率、s为本地更新轮数、∈为收敛界限、T为最大轮数。
进一步的,所述步骤六中的计算公式一为d
进一步的,所述步骤六(e)中的满足条件一为
进一步的,所述步骤六(f)中重复执行(b)-(e)的次数为s次。
进一步的,所述步骤七中的t的满足条件二为t=t+1。
进一步的,所述步骤七中计算公式二为
进一步的,所述步骤八中的满足条件三为argmax
与现有技术相比,本发明的有益效果是:该横向联邦学习框架下的基于学习向量量化的联邦聚类方法,联邦学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模,联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,在此框架下通过设计虚拟模型解决不同数据拥有方在不交换数据的情况下进行协作的问题,通过横向联邦学习,在模型训练和推理过程中保护数据拥有方的数据隐私,且各参与方的特征空间形同,空间样本不同,结合多方的数据,大大增加了数据量,从而更好的学习数据的内在结构,优化聚类的效果,且在联邦学习中引入学习向量量化方法,也可以辅助横向联邦学习中多方数据分析和挖掘,在数据量较少的情况下,取得较好的结果,通过使数据样本带有类别标记,寻找一组原型向量刻画数据内部聚类结构,在学习过程中利用样本的监督信息来辅助聚类,效果更好,学习向量量化属于原型聚类,即试图找到一组原型向量来聚类,每个原型向量代表一个簇,将空间划分为若干个簇,从而对于任意的样本,可以将它划入到它距离最近的簇中,不同的是LVQ假设数据样本带有类别标记,因此可以利用这些类别标记来辅助聚类,由于数据不发生转移,因此不会泄露用户隐私或影响数据规范,为了保护数据隐私、满足合法合规的要求,它将数据存储在分布式的工作节点上,通过一个中心式的调度节点调配数据分布和分配计算资源,以便更高效的获得最终的训练模型。而对于联邦学习而言,首先在于横向联邦学习中的工作节点代表的是模型训练的数据拥有方,其对本地的数据具有完全的自治权限,可以自主决定何时加入联邦学习进行建模,相对地在参数服务器中,中心节点始终占据着主导地位,因此联邦学习面对的是一个更复杂的学习环境;其次,联邦学习则强调模型训练过程中对数据拥有方的数据隐私保护,是一种应对数据隐私保护的有效措施,能够更好地应对未来愈加严格的数据隐私和数据安全监管环境。
附图说明
图1为本发明协调方进行参与方学习过程中数据的聚合和交互示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
本发明公开了一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法,其步骤如下:
步骤一:参与方k拥有本地数据集
D
步骤二:协调方设定超参数:原型向量数q、学习率η、本地更新轮数s、收敛界限∈和最大轮数T;
q代表聚类数,即人们打算将样本聚成多少类,人工设定的int型数字;
η:学习率;
s:本地随机抽取样本次数,即本地原型向量更新次数;
T:全局模型(协调方)训练更新的最大次数;
步骤三:协调方初始化一组原型向量P
步骤四:协调方将超参数发送给各个参与方k;
步骤五:协调方将原型向量及其对应的类别标记发送给各个参与方k;
步骤六:每个参与方k并执行以下:
(a):初始化本地原型向量为协调方发送的最新原型向量P
(b):从本地样本集D
(c):通过计算公式一d
计算样本
p
(d):找出与
此时最近的原型向量分量分量为p
(e):
(f):重复执行(b)-(e)s次;
(g):将更新后的p
步骤七:当t满足条件二(t=t+1)后,利用计算公式二
协调方根据参与方发送的信息更新原型向量p
步骤八:如果满足条件三(argmax
实施例二:
本发明公开了一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法,其步骤如下:
步骤一:协调方设定超参数:原型向量数q、学习率η、本地更新轮数s、收敛界限∈和最大轮数T;
q代表聚类数,即人们打算将样本聚成多少类,人工设定的int型数字;
η:学习率;
s:本地随机抽取样本次数,即本地原型向量更新次数;
T:全局模型(协调方)训练更新的最大次数;
步骤二:参与方k拥有本地数据集
D
步骤三:协调方初始化一组原型向量P
步骤四:协调方将超参数发送给各个参与方k;
步骤五:协调方将原型向量及其对应的类别标记发送给各个参与方k;
步骤六:每个参与方k并执行以下:
(a):初始化本地原型向量为协调方发送的最新原型向量P
(b):从本地样本集D
(c):通过计算公式一d
计算样本
p
(d):找出与
(e):
(f):重复执行(b)-(e)s次;
(g):将更新后的p
步骤七:当t满足条件二(t=t+1)后,利用计算公式二
,协调方根据参与方发送的信息更新原型向量p
步骤八:如果满足条件三(argmax
实施例三:
本发明公开了一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法,其步骤如下:
步骤一:参与方k拥有本地数据集
D
步骤二:协调方设定超参数:原型向量数q、学习率η、本地更新轮数s、收敛界限∈和最大轮数T;
q代表聚类数,即人们打算将样本聚成多少类,人工设定的int型数字;
η:学习率;
s:本地随机抽取样本次数,即本地原型向量更新次数;
T:全局模型(协调方)训练更新的最大次数;
步骤三:协调方初始化一组原型向量P
步骤四:协调方将超参数发送给各个参与方k;
步骤五:协调方将原型向量及其对应的类别标记发送给各个参与方k;
步骤六:每个参与方k并执行以下:
(a):初始化本地原型向量为协调方发送的最新原型向量P
(b):从本地样本集D
(c):通过计算公式一d
计算样本
p
(d):找出与
(e):
(f):重复执行(b)-(e)s次;
(g):将更新后的p
步骤七:当t满足条件二(t=t+1)后,利用计算公式二
,协调方根据参与方发送的信息更新原型向量p
步骤八:如果满足条件三(argmax
实施例四:
本发明公开了一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法,其步骤如下:
步骤一:参与方k拥有本地数据集
D
步骤二:协调方设定超参数:原型向量数q、学习率η、本地更新轮数s、收敛界限∈和最大轮数T;
q代表聚类数,即人们打算将样本聚成多少类,人工设定的int型数字;
η:学习率;
s:本地随机抽取样本次数,即本地原型向量更新次数;
T:全局模型(协调方)训练更新的最大次数;
步骤三:协调方将超参数发送给各个参与方k;
步骤四:协调方初始化一组原型向量P
步骤五:协调方将原型向量及其对应的类别标记发送给各个参与方k;
步骤六:每个参与方k并执行以下:
(a):初始化本地原型向量为协调方发送的最新原型向量P
(b):从本地样本集D
(c):通过计算公式一d
计算样本
p
(d):找出与
(e):
(f):重复执行(b)-(e)s次;
(g):将更新后的p
步骤七:当t满足条件二(t=t+1)后,利用计算公式二
,协调方根据参与方发送的信息更新原型向量p
步骤八:如果满足条件三(argmax
实施例五:
本发明公开了一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法,其步骤如下:
步骤一:参与方k拥有本地数据集
D
步骤二:协调方设定超参数:原型向量数q、学习率η、本地更新轮数s、收敛界限∈和最大轮数T;
q代表聚类数,即人们打算将样本聚成多少类,人工设定的int型数字;
η:学习率;
s:本地随机抽取样本次数,即本地原型向量更新次数;
T:全局模型(协调方)训练更新的最大次数;
步骤三:协调方初始化一组原型向量P
步骤四:协调方将原型向量及其对应的类别标记发送给各个参与方k;
步骤五:协调方将超参数发送给各个参与方k;
步骤六:每个参与方k并执行以下:
(a):初始化本地原型向量为协调方发送的最新原型向量P
(b):从本地样本集D
(c):通过计算公式一d
计算样本
p
(d):找出与
(e):
(f):重复执行(b)-(e)s次;
(g):将更新后的p
步骤七:当t满足条件二(t=t+1)后,利用计算公式二
协调方根据参与方发送的信息更新原型向量p
步骤八:如果满足条件三(argmax
实施例六:
本发明公开了一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法,其步骤如下:
步骤一:协调方设定超参数:原型向量数q、学习率η、本地更新轮数s、收敛界限∈和最大轮数T;
q代表聚类数,即人们打算将样本聚成多少类,人工设定的int型数字;
η:学习率;
s:本地随机抽取样本次数,即本地原型向量更新次数;
T:全局模型(协调方)训练更新的最大次数;
步骤二:参与方k拥有本地数据集
D
步骤三:协调方初始化一组原型向量P
步骤四:协调方将原型向量及其对应的类别标记发送给各个参与方k;
步骤五:协调方将超参数发送给各个参与方k;
步骤六:每个参与方k并执行以下:
(a):初始化本地原型向量为协调方发送的最新原型向量P
(b):从本地样本集D
(c):通过计算公式一d
计算样本
p
(d):找出与
(e):
(f):重复执行(b)-(e)s次;
(g):将更新后的p
步骤七:当t满足条件二(t=t+1)后,利用计算公式二
协调方根据参与方发送的信息更新原型向量p
步骤八:如果满足条件三(argmax
实施例七:
本发明公开了一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法,其步骤如下:
步骤一:协调方设定超参数:原型向量数q、学习率η、本地更新轮数s、收敛界限∈和最大轮数T;
q代表聚类数,即人们打算将样本聚成多少类,人工设定的int型数字;
η:学习率;
s:本地随机抽取样本次数,即本地原型向量更新次数;
T:全局模型(协调方)训练更新的最大次数;
步骤二:参与方k拥有本地数据集
步骤三:协调方将超参数发送给各个参与方k;
步骤四:协调方初始化一组原型向量P
步骤五:协调方将原型向量及其对应的类别标记发送给各个参与方k;
步骤六:每个参与方k并执行以下:
(a):初始化本地原型向量为协调方发送的最新原型向量P
(b):从本地样本集D
(c):通过计算公式一d
计算样本
p
(d):找出与
(e):
(f):重复执行(b)-(e)s次;
(g):将更新后的p
步骤七:当t满足条件二(t=t+1)后,利用计算公式二
协调方根据参与方发送的信息更新原型向量p
步骤八:如果满足条件三(argmax
实施例八:
本发明公开了一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法,其步骤如下:
步骤一:协调方设定超参数:原型向量数q、学习率η、本地更新轮数s、收敛界限∈和最大轮数T;
步骤二:协调方将超参数发送给各个参与方k;
步骤三:参与方k拥有本地数据集
D
步骤四:协调方初始化一组原型向量P
步骤五:协调方将原型向量及其对应的类别标记发送给各个参与方k;
步骤六:每个参与方k并执行以下:
(a):初始化本地原型向量为协调方发送的最新原型向量P
(b):从本地样本集D
(c):通过计算公式一d
计算样本
p
(d):找出与
(e):
(f):重复执行(b)-(e)s次;
(g):将更新后的p
步骤七:当t满足条件二(t=t+1)后,利用计算公式二
协调方根据参与方发送的信息更新原型向量p
步骤八:如果满足条件三(argmax
实施例九:
本发明公开了一种横向联邦学习框架下的基于学习向量量化的联邦聚类方法,其步骤如下:
步骤一:协调方设定超参数:原型向量数q、学习率η、本地更新轮数s、收敛界限∈和最大轮数T;
q代表聚类数,即人们打算将样本聚成多少类,人工设定的int型数字;
η:学习率;
s:本地随机抽取样本次数,即本地原型向量更新次数;
T:全局模型(协调方)训练更新的最大次数;
步骤二:协调方将超参数发送给各个参与方k;
步骤三:协调方初始化一组原型向量P
步骤四:协调方将原型向量及其对应的类别标记发送给各个参与方k;
步骤五:参与方k拥有本地数据集
D
步骤六:每个参与方k并执行以下:
(a):初始化本地原型向量为协调方发送的最新原型向量P
(b):从本地样本集D
(c):通过计算公式一d
(d):找出与
(e):
(f):重复执行(b)-(e)s次;
(g):将更新后的p
步骤七:当t满足条件二(t=t+1)后,利用计算公式二
协调方根据参与方发送的信息更新原型向量p
步骤八:如果满足条件三(argmax
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
机译: 一种用于检测参与实体的财务犯罪行为的联邦学习系统和方法
机译: 一种用于检测参与实体的财务犯罪行为的联邦学习系统和方法
机译: 基于Aircomp的联邦学习的调度方法和装置