首页> 中国专利> 一种非线性回归的联邦建模方法

一种非线性回归的联邦建模方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明属于算法领域，具体公开了一种非线性回归的联邦建模方法。本发明提供的建模方法，去掉第三方节点，大大降低了系统的复杂性，并允许任何双方在没有可信协调器的帮助下训练联合模型；通过加密算法保护数据的隐私；通过纵向联邦建模丰富了模型的特征，提高模型准确性；通过非线性回归算法弥补了线性回归预测结果误差大的缺点；本模型不仅可以预测单个目标值，还可以通过建立一个模型预测多个目标值，不需要多个进程实现模型预测；对于特征的维数一定，根据统计特性，样本的有效个数为特征维数的一定倍数以内，在特征维数比较少的情况下，对样本个数进行压缩，降低了模型训练的时间。

著录项

公开/公告号CN113869532A

专利类型发明专利
公开/公告日2021-12-31

原文格式PDF
申请/专利权人神谱科技(上海)有限公司;
展开▼

申请/专利号CN202111148600.9
发明设计人孙银银;祝文伟;黄程韦;
展开▼

申请日2021-09-22
分类号G06N20/20(20190101);G06F21/60(20130101);G06F17/18(20060101);G06F17/16(20060101);
代理机构31298 上海诺衣知识产权代理事务所(普通合伙);
代理人衣然
地址 200001 上海市黄浦区北京东路666H区(东座)6楼H134室
入库时间 2023-06-19 13:29:16

说明书

技术领域

本发明涉及算法领域，具体为一种非线性回归的联邦建模方法。

背景技术

机器学习(Machine Learning，简称ML)是指用某些算法指导计算机利用已知数据自主构建合理的模型，并利用此模型对新的情境给出判断的过程，在网络搜索、在线广告、商品推荐、机械故障预测、保险定价、金融风险管理等各种应用中发挥着非常重要的作用。传统上，机器学习模型是在一个集中的数据语料库上训练的，这些数据可能是由单个或多个数据提供者收集的。虽然已经开发了并行分布式算法来加速训练过程，但是训练数据本身仍然集中收集和存储在一个数据中心。

2018年5月，欧盟通过General Data Protection Regulation(GDPR)法案把对隐私保护的要求提到了一个新的高度。除此以外，还有很多关于隐私数据的法律法规开始公布。因此，以前平台机构以任意方式进行数据共享受到挑战，也给机器学习的数据收集带来了严重的隐私问题。因为用于机器学习训练的数据通常是敏感的，可能来自具有不同隐私要求的多个所有者。这一严重的隐私问题限制了数据的实际数量。

同时数据源之间存在着难以打破的壁垒，一般情况下人工智能的所需要的数据会涉及多个领域，例如在基于人工智能的产品推荐服务中，产品销售方拥有产品的数据、用户购买商品的数据，但是没有用户购买能力和支付习惯的数据。在大多数行业中，数据是以孤岛的形式存在的，由于行业竞争、隐私安全、行政手续复杂等问题，即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力，在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的，或者说所需的成本是巨大的。

如何在满足数据隐私、安全和监管要求的前提下，设计一个机器学习框架，让人工智能系统能够更加高效、准确地共同使用各自的数据，是当前人工智能发展的一个重要课题。目前满足隐私保护和数据安全，解决数据孤岛问题的技术方案是联邦学习。

联邦学习过程中各方数据都保留在本地，不泄露隐私也不违反法规；多个参与者联合数据建立虚拟的共有模型,并且共同获益的体系；联邦学习的建模效果和将整个数据集放在一处建模的效果相同,或相差不大(在各个数据的用户对齐(user alignment)或特征(feature alignment)对齐的条件下)。

目前的联邦学习技术，仅仅针对特定的少量算法，如线性回归、逻辑回归、浅层神经网络、树模型等进行了设计，主要集中在金融领域的算法应用，在工业领域等更广泛的场景中，还存在大量的算法模型缺少研究，特别是具有较高应用价值的非线性回归模型，还缺乏安全联邦建模的实现。

发明内容

本发明的目的在于提供一种非线性回归的联邦建模方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种非线性回归的联邦建模方法，其特征在于，定义发起方为P1，合作方为P0，发起方的特征为Xi(i＝1,2,…,k)，最后一列X

S1、P1方和P0方求交，交集的个数为m，利用各自的交集部分数据，构建状态记忆矩阵D1、D0，D1＝[X

S2、计算矩阵D中两两特征之间的欧式距离E：

S3、P1计算矩阵D中两两特征之间的欧式距离的逆矩阵A：

S4、P1方输入观测特征值向量Xobs＝[X

S5、计算D

S6、P1方计算权重W＝(D

S7、P1方计算目标值X

进一步的，所述步骤S2包括如下具体步骤：

S2-1、P1方计算本地特征之间的欧式距离：

S2-2、P0方计算本地特征之间的欧式距离：

S2-3、P1方计算本地特征和合作方特征之间的欧式距离

进一步的，所述步骤S5包括如下具体步骤：

S5-1、P1方计算B＝D1

S5-2、P0方计算D0

S5-3、P1方解密E(Xi)

进一步的，所述步骤S7包括如下具体步骤：

S7-1、P1方计算预测值向量Xpred＝[X’

S7-2、计算P1方目标的预测值X’

进一步的，所述步骤S72包括如下具体步骤：

S7-2-1、如果其他特征的预测值在其统计范围内，并且X’

S7-2-2、如果其他特征的预测值在其统计范围内，X’

S7-2-3、如果其他特征的预测值在其统计范围内，X’

进一步的，在训练基于同态加密的非线性回归联邦模型时，需要保护P1的状态矩阵D1∈R

与现有技术相比，本发明的有益效果是：

本发明提供的建模方法，去掉第三方节点，大大降低了系统的复杂性，并允许任何双方在没有可信协调器的帮助下训练联合模型；通过加密算法保护数据的隐私；通过纵向联邦建模丰富了模型的特征，提高模型准确性；通过非线性回归算法弥补了线性回归预测结果误差大的缺点；本模型不仅可以预测单个目标值，还可以通过建立一个模型预测多个目标值，不需要多个进程实现模型预测；对于特征的维数一定，根据统计特性，样本的有效个数为特征维数的一定倍数以内，在特征维数比较少的情况下，对样本个数进行压缩，降低了模型训练的时间。

附图说明

图1为本发明的两方P1、P0基于非线性回归算法的安全联邦建模的总体流程图；

图2为本发明的P1方、P0方联合计算状态矩阵D

图3为本发明的P1方、P0方联合状态矩阵D

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供一种技术方案：一种非线性回归的联邦建模方法，其特征在于，定义发起方为P1，合作方为P0，发起方的特征为Xi(i＝1,2,…,k)，最后一列X