首页> 中国专利> 一种隐私保护的分布式纵向K-means聚类

一种隐私保护的分布式纵向K-means聚类

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种隐私保护的分布式纵向K‑means聚类，包括以下步骤：步骤1，选择其中一个节点M1作为发起方节点，M1生成Paillier公私钥，并将公钥分发给参与方M1,M2…Mn；步骤2，初始化聚类中心生成；步骤3，计算样本点到聚类中心的距离；步骤4，重新计算样本聚类中心；步骤5，重复步骤3,4直到相邻两次聚类中心的距离在合理范围内或者达到了指定的迭代次数。本发明采用完全去中心化的分布式模式，在减少通信次数的同时可以改善聚类效果，同时去中心化可以有效保护数据隐私。

著录项

公开/公告号CN112231760A

专利类型发明专利
公开/公告日2021-01-15

原文格式PDF
申请/专利权人天翼电子商务有限公司;
展开▼

申请/专利号CN202011312048.8
发明设计人喻博;史楠迪;徐潜;章庆;贺伟;严永峰;
展开▼

申请日2020-11-20
分类号G06F21/62(20130101);G06K9/62(20060101);
代理机构
代理人
地址 102200 北京市昌平区未来科技城南区中国电信集团公司院内
入库时间 2023-06-19 09:35:27

说明书

技术领域

本发明涉及一种隐私保护的聚类方法，特别涉及一种隐私保护的分布式纵向K-means聚类。

背景技术

在金融风控等及其他领域当中，多家不同的机构需要通过联合建模的方式对自己所拥有的用户群体进行分类分组，此时这些不同的机构用户群体基本相同，但是所拥有的用户属性大不相同，也就是通常所说的数据垂直分割。而由于监管的要求，数据拥有方不能将具体的有可能泄露用户隐私数据的属性分享给第三方机构，这时就需要使用隐私保护技术对这些用户群体进行分类。例如在传统的银行进行用户画像构建过程中需要将数据汇总到沙箱进行宽表建模，易泄露隐私数据且受合规审批制约，同时，受限合规顾虑或敏感性，无法充分获取外部数据源底层更丰富的特征维度数据。利用分布式纵向 K-means聚类有效突破银行内部和外部数据建模互通瓶颈以及合规性导致的数据开放受限问题，实现数据隔离、效果无损、参与方对等并共同获益的联合建模。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种隐私保护的分布式纵向K-means聚类，一种完全去中心化的分布式K-means聚类方法，在多方已经进行加密数据对齐的前提下，利用Paillier及随机数干扰的方法将节点计算的欧氏距离和传递到下一个节点，最后一个参与计算的节点再将汇总后的加密距离之和传递给负责汇总计算的节点进行比较和聚类中心划分，从而实现隐私数据的保护。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种隐私保护的分布式纵向K-means聚类，包括以下步骤：

步骤1，选择其中一个节点M

步骤2，初始化聚类中心生成：

a)方案1，随机初始化聚类中心：发起方节点M1随机选取K个样本ID，这些ID对应的样本作为该节点的样本中心，然后将这K个样本ID传给其他参与方M

b)方案2，使用K-means++优化初始化聚类中心：发起方节点M1随机选取1个样本ID作为第一个初始化聚类中心，这个ID对应的样本作为该节点的样本中心，然后将这个样本ID传给其他参与方M

步骤3，计算样本点到聚类中心的距离：发起方M

步骤4，重新计算样本聚类中心：针对步骤3中生成的聚类中心，每一个节点计算每个类中的样本均值作为自己节点新的聚类中心；

步骤5，重复步骤3,4直到相邻两次聚类中心的距离在合理范围内或者达到了指定的迭代次数。

与现有技术相比，本发明的有益效果如下：

本发明利用分布式纵向K-means的方案解决了在金融风控等及其他领域当中，多家不同的机构需要通过联合建模的方式对自己所拥有的用户群体进行分类分组，此时这些不同的机构用户群体基本相同，但是所拥有的用户属性大不相同，也就是通常所说的数据纵向分割。而由于监管的要求，数据拥有方不能将具体的有可能泄露用户隐私数据的属性分享给第三方机构，这时就需要使用隐私保护技术对这些用户群体进行分类；本发明采用完全去中心化的分布式模式，在减少通信次数的同时可以改善聚类效果，同时去中心化可以有效保护数据隐私。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的方案流程图；

图2是本发明的随机选取初始聚类中心示意图；

图3是本发明的k-means++优化选取初始聚类中心示意图；

图4是本发明方案的完整架构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

本发明如图1-4所示，本发明提供一种隐私保护的分布式纵向K-means 聚类，包括以下步骤：

步骤1，选择其中一个节点M

步骤2，初始化聚类中心生成：

a)方案1，随机初始化聚类中心：发起方节点M1随机选取K个样本ID，这些ID对应的样本作为该节点的样本中心，然后将这K个样本ID传给其他参与方M

步骤3，计算样本点到聚类中心的距离：发起方M

步骤4，重新计算样本聚类中心：针对步骤3中生成的聚类中心，每一个节点计算每个类中的样本均值作为自己节点新的聚类中心；

步骤5，重复步骤3,4直到相邻两次聚类中心的距离在合理范围内或者达到了指定的迭代次数。

具体的，最接近的专利申请：

一种基于K均值聚类的隐私信息保护方法，专利号：CN201910428240.4

由于以上发明主要是应用Client、Server模式，没有完全脱离中心化模型，因此本发明具有新颖性；

本发明与最接近对比文件的区别在于：

一种基于K均值聚类的隐私信息保护方法，专利号：CN201910428240.4

该方案多个客户端CUi进行数据加密，得到加密密文上传至云服务端；客户端CUi、云服务端CSP和辅助云服务端ACSP进行数据交互计算，得到重加密密钥；云服务端收到加密密文，进行重加密得到同一公钥的重加密密文，再将重加密密文转换为Paillier加密的密文；云服务端获得Paillier加密的密文后计算聚类；云服务端先将聚类结果的密文转换双向加法同态代理重加密的密文，再转换为客户端公钥下的密文，最后将聚类结果的密文返回给客户端进行解密。该方案实现了对不同公钥的密文进行聚类，将同一公钥下的聚类结果转换为不同公钥下的聚类结果返回给客户端，同时保护了客户端的私人数据和聚类中心的隐私。

1，该对比方案是通过将多个客户端数据加密再将加密结果上传到云端统一计算聚类，而本发明则不需要一个中心化的计算节点则可以完成聚类。

2，该对比方案没有对初始化聚类中心选择进行优化，而本发明则另外增加了了K-means++方法优化选择，改善了聚类效果。

本发明的应用实例1为电信用户精准营销场景。

在此应用场景中，中国电信侧拥有的是用户的通话及流量使用情况等通信数据，而这些数据并不能对用户群体做更精确的划分，倘若引入电商数据将会对电信的精准营销和推荐产生很大的收益，但是由于用户在诸如京东、淘宝的消费和浏览行为等数据是属于用户的隐私数据，在没有得到用户及监管机构的允许下是没法直接流向第三方机构，这时如果采用本发明所提出的纵向K-means聚类方法可以很方面地将第三方数据利用起来。这样集合了通信及多家平台的电商数据将电信用户进行分类分组，电信集团就可以根据做出的用户画像做精准推荐，减少营销成本。首先可以在电信侧部署一个节点作为发起方，在京东、淘宝、拼多多等多家电商平台部署其他两个及以上的节点作为参与方节点。首先进行用户ID(例如手机号)对齐操作；接着使用本发明的流程，如图4，Paillier公私钥在电信处生成并分发给其他几家电商平台，然后再进行如图所示的密文分享流程，最后生成用户的聚类结果，然后基于聚类结果对每一类中的用户推荐不同的流量及话费套餐。

本发明的应用实例2是风控领域黑产用户的发现。

物以类聚，人以群分，而且黑产想达到一定规模，肯定会借助作弊设备，脚本，机器等手段，机器的行为一般都有一些相似性，就可以利用这些相似性对用户进行聚类分析，所以除了规则的方法外，还可以用聚类的方法将具有相似行为的用户进行聚类，然后求出类簇的TOPN相似特征，查看是否可疑，比如设备是否相似，行为是否相似，基本信息，账号等是否相似。但是在金融领域仅仅使用一些借贷行为和用户的设备信息往往是不够的，同样可以结合其他不同类型的数据来找到相似的用户群体再做进一步的分析。例如翼支付在每年的5.25活动中会利用本平台大数据方法找到一些黑产用户，但是仍然会有大量的漏网之鱼，主要原因还是数据纬度不够丰富。这时候可以跟外面的数据平台进行合作，由于监管的需求他们的数据没法直接给到翼支付，这时候就可以借用本发明提出的方法进行隐私保护，。例如可以联系友盟和银联，让它们作为参与方节点提供所需的数据，翼支付作为发起方节点，利用三方的数据进行用户聚类，找到相似的用户群体，快速对黑产用户进行识别。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种隐私保护的分布式纵向K-means聚类 [P] . 中国专利： CN112231760A . 2021-01-15
2. 一种基于K-means的差分隐私保护聚类方法 [P] . 中国专利： CN112199722A . 2021-01-08
3. Occlusion/disocclusion detection using K-means clustering near object boundary with comparison of average motion of clusters to object and background motions [P] . 美国专利： USRE42790E . 2011-10-04

机译：使用K-means聚类在对象边界附近进行遮挡/遮挡检测，将聚类的平均运动与对象和背景运动进行比较
4. Occlusion/disocclusion detection using K-means clustering near object boundary with comparison of average motion of clusters to object and background motions [P] . 美国专利： US7142600B1 . 2006-11-28

机译：使用K-means聚类在对象边界附近进行遮挡/遮挡检测，将聚类的平均运动与对象和背景运动进行比较
5. COMPUTER-IMPLEMENTED METHOD FOR DETECTING FRAUDULENT TRANSACTIONS BY USING AN ENHANCED K-MEANS CLUSTERING ALGORITHM [P] . WO2021038327A1 . 2021-03-04

机译：通过使用增强的K-means聚类算法来检测欺诈性交易的计算机实现的方法