首页> 中国专利> 一种基于随机梯度下降算法的K均值大规模数据聚类方法

一种基于随机梯度下降算法的K均值大规模数据聚类方法

摘要

本发明提供一种基于随机梯度下降算法的K均值大规模数据聚类方法,包括以下步骤:随机初始化K个聚类中心;采样数据样本,并将该数据样本划分到所属类型;对目标函数进行迭代;重复步骤1-3,使得聚类中心收敛。本发明提供的基于随机梯度下降算法的K均值大规模数据聚类方法,大大提高了算法的执行效率,达到了更好的聚类效果。能够更加快速有效的对数据进行挖掘,该方法的提出为处理电力大数据以及其它数据问题提供了一种可能。

著录项

  • 公开/公告号CN104598565A

    专利类型发明专利

  • 公开/公告日2015-05-06

    原文格式PDF

  • 申请/专利权人 国家电网公司;中国电力科学研究院;

    申请/专利号CN201510011974.4

  • 申请日2015-01-09

  • 分类号G06F17/30(20060101);

  • 代理机构11271 北京安博达知识产权代理有限公司;

  • 代理人徐国文

  • 地址 100031 北京市西城区西长安街86号

  • 入库时间 2023-12-18 08:40:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-14

    授权

    授权

  • 2016-08-03

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20150109

    著录事项变更

  • 2016-05-18

    专利申请权的转移 IPC(主分类):G06F17/30 登记生效日:20160425 变更前: 变更后: 申请日:20150109

    专利申请权、专利权的转移

  • 2016-01-20

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150109

    实质审查的生效

  • 2015-05-06

    公开

    公开

说明书

技术领域

本发明涉及一种聚类方法,具体涉及一种基于随机梯度下降算法的K均值大规模数据聚 类方法。

背景技术

近年来随着数据收集手段和能力的提升,个人、特别是企业可以获取的数据量急剧增加。 例如,国家电网公司在SG186工程建成之后,八大业务应用平均日增数据记录达5000余万 条(144G);而随着智能电网和SG-ERP的建设,公司的数据增长速度还会再翻几番。超大 规模复合型信息存储、备份与容灾都将成为重要的技术领域,数据中心与容灾中心的建设效 果将直接影响到企业整体业务的连续性。如何通过强大的算法,充分利用电力生产控制和企 业经营中产生的历史数据、实时数据、预测数据以及不同地域空间、层级的数据,更迅速地 完成数据的价值“提纯”,是电力大数据亟待解决的难题。

企业数据来源广泛,规模日益增长。从某种意义上讲,对公司来说有价值的信息所占的 比重正在下降,如何从海量的信息中找到有用的信息正在变得越来越困难。对数据进行有效、 充分地整理和分析,减少或压缩无价值的数据,提高有效数据的利用价值,可缩小数据存储 规模、降低数据分析占用的计算资源,从而直接引导企业信息资产优化。

随着计算机技术和存储设备的快速发展,人们能够轻易地获取数以万计甚至百万计的数 据。如何从这些数据中分析出对我们有用的或者感兴趣的信息,成为当前迫切需要解决的问 题。传统的K均值聚类算法是数据挖掘领域使用的比较多的方法,首先随机初始化K个聚类 中心,然后根据每个样本到聚类中心的距离将所有的样本分成K个不同的类型,最后用每一 类中所有样本的平均值来更新聚类中心,整个过程不断迭代,直到收敛。显然,每次迭代时 需要计算所有样本到K个聚类中心的距离,当面对大规模数据时,其计算过程需要花费大量 的时间,大大降低了算法的执行效率。

目前,大数据的处理流程一般可以概括为四步:数据采集、导入及预处理、统计与分析、 挖掘及决策支持。其中,挖掘与决策支持主要是在现有数据上面进行基于各种算法的计算, 从而起到预测和决策支持的效果,以此来实现一些高级别数据分析的需求,比较典型的有用 于聚类的K均值聚类算法。然而,传统的数据挖掘技术面临的最大问题就是实时性差,需要 花费大量的时间来对数据进行处理。对于实时变化的数据来说,很难及时获取有用的信息, 从而影响企业的决策。

发明内容

为了克服上述现有技术的不足,本发明提供一种基于随机梯度下降算法的K均值大规模 数据聚类方法,大大提高了算法的执行效率,达到了更好的聚类效果。能够更加快速有效的 对数据进行挖掘,该方法的提出为处理电力大数据以及其它数据问题提供了一种可能。

为了实现上述发明目的,本发明采取如下技术方案:

本发明提供一种基于随机梯度下降算法的K均值大规模数据聚类方法,所述方法包括以 下步骤:

步骤1:随机初始化K个聚类中心;

步骤2:采样数据样本,并将该数据样本划分到所属类型;

步骤3:对目标函数进行迭代;

步骤4:重复步骤1-3,直到聚类中心收敛。

所述步骤1中,对于需要处理的K类数据集,随机初始化K个聚类中心 w1,w2,…,wk,…,wK∈Rd,其中,R表示实数,d表示维度,于是Rd表示d维实数,wk表示 第k类数据集对应的聚类中心。

所述步骤1中,将每个聚类中心中数据样本的个数n1,n2,…,nk,…,nK∈N初始化为0,其 中N表示整数,nk表示第k类数据集对应的数据样本个数。

所述步骤2中,随机采样数据样本z∈Rd,并根据最小距离对应的聚类中心将数据样本z 划分到所属类型。

最小距离对应的聚类中心中数据集的代号用k*表示,有:

k*=argmink(z-wk)2

其中,(z-wk)2表示数据样本z到wk的距离。

所述步骤3具体包括以下步骤:

步骤3-1:设目标函数为Qkmeans,有:

Qkmeans=mink12(z-wk)2

Qkmeans关于的导数用表示,有:

wk*Qkmeans=Qkmeanswk*=-(z-wk*)=wk*-z

其中,为第k*类数据集对应的聚类中心;

步骤3-2:设表示第k*类数据集对应的数据样本个数,采用Qkmeans和 分别更新和

所述步骤4中,重复执行步骤1-3,若满足前后两次迭代的聚类中心距离阈值小于10-6, 则表明聚类中心w1,w2,…,wk,…,wK收敛。

与现有技术相比,本发明的有益效果在于:

本发明提供的基于随机梯度下降算法的K均值大规模数据聚类方法大大降低了算法的计 算复杂度,能够更加快速的达到收敛,并且还能够获得更好的聚类效果。由于每次迭代时都 是随机的选取样本,而不需要考虑之前样本的情况,因此本质上随机梯度下降算法是一个期 望风险最小化的过程。该方法的提出为处理电力大数据以及其它数据问题提供了一种可能。

附图说明

图1是本发明实施例中随机梯度下降算法的原理图;

图2是本发明实施例中原始数据的分布图;

图3是现有技术中的K均值聚类方法的聚类结果图;

图4是本发明实施例中基于随机梯度下降算法的K均值聚类结果图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

实施例

首先随机生成两个“月儿”形的样本族,分别用三角形和圆点表示,如图2所示。数据由 两个维度的特征组成,每类数据包含200000个样本,总共有400000个数据,属于大数据处 理问题,为了显示的方便,选择部分数据进行作图。本实施例所做实验的计算机配置为:64 位的操作系统、16GB的内存、英特尔处理器,软件运行环境为MATLAB R2012a版本。具体 过程如下:

a)随机初始化2个聚类中心w1,w2∈R2,每类样本的个数n1,n2∈N初始化为0;

b)随机采样一个数据样本z∈R2,根据公式将其划分到相应的类 型;

c)对目标函数Qkmeans=mink=1,212(z-wk)2关于求其导数

d)更新和:

e)步骤b)到d)不断重复,直到聚类中心w1,w2收敛。

图3是经典的K均值聚类算法在经过3次迭代时得到的结果图,总共耗时32秒,而图4 是基于梯度下降算法的K均值聚类算法在耗时17秒时得到的结果,经过了500次迭代,“x” 型圆圈表示两个聚类中心。由图可知,两幅图的聚类中心几乎一致。量化的结果中,经典的 K均值聚类需要花费32秒,而基于随机梯度下降算法的k均值聚类只需要花费17秒,准确 率达到了78.41%,略微高于经典的k均值聚类的78.1%。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域 的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换, 这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求 保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号