首页> 中国专利> 一种基于云平台的局部加权线性回归预测运算的方法

一种基于云平台的局部加权线性回归预测运算的方法

摘要

本发明公开了一种基于云平台的局部加权线性回归预测运算的方法,运用映射简化计算框架对海量数据进行局部加权线性回归预测运算,步骤包括:确定带预测点,映射简化计算框架将待运算的数据点划分到多个节点储存在云平台上;各节点同时开始对划分到本节点上的待运算数据点进行运算,找到带运算数据点中距离符合第一阈值的数据点;对符合第一阈值的数据点中数据进行加权处理,利用加权处理后的数据值计算出回归系数,代入到回归方程,计算出的回归方程的解即为预测值。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-12-31

    授权

    授权

  • 2012-09-05

    专利申请权的转移 IPC(主分类):G06Q10/04 变更前: 变更后: 变更前: 变更后: 登记生效日:20120731 申请日:20111111

    专利申请权、专利权的转移

  • 2012-07-18

    实质审查的生效 IPC(主分类):G06Q10/04 申请日:20111111

    实质审查的生效

  • 2012-06-20

    公开

    公开

说明书

技术领域

本发明涉及云平台领域,特别涉及一种基于云平台的局部加权线性回归预 测运算的方法。

背景技术

在调查研究的基础上,对事物的未来进行科学的分析,研究其发展变化的 规律性叫做预测分析。实际生活中,某些现象的发展和变化取决于若干因素的 影响。基于这些影响因素的主次关系与变化规律等要素,将其进行统计、分析 和运算从而通过数学方法进行的实际预测,常用的方式就包括有线性回归算 法。

局部加权线性回归算法,简称LWLR算法,就是应用在预测分析中一种常 见的算法。该算法的主要思想是先去一定数量的局部数据,然后再通过这部分 局部数据集中拟合多项式回归曲线,由此观察得到数据在局部表现出来的规律 和趋势。不过该算法运算量非常巨大,特别是所运算的局部数据数目庞大的时 候,单机计算的时间可能达到几天甚至更长。

随着智能电网技术的建设和发展,LWLR算法也多在其中发挥作用。智能 电网旨在改造原有电网各环节,而实现更加环保、高效的现代化电力系统。同 时,智能电网的建设中,数据量也发生爆炸式的增长。传统的单机计算实现 LWLR算法的缺陷就在于,它对海量数据的处理能力已经远不能满足智能电网 中的实际需要。

发明内容

有鉴于此,本发明主要目的是提供一种基于云平台的局部加权线性回归 预测运算的方法,来解决大量数据运算过程中执行效率降低的问题。

本发明所述方法,具体技术方案如下:

一种基于云平台的局部加权线性回归预测运算的方法,其特征在于,所述 方法将局部加权线性回归预测运算构建在映射简化计算框架之下,该方法包括 以下步骤:

确定带预测点,映射简化计算框架将待运算的数据点划分到多个节点储存 在云平台上;

各节点同时开始对划分到本节点上的待运算数据点进行运算,采用临近算 法计算数据点与待测点的距离,找到带运算数据点中距离符合第一阈值的数据 点,第一阈值的范围预先设定;

将每个节点上找到的符合第一阈值的数据点集中,并对数据点中数据进行 加权处理,利用加权处理后的数据值计算出回归系数,代入到回归方程,计算 出的回归方程的解即为预测值。

所述映射简化计算框架将带运算数据点划分到节点具体为:

映射计算框架估算数据总量以及算法对系统内存的消耗量,计算出需划分 节点的个数。

优选的,所述将每个节点上找到的符合第一阈值的数据点集中进一步包 括:

将所有符合第一阈值的数据点集中以后,再从中进一步筛选出符合第二阈 值的数据点,第二阈值的范围预先设定。

所述对数据点进行加权处理具体为:

利用混合高斯模型计算各数据点的权重。

其特征在于,所述计算数据点与待测点的距离具体为:

将数据点与待测点数据分成用户ID、时间、温度和天气四个维度,分别 计算数据点与待测点四个维度的距离,在计算四个维度距离的和,即为数据点 与待测点的距离。

所述对用户ID信息数据距离的计算具体为:

数据点与待测点相同ID信息距离为0,不同ID信息距离为无穷大。

所述对时间信息数据距离的计算具体为:

以预定时长为单位的时间数据,制定周期环形模式计算距离,取数据点与 待测点时间数据在周期环上最近的距离。

所述预定时长为月、星期、日或小时,并设定月周期环周长为30,星期 周期环周长为7,日周期环周长为24,小时周期环周长为60。

所述对时间温度数据距离的计算具体为:

数据点与待测点温度数值间差值即为数据距离。

所述对天气信息数据距离的计算具体为:

将天气信息划分为有雨和无雨两种情况,设定有雨距离为1,无雨距离为 0。

通过以上技术方案可知,本发明存在的有益效果为,通过映射简化计算框 架将大量数据分成若干节点同时进行局部加权线性回归预测运算,从而成倍数 缩短了计算时间,实现了高效处理海量数据,满足了目前阶段业务需要。

附图说明

图1:局部加权线性回归预测运算主要步骤流程图。

图2:MapReduce计算框架之下局部加权线性回归预测运算的方法具体实 施例流程图。

具体实施方式

本发明提供一种基于云平台的局部加权线性回归预测运算的方法,即基于 云平台实现LWLR预测算法的方法。通过将LWLR算法构建在云平台的映射计算 框架中,利用映射简化计算框架将海量数据划分节点并行运算,从而提高效率。 映射简化计算框架即MapReduce计算框架。

下面将结合附图对本发明的技术方案进行完整描述。而所描述的实施例仅 仅是本发明中部分实施例。基于本发明中的实施例,本领域普通技术人员在没 有经过创造性劳动情况下得出的其他实施方式,同样属于本发明保护的范围。

本发明所述方法为:

确定待测点,MapReduce计算框架将待运算的数据点划分到多个节点储存 在云平台上,各节点同时对划分到本节点的数据点进行运算,利用邻近算法 (k-Nearest Neighbor)即KNN算法在各节点中找出待测点附近的数据点,假 设找到的数据点个数为K个;

KNN算法找出待测点附近数据点的过程,占用了整个过程中绝大部分的计 算量。在目前达到1TB级别数据为特征空间的前提下,待预测点需要与特征空 间中的每个数据点点计算距离,找到与待预测点距离最小的K个点,所以计算 量十分巨大。

在Map阶段,MapReduce计算框架根据算法对系统内存的消耗量,确定并 行节点的划分数量。例如:MapReduce计算框架将1TB的数据分成10块,每 块100GB,分别存储在云平台的10个节点上,Map阶段实现计算待预测点与每 个数据块中的所有的点最近的K个点,而各个节点的计算同时进行,所以通过 这一过程使得计算速度提高了10倍。

在Reduce阶段,将Map阶段得出的每个节点得出的K个邻近数据点的数 据集合起来,再进一步筛选,得出全部数据当中与待测点距离最近的K个数据 点。

之后对找到的K个数据点做加权处理,根据数据点到待测点的距离,计算 每个数据点的权重,在具体实施例中采用混合高斯模型计算权重;

对加权后的数据点,计算回归系数,将得出的回归系数代入回归方程,最 终通过回归方程得出的值即为LWLR算法中预测的待测点数据。参照图1所示。

上述数据点与待测点的数据包含四个维度,分别是用户ID、时间、温度 和天气。分别计算二者之间四个维度上的距离,再对四个距离求和即为数据点 与待测点的距离。

对于四个维度上距离的计算,有以下处理规则:

对用户ID编号的处理为,待测点与数据点相同的用户ID编号距离为0, 不同的用户ID编号距离为无穷大;

对时间的处理为,针对一年十二个月,一星期七天,一天24小时等循环 周期性时间单位,做环形处理,例如,月份环设定1-12供12个点,星期环设 1-7供7个点,单日环设0-23供24个点,待测点与数据点时间距离即为环上 两点间的最近距离;

数据点与待测点温度数值间差值即为数据距离;

将天气信息划分为有雨和无雨两种情况,设定有雨距离为1,无雨距离为 0。

参照图2,假设将所有数据点划分到10个节点上,如利用时间、温度以 及以用户往用电量信息等数据,通过上述方法预测得出未来某一时间某范围内 用户的用电量,其过程为:

1、Map阶段,将数据划分节点,各节点同时开始计算,在各个节点内 分别找到与M距离最近的K个邻近点,距离的计算方式为 D=D1+D2+D3+D4,其中D为总距离,D1,D2,D3,D4分别为用户ID、 时间、温度,天气这四个分量之间的距离。D1的计算方式为若两个 数据点的用户ID相同则D1=0,否则D1为无穷大;

D2=dd1+dd2+dd3+dd4,其中dd1,dd2,dd3,dd4分别为年份、月份、 日、小时,dd1为年份之差,dd2,dd 3,dd4都是按照上述圆环模式 来计算距离,环的周长分别为12,30,24;D3按照数值方式进行计 算距离;D4把天气的有雨、无雨两个值分别对应1和0,然后计 算距离;

2、Reduce阶段,将各个Map阶段获得K个邻近数据点与M之间的距 离进行比较,取它们中间最小的K个,并记录最小距离对应的K 个数据点;

3、使用混合高斯模型计算K个数据点各自的权重,计算回归系数, 代入回归方程,回归方程为y=a0+a1x1+a2x2+a 3x3+a4x4,其中x1、 x2、x3和x4为用户ID、时间、温度、天气四个因素转换成距离 之后的初始数值,a 0、a 1、a 2、a 3与a4为计算得出的回归系数, 求出y即预测结果,即用户在未来时间的用电量。

综上所述,本发明提供了一种基于云平台的局部加权线性回归预测运算的 方法。本发明的特点在于,通过MapReduce计算框架,将LWLR算法中计算量 最大的部分划分为多个节点并行计算,提高运算效率,缩短计算时间,以满足 目前阶段的业务需求。

以上所述仅是本发明的优选实施方案,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应该视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号