首页> 中国专利> 一种基于数据挖掘的企业用电量分析与预测方法

一种基于数据挖掘的企业用电量分析与预测方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种基于数据挖掘的企业用电量分析与预测方法，结合温度、湿度和节假日等多影响因素，对企业用电量进行分析与预测。本方法首先利用牛顿插值法、归一化法和PAA算法对数据集进行预处理；再次，利用谱聚类算法对数据集进行聚类，判断异常数据并修正，得到与温度、湿度、节假日等相关性高的企业用电量分组；最后，选用同类企业用电量数据和其相关性高的影响因素作为模型的预测输入，利用循环神经网络(RNN)得出预测值。本发明根据不同的企业用电量类型，结合其用电量影响因数，构建不同的预测模型，可达到模型预测精度高，具有数据预处理能力的效果。

著录项

公开/公告号CN108510006A

专利类型发明专利
公开/公告日2018-09-07

原文格式PDF
申请/专利权人重庆邮电大学;
展开▼

申请/专利号CN201810307309.3
发明设计人胡向东;郭佳;白银;李仁杰;韩恺敏;
展开▼

申请日2018-04-08
分类号G06K9/62(20060101);G06N3/04(20060101);G06Q10/04(20120101);G06Q50/06(20120101);
代理机构11275 北京同恒源知识产权代理有限公司;
代理人赵荣之
地址 400065 重庆市南岸区黄桷垭崇文路2号
入库时间 2023-06-19 06:27:06

法律信息

法律状态公告日

法律状态信息

法律状态
2020-06-09

授权

授权
2018-10-09

实质审查的生效 IPC(主分类):G06K9/62 申请日:20180408

实质审查的生效
2018-09-07

公开

公开

说明书

技术领域

本发明属于数据挖掘技术领域，具体涉及一种基于数据挖掘的企业用电量分析与预测方法。

背景技术

在社会经济发展中，电能起着至关重要的作用，各种研究和调查直接将电能消费与国家经济，技术和社会发展联系起来。一方面，电能需求呈指数级增长，可用资源正在以惊人的速度消耗；另一方面，电能还非常短缺，节能是基本需求。因此，应加强电能管理、优化电能使用，从而降低生产成本和环境危害，用电分析与预测是实现这一目标的重要手段。

目前，已开展了一些针对电力预测相关的研究工作，如基于人工神经网络的方法、基于支持向量机的方法等，但面对预测精度日益提高的需求已经无法满足电力管理部门的要求。传统的电力系统负荷预测只注重预测方法的研究，无法解决收集到的数据比较复杂、存在数据缺失、数据维度较大、数据差异大等问题，缺少了对数据预处理的关注。加之常用于负载预测的传统BP神经网络具有较好的非线性和自学能力，但具有易震荡、收敛速度慢、易陷入局部极小值、隐含层神经个数难以确定等缺点，很难满足需求。因此，研究寻求一种稳定，精度高的负载分析与预测技术是非常有意义的。

在传统的电力系统预测中，大部分只是单一的模型，无法对数据进行预处理，更无法提取数据最本质的特征，导致预测准确率较低。因此、本发明提出了一种能够取得高的准确率的企业用电量分析与预测方法。

发明内容

针对上述现有技术存在的问题，本发明的目的在于提供一种预测准确率高、收敛数度快的基于数据挖掘的企业用电量分析与预测方法。

为达到上述目的，本发明的基础方案为：

一种基于数据挖掘的企业用电量分析与预测方法，包括以下步骤：

S1：对企业用电量数据集进行预处理；

S2：利用聚类算法对数据预处理后的企业用电量数据集进行聚类；

S3：判断是否存在异常数据，若存在异常数据则对其进行修正处理；

S4：数据修正后，选取企业用电量样本集中时间序列的前80％数据为训练集，后20％数据为测试集；

S5：构建循环神经网络模型预测企业用电量；

S6：检验模型，若不满足要求，则返回步骤S2，对数据集重新聚类，以此反复，直到预测结果满足要求为止。

进一步，在所述步骤S1中，包括以下步骤：

S11：判断数据集是否有缺失值，若有，执行步骤S12，若没有，执行步骤S13；

S12：数据缺失值处理：利用牛顿差值法对数据缺失值进行填补，即利用企业在一段时间内的已知用电量做出特定函数，用所述特定函数获得这段时间内的数据缺失点，作为企业用电量的近似值；执行步骤S13；

S13：数据归一化处理：不同的数据量纲对数据分类结果会产生不同的影响，按照以下公式将数据归一化到[0,1]区间：

y＝(x-x_min)/(x_max-x_min)

其中，x为一条数据特征的原始值，x_min和x_max分别为该数据中的最小值和最大值，y为每条数据进行归一化处理以后的数据值；

S14：数据维度约简处理：利用PAA算法对企业用电量时间序列样本进行维度约简。

进一步，在所述步骤S2中，采用谱聚类算法结合影响因素对企业用电量进行聚类，所述影响因素包括温度、湿度和节假日；利用动态时间归整算法构造样本数据集的相似度矩阵w，求出对应的拉普拉斯矩阵L，计算L的特征值与特征向量，最后选择一个或多个特征向量对不同的数据点进行聚类。

进一步，在所述步骤S3中，利用聚类得出的各类数据特征曲线对数据集中的异常数据检测与修正：首先求出每类数据对应于各日期的企业用电量方差；然后利用方差逐步判断各类曲线中是否存在异常数据；

若存在异常数据，根据以下公式进行修正：

其中r为该类数据样本间的最大距离，x(i,p)为p时刻异常点对应的值，E(i,p)为p时刻特征曲线对应的值，x(i,p)'为修正后的异常数据值；

待所有数据检测与修正完后，利用谱聚类算法对修正曲线重新聚类；若不存在异常数据，直接进入企业用电量预测模型的搭建。

进一步，在所述步骤S5中，在所述步骤S5中，采用试凑法确定隐含层神经元个数，搭建三层循环神经网络模型，将企业用电量与其相关性高的影响因素作为输入结点，输出企业用电量的预测值；利用反向传播算法对循环神经网络进行训练，用梯度下降法来修正权值，其学习速率为0.01。

本发明的有益效果在于：与传统的聚类算法相比，利用谱聚类算法不仅不易陷入局部最优解，而且具有识别非凸分布的聚类能力，能够对任意形状的样本空间进行聚类，适合于许多实际应用问题；与传统的神经网络预测电力负荷相比，循环神经网络(RNN)具有动态特性与信息动态存储特性，可由更少的参数得到更准确的结果。本发明结合温度、湿度和节假日等多影响因素，利用谱聚类算法对数据预处理后的企业用电量进行聚类，根据聚类结果对异常数据进行检测与修正，最后使用循环神经网络对企业用电量进行预测。因此，本发明解决了传统电力负荷预测算法预测精度低，缺乏数据预处理能力的问题。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明所述方法的基本结构图；

图2为本发明所述数据异常值检测与修正方法结构图；

图3为本发明所述数据聚类算法示意图；

图4为本发明所述循环神经网络模型结构图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述：应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

参照图1所示的基本结构图，基于数据挖掘的企业用电量分析与预测方法。包括以下步骤：

101：数据预处理：对数据集进行数据缺失值填补、归一化和维度约简处理；

102：数据预处理后，利用聚类算法对数据预处理后的数据集进行聚类：采用谱聚类算法，结合温度、湿度、节假日等多影响因素，对企业用电量进行聚类，从而得到与影响因数关联性高的数据分组，便于数据的分析；

103：判断异常数据并修正：根据已聚类的数据，求出各类数据的特征曲线，利用特征曲线，求出每类数据对应于各天用电量方差，利用方差判断每类数据中是否存在异常数据，若存在异常数据，则利用特征曲线修正；

104：数据修正后，选取企业用电量样本集中时间序列的前80％数据为训练集，后20％数据为测试集；

105：构建循环神经网络模型(RNN)预测企业用电量：利用试凑法确定隐含层神经元个数，搭建三层循环神经网络模型，即一个输入层、一个隐含层、一个输出层。所有的初始权值取[-0.25,0.25]之间的随机数，利用反向传播算法(BPTT)以0.01的学习速率对循环神经网络进行训练，并对模型进行检测；

106：若预测模型满足要求则停止，若不满足要求，则返回步骤S2，对数据集重新聚类，以此反复，直到预测结果满足要求为止。

可选地，在步骤101数据预处理过程中，还可以包括以下步骤：

1011：判断数据集是否有缺失值，若有，执行步骤1012，若没有，执行步骤1013；

1012：利用牛顿(newton)差值法对数据缺失值进行填补，即利用企业在某区间中已知的若干日期的用电量，做出适当的特定函数，记为g(x)，在区间的其他时间点用这特定的函数值作为企业用电量的近似值；执行步骤1013；

1013：数据归一化处理：数据归一化处理是因为不同的数据量纲对数据分类结果会产生不同的影响，按照如下公式(1)将数据归一化到[0,1]区间；

y＝(x-x_min)/(x_max-x_min)(1)

其中，x为一条数据特征的原始值，x_min和x_max分别为该数据中的最小值和最大值，y为每条数据进行归一化处理以后的数据值；

1014：采用数据维度约简处理是因为所收集到的数据维度太大，直接运算比较困难，利用PAA对企业用电量时间序列样本进行维度约简，即用等宽度窗口分割时间序列，每个窗口内的时间序列用窗口平均值来表示，从而达到维度约简的目的。它的输入参数为分段数，记为K。

对数据进行预处理后，利用聚类算法对数据预处理后的企业用电量进行聚类，具体的，在步骤102中，采用谱聚类算法对企业用电量进行聚类，结合温度、湿度、节假日等数据，利用动态时间归整(DTW)算法构造样本数据集的相似度矩阵w，求出对应的拉普拉斯矩阵L，计算L的特征值与特征向量，最后选择一个或多个特征向量对不同的数据点进行聚类。其示意图参考图2所示。

在步骤103判断异常数据并修正中，参考图3所示，根据步骤102所得的聚类分组，求出每类的特征曲线，利用特征曲线求出每类对应于各日期的企业用电量方差；然后根据如下公式，利用方差逐步判断各类曲线中是否存在坏数据，

若存在异常数据，根据如下公式(2)进行修正；

其中r为该类数据样本间的最大距离，x(i,p)为p时刻异常点对应的值，E(i,p)为p时刻特征曲线对应的值，x(i,p)'为修正后的异常数据值。

待所有数据检测与修正完后，利用谱聚类算法对修正曲线重新聚类。若不存在异常数据，直接进入企业用电量预测模型训练。

在步骤105预测企业用电量的循环神经网络模型(RNN)的构建中，如图4所示，这是一个三层的循环神经网络，包含一个输入层、一个隐含层和一个输出层，输入层中有一个输入结点，隐含层含有n个神经元，输出层中有一个输出结点，并且输入和输出结点都跟隐含层全连接。图4中，h₁,h₂表示隐含层神经元，v表示输入结点，y表示输出结点，w₁₁,w₁₂,w₂₁,w₂₂表示隐含层神经元之间的权值，v₁₁，v₁₂表示输入结点与隐含层间的权值，m₁₂,m₂₁表示隐含层与输出层间的权值。隐含层的神经元传递函数为’tansig’，而输出层节点的传递函数为线性函数。所有的初始权值取[-0.25,0.25]之间的随机数，利用反向传播算法(BPTT)以0.01的学习速率对循环神经网络进行训练。

本发明适用于针对数据挖掘的企业用电量分析与预测，使用本发明所公开的电力分析与预测方法，由于基于数据挖掘，可先对数据集进行维度约简、缺失值填补、异常数据检测与修正等工作，有利于提高聚类与预测的精度；采用谱聚类算法避免了传统聚类算法易陷入局部最优解，且不具有识别非凸分布的聚类能力等问题，最后采用循环神经网络对企业用电量进行预测，可达到预测精度高，具有数据预处理能力的效果。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其做出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于数据挖掘的企业用电量分析与预测方法 [P] . 中国专利： CN108510006B . 2020.06.09
2. 一种基于银行交易流水企业上下游数据挖掘方法 [P] . 中国专利： CN114022283A . 2022-02-08
3. System and method to monitor datamining power usage [P] . 美国专利： US6631309B2 . 2003-10-07

机译：监控数据挖掘用电量的系统和方法
4. System and method to monitor datamining power usage [P] . 美国专利： US2002120369A1 . 2002-08-29

机译：监控数据挖掘用电量的系统和方法
5. Method for adjusting engine speed based on power usage of machine [P] . 美国专利： US8095280B2 . 2012-01-10

机译：一种基于机器用电量的发动机转速调节方法