首页> 中国专利> 一种基于Stacking模型融合的楼宇用电量预测方法和系统

一种基于Stacking模型融合的楼宇用电量预测方法和系统

摘要

本发明公开了一种基于Stacking模型融合的楼宇用电量预测方法和系统,属于楼宇用电量预测领域。本发明采用Stacking模型融合算法集成多种回归模型,构建用电量Stacking集成模型,集成了多种模型的优势,减少了预测偏差;针对用电量不稳的楼宇,利用了历史用电量、温度、风力、湿度、时间信息等多种影响因素,训练用电量Stacking集成模型,提高了预测的精准度,有利于楼宇的管理者对大楼能耗进行有效的管控,避免出现耗电量与预估电量相差太大的情况,在参与电力市场交易时合理预估和购买,使楼宇管理者有效控制电费支出,同时也便于电力部门或售电公司的售电安排,既能达到节能减排的效果,又有良好的社会效益和经济效益。

著录项

  • 公开/公告号CN112465256A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN202011443441.0

  • 发明设计人 陈长清;张天安;张小野;

    申请日2020-12-08

  • 分类号G06Q10/04(20120101);G06Q50/06(20120101);G06N20/10(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构42201 华中科技大学专利中心;

  • 代理人李智

  • 地址 430074 湖北省武汉市洪山区珞喻路1037号

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明属于楼宇用电量预测领域,更具体地,涉及基于Stacking模型融合的楼宇用电量预测方法和系统。

背景技术

楼宇月度用电量预测属于时间序列预测类型。时间序列是一组依赖于时间的随机变量,这组变量之间具有依存关系,相关特性表明了预测对象发展的延续性。将其中所蕴含的自相关特性用数学模型描述出来,就可以利用时间序列的过去值和现在值预测未来的值。

楼宇月度用电量预测现有技术中,预测手段大多采用多变量的回归手段进行预测,通过对当地的居民量与生活水平进行多变量的建模,使得预测的残差和最小而得到一个模型。或者使用SVM算法进行一定的逼近,将预测的影响因子投射到不同的维度之上,从而可以预测较之多变量回归更加不稳定的月度用电量系统。也有通过时间序列的自回归滑动平均模型(ARMA),由于ARMA模型只关注时间序列带来的本身的影响,忽略了许多干扰因子而限制了实际月度用电量预测中的有效性,比如气温、天气、是否属于节假日等。

这些方法各有各的优点,也各有各的缺陷,总体来说这些方法对历史数据准确性要求较高,在耗电稳定的区域预测效果较好,但是在外源性因素(天气变化、节假日)作用之下,存在较大的预测误差。

以写字楼为例,写字楼电力系统是一个复杂的实时动态系统,复杂多变的影响因素使得写字楼电力系统在运行过程中的稳定性和安全性大大降低。同时,写字楼的用电不同于普通居民用电,它受到季节、温度、节假日和外界环境等多种因素的影响,比如在季节交替时,用电量会出现较大幅度波动,这主要是因为冬季存在供暖需求,而夏季则存在供冷需求;再比如室内空间的大小,活动人员的多少会影响室内温度;写字楼设备随着时间的推移存在损耗等。因此,写字楼电力系统,受到季节、节假日、办公楼人数、设备损耗等多种因素影响,电力系统月度用电量并不完全趋于稳定,所以使用传统的单个模型来进行用电量预测无法结合多种模型的优点,并且预测结果与实际用电量存在较大偏差,不能让模型具有较强的泛化能力。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于Stacking模型融合的楼宇用电量预测方法和系统,其目的在于解决现有方法针对电力使用状态不稳定情况下的楼宇用电量预测,存在较大预测误差的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种基于Stacking模型融合的楼宇用电量预测方法,包括:

S1.收集待预测楼宇历史时段的温度、风力、湿度和时间信息,以及对应时段的用电量数据,作为训练集;

S2.构建用电量Stacking集成模型;所述用电量Stacking集成模型采用Stacking模型融合算法集成多种回归模型得到,包括第一层和第二层;其中,第一层中各个模型根据输入的温度、风力、湿度和时间信息,得到初始用电量预测值;第二层对第一层输出的初始用电量预测值进行修正,得到最终的用电量预测值;

S3.以待预测楼宇历史时段的温度、风力、湿度和时间信息作为输入,以对应时段的用电量数据作为期望输出,对用电量Stacking集成模型进行训练;

S4.将待预测的未来月度对应的温度、风力、湿度和时间信息输入训练好的用电量Stacking集成模型,得到对应月度的用电量预测结果。

进一步地,在对用电量Stacking集成模型进行训练之前,所述方法还包括,对训练集进行以下预处理:填补缺失数据;剔除异常和重复数据;提取最低温度、最高温度;提取时间特征;对各类数据进行无量纲处理。

进一步地,所述时间特征包括星期、周数、小时、季节和节假日信息。

进一步地,所述用电量Stacking集成模型第一层包括随机森林、KNN、LSTM、LightGBM。

进一步地,所述用电量Stacking集成模型第二层采用支持向量机回归模型。

按照本发明的另一方面提供了一种基于Stacking模型融合的楼宇用电量预测系统,包括:

数据集收集模块,用于收集待预测楼宇历史时段的温度、风力、湿度和时间信息,以及对应时段的用电量数据,作为训练集;

模型构建模块,用于构建用电量Stacking集成模型;所述用电量Stacking集成模型采用Stacking模型融合算法集成多种回归模型得到,包括第一层和第二层;其中,第一层中各个模型根据输入的温度、风力、湿度和时间信息,得到初始用电量预测值;第二层对第一层输出的初始用电量预测值进行修正,得到最终的用电量预测值;

训练模块,用于以待预测楼宇历史时段的温度、风力、湿度和时间信息作为输入,以对应时段的用电量数据作为期望输出,对用电量Stacking集成模型进行训练;

预测模块,用于将待预测的未来月度对应的温度、风力、湿度和时间信息输入训练好的用电量Stacking集成模型,得到对应月度的用电量预测结果。

进一步地,所述用电量Stacking集成模型第一层包括随机森林、KNN、LSTM、LightGBM。

进一步地,所述用电量Stacking集成模型第二层采用支持向量机回归模型。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。

(1)本发明采用Stacking模型融合算法集成多种回归模型,构建用电量Stacking集成模型,集成了多种模型的优势,减少了预测偏差;且针对用电量不稳的楼宇(如写字楼,商场,学校等大型商业用电设施),利用了历史用电量、温度、节假日、季节信息等多种影响因素,训练用电量Stacking集成模型,通过预测每日用电量从而得到月度用电量,缩短预测周期,提高了预测的精准度。

(2)本发明能够对楼宇月度用电量与预估电量实施精准预测,更有利于楼宇的管理者对大楼能耗进行有效的管控,避免出现耗电量与预估电量相差太大的情况,在参与电力市场交易时合理预估和购买,使楼宇管理者有效控制电费支出,同时也便于电力部门或售电公司的售电安排,既能达到节能减排的效果,又有良好的社会效益和经济效益。

附图说明

图1为本发明提供的网络爬虫原理图;

图2为本发明提供的数据预处理过程图;

图3为本发明提供的用电量Stacking集成模型原理图;

图4为本发明提供的用电量Stacking集成模型训练的具体流程图;

图5为本发明提供的随机森林模型原理图;

图6为本发明提供的KNN模型原理图;

图7为本发明提供的LSTM循环模块结构图;

图8为本发明提供的GBDT模型原理图;

图9为本发明方法提供的用电量预测过程图;

图10为某写字楼月度用电量预测结果与真实数据比较图;

图11为某写字楼月度用电量预测模型指标对比柱状图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的一种基于Stacking模型融合的楼宇用电量预测方法,包括以下步骤:

S1.收集待预测楼宇历史时段的温度、风力、湿度和时间信息,以及对应时段的用电量数据;

由于已知气温会对用电量产生较大的影响,所以需要使用网络爬虫爬取楼宇当地的天气数据,和现有的用电量数据一起作为数据集供后续模型训练使用,总体来说需要爬取的天气数据有最高温、最低温、风力、湿度,网络爬虫原理如图1所示。

由于原始数据集存在很多问题,需要预先进行处理,预处理的步骤主要包括合并用电量数据和爬虫爬取的天气数据、划分时间特征、填充缺失数据、异常值的检测与剔除和无量纲化。如图2,具体的各部分的操作过程如下:合并用电量数据和天气数据,将用电量数据和天气数据按照时间进行合并;划分时间特征,将一般的日期时间划分为星期数、周数、月份、季节、节假日等特征。季节信息包括春、夏、秋、冬,节假日信息包括周末、3天及以上的假期、7天及以上的假期和春节假期;填充缺失数据,采用随机森林回归填充缺失值;异常值的检测与剔除,绘制箱型图检测数据集的噪声并直接剔除;无量纲化,使用sklearn的MinMaxScalaer对特征进行归一化。

下面是预处理前和预处理后的部分数据。

表1预处理前的部分数据

表2预处理后的部分数据

表1是本实验通过爬虫收集合并后的原始数据,没有将时间进行特征划分,并且最高温、最低温、风力、湿度特征没有进行无量纲化;而表2是本实验预处理之后的训练数据,将时间划分为小时数、星期数、周数、季节、节假日,并且对最高温、最低温、风力、湿度特征进行了无量纲化,使得训练集拥有了更多的可用特征,并且减少了不同特征单位对特征重要度的影响。

S2.构建用电量Stacking集成模型;所述用电量Stacking集成模型采用Stacking模型融合算法集成多种回归模型得到,包括第一层和第二层;其中,第一层中各个模型根据输入的温度、风力、湿度、星期、月份、季节和节假日等信息,得到初始用电量预测值;第二层对第一层输出的初始用电量预测值进行修正,得到最终的用电量预测值;

用电量Stacking集成模型由多个回归模型通过Stacking模型融合算法集成得到;如图3所示,模型分为两层,第一层使用多种回归模型对输入的温度、节假日、季节等信息进行学习、预测,将预测结果作为第二层的输入数据,第二层使用相对简单的回归模型以减少过拟合的风险,根据实际用电量对预测结果进行修正,得到最终的预测结果;其中,选择哪些模型作为第一层的基学习器是重点,在本发明实施例中,第一层使用的是随机森林、KNN、LSTM、LightGBM;由于第一层已经使用了大量的复杂度较高的模型,为避免最终的模型发生过拟合,第二层模型在选择时应该尽量选择和第一层差异性比较大的单个模型。在第一层中,随机森林和LightGBM都是树模型,LSTM属于循环神经网络模型,所以本发明实施例在第二层中选择的是异于第一层所有模型的支持向量机回归模型,支持向量机采用结构风险最小化准则设计学习机器,折衷考虑经验风险和置信范围,具有较好的推广能力;支持向量机是专门针对有限样本情况的,其目标是得到现有信息下的最优解,而不仅仅是样本数趋于无穷大时的最优解,而本发明中的样本数以及第一层使用的模型数是有限的。

下面简单的介绍一下本发明Stacking集成模型中第一层选择的各个基学习器:

1)随机森林是一种有监督学习算法,简而言之,随机森林建立了多个决策树,并将它们合并在一起以获得更准确和稳定的预测,其既可以用于分类,可以用于回归问题,其原理如图5所示。

2)KNN(K-Nearest Neighbor)也是一种既可用于分类又可用于回归的机器学习算法。KNN回归算法是建立向量空间模型,找出K个训练样本,使用平均法,把训练样本特征平均值用于待预测的特征。参考图6,其基本流程为,首先划分训练集和测试集,然后对样本数据计算与预测样本的欧式距离,最后对欧式距离从小到大列举,去除排在前K个的训练数据,从而计算它们的平均值,即为最终的预测值。KNN算法的优点是简单,同时又具有很好的泛化能力。

3)LSTM(Long Short Term Memory)指长短期记忆网络,是一种特殊的RNN(循环神经网络)算法,弥补了传统RNN的不足,引入了三层门机制,即遗忘门、输入门和输出门。输入门的作用主要是输入层的信息如何传递到细胞单元,遗忘门的作用对于历史的信息进行有选择性的记忆,输出门的作用是操纵运出的数据。在处理时间序列问题中,LSTM有更强的泛化能力,会进行有选择性的记忆与遗忘,比传统RNN有更强的协调性和稳定性,LSTM循环模块结构如图7所示。

4)LightGBM是微软公司开源的一种分布式梯度提升树算法,其在面对海量数据以及特征维度很好的数据时,拥有比XGBoost更迅速的训练、较少内存的使用以及优秀的准确率,这个模型也是既可以用于处理分类也可以处理回归问题。LightGBM算法是对XGboost的改进,而XGBoost又来自于GBDT,图8展示了GBDT的原理。

S3.以待预测楼宇历史时段的温度、风力、湿度、星期、月份、季节和节假日信息作为输入,以对应时段的用电量数据作为期望输出,对用电量Stacking集成模型进行训练;

如图4所示,用电量Stacking集成模型训练方式如下:

对于数据集:

S={(y

(1)式中x

使用K折交叉验证将原始数据划分为K个子集,这些子集的大小相等:

S={S

从(2)中划分的子集中分K次以每个子集作为测试集S

M={M

对于K折交叉验证中的第k折测试集S

S′={(y

新的数据集就作为Stacking集成模型的第二层数据集,使用第二层的支持向量回归模型进行归纳学习,最终就能够充分发挥第一层所有模型的优势,并且减少了第一层各模型的预测误差。

S4.从天气网站爬取一个月的天气数据,将待预测的未来时段对应的温度、风力、湿度、星期、月份、季节和节假日信息输入训练好的用电量Stacking集成模型,得到对应时段的用电量预测结果。

本发明方法完整实施过程,参考图9。

本发明中用电量Stacking集成模型预测评价指标采用平均绝对百分比误差(MAPE),表达式为:

(5)式中X

其中,Y

为验证本发明方法的有效性,本实施例预测了某写字楼2020年8月1日至8月31日的电力系统的月度用电量,用电量预测结果与真实数据比较结果如图10所示,其中横坐标代表2020年8月1日至2020年8月31日以小时为单位的时间序列,纵坐标为每小时的用电量,以小时为单位计算绝对平均百分比误差为10.5%,而以月为单位计算绝对平均百分比误差为1.1%,分析其原因,是由于以小时为单位预测再聚合为以月为单位的用电量过程中会产生误差抵消。所以本方法更适用于月度电量预测,证明了本发明方法的有效性。

为了进一步验证本发明方法的有效性,本实施例还与其他各种单个模型的预测效率进行了横向对比。用来对比的模型有GBDT、LSTM、ARIMA,其中GBDT是树模型,LSTM是循环神经网络模型、ARIMA是时间序列模型,使用的测试集仍然是某写字楼2020年8月1日至8月31日的月度用电量。各模型的模型指标对比柱状图如图11所示,图中的评价指标为1-MAPE,从图中可见本方法使用的Stacking集成模型的泛化能力最优,其次是以GBDT为代表的树模型,再然后是LSTM神经网络模型,效果最差的是基于时间序列的ARIMA模型。究其原因,主要是因为ARIMA是纯基于时间序列预测的模型,没有考虑到气象因素对用电量的影响,因此效果最差,而LSTM和GBDT的预测效果和稳定性都不如模型融合。

本方法不同于其他方法主要体现在以下两个方面。第一,采用Stacking模型融合效果优于单模型建模预测,因为Stacking模型融合结合了各种算法,充分发挥了各算法的优势,从不同角度去观测数据空间和结构,避免使用单种模型出现局部最优的情况。第二,本方法中使用的Stacking模型融合方法抛弃了以往采用相似度较高的几种算法融合的做法,经过实验对比,采用了差异度高且学习能力强的算法融合来进行优化,使得Stacking模型融合的预测效果能够达到最优。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号