首页> 中国专利> 基于随机森林与二次修正的峰谷差中长期预测方法

基于随机森林与二次修正的峰谷差中长期预测方法

摘要

本发明公开了一种基于随机森林与二次修正的峰谷差中长期测算模型,对中长期需求响应实施成效进行评估,采集多个居民用户的历史负荷数据并计算历史峰谷差,需求侧用户负荷峰谷差的多源影响因素分析;进行多源影响因素特征提取,采用二进制特征工程提取最优特征组合作为随机森林模型的输入;构建基于随机森林的峰谷差测算模型,并输出月峰谷差与季峰谷差的测算结果;基于历史采集的需求侧用户负荷峰谷差数据,将筛选的相关修正因素逐个选取作为输入,构建贝叶斯回归模型,以实现对用户负荷峰谷差的拟合建模,根据拟合结果对一次季峰谷差的中长期预测结果进行修正。本发明对推进需求侧响应发展,缓解电力供需矛盾具有重要意义。

著录项

说明书

技术领域

本发明属于电力系统技术领域,涉及基于随机森林与二次修正的峰谷差中长期预测方法

背景技术

在“碳达峰、碳中和”背景下,面向灵活互动智能用电的需求响应已成为发展趋势。居民负荷作为需求响应用户的重要组成部分,能够有效实现“削峰填谷”,推动电力系统可靠、稳定运行。然而,需求侧用户负荷特性受到气象情况、人口增长、经济发展等多种因素的影响,难以进行有效的中长期需求侧评估,影响中长期需求侧响应实施评价的可靠性。因此,研究如何准确预测中长期负荷峰谷差对推进需求侧响应发展,缓解电力供需矛盾具有重要意义。

以峰谷差预测作为研究重点的工作非常有限。从现存的预测方法上来说,预测方法可分为深度学习、统计模型、机器学习模型。其中,传统的统计预测方法容易实现,不需要获取额外的输入。但在很多情况下,由于只考虑了历史数据,其准确性往往受到限制。深度学习方法预测性能好,近年来被广泛关注,但由于月峰谷差与季峰谷差的周期性与间断性,深度学习方法虽然有较好的预测精度,但更适用于连续的时间序列预测。传统的机器学习方法不仅计算速度快,而且泛化能力更强。机器学习方法包括支持向量机、随机森林等。

支持向量机可以尽量提高学习机的泛化能力,并且计算速度的快,在利用遗传算法进行二进制特征组合优化时,可以采用支持向量机进行峰谷差预测,并将适应度函数设置为经过支持向量机训练后的预测与实际值之间损失函数值。随机森林模型基本上是一种bagging方法,对过拟合具有鲁棒性,预测结果是通过投票法或取均值法来提高了一些弱学习者(决策树)的性能。不易过拟合,抗噪能力极强,计算速度快,预测精度高。

发明内容

为解决现有技术中存在的不足,本发明的目的在于,提供一种基于随机森林与二次修正的峰谷差中长期预测方法,基于二次修正提高预测精度,以负荷侧峰谷差特征,提高负荷峰谷差预测的准确性,为电力系统运行和调度提供更可靠的指导。

本发明采用如下的技术方案。本发明提供了一种基于随机森林与二次修正的峰谷差中长期测算方法,包括以下步骤:

步骤1,采集设定数量年份内的多个居民用户区的用电历史负荷数据并计算历史峰谷差,采集影响负荷峰谷差的影响因素数据,并将涉及的影响因素作为备选特征;

步骤2,进行多源影响因素特征提取,采用二进制特征工程提取最优特征组合,并将此特征组合作为步骤3中随机森林模型的输入;

步骤3,利用随机森林算法对步骤2选择的最优特征组合的训练数据进行训练,得到需求侧用户负荷峰谷差测算模型,并输出月峰谷差与季峰谷差的一次中长期预测结果;

步骤4,基于历史采集的需求侧用户负荷峰谷差数据,将筛选的相关修正因素逐个选取作为输入,构建贝叶斯回归模型,以实现对用户负荷峰谷差的拟合建模,根据拟合结果对一次季峰谷差的中长期预测结果进行修正。

优选地,步骤1中所述用电历史负荷数据包括日最大负荷数据,日最小负荷数据;所述历史峰谷差包括日峰谷差、月峰谷差、季峰谷差;所述影响因素特征包括:日最高气温、日最低气温、日平均气温、气压、湿度、降雨量、风速、日平均负荷。

优选地,步骤2具体包括:

步骤2.1,计算步骤1中备选特征与峰谷差之间的相关程度,并根据相关程度由高到低筛选n个备选特征;

步骤2.2,采用基于二进制特征组合方法筛选最优的特征组合作为测算的输入。

优选地,步骤2.2具体包括:

步骤2.2.1,使用二进制编码区分备选特征的使用状态,即被使用或者被弃用,并筛选出二进制特征数据集

步骤2.2.2,将筛选出的二进制特征数据集

优选地,所述二进制特征数据集

其中,n为备选特征数量,

第i个特征的x

优选地,步骤3中具体包括:

步骤3.1,将随机森林作为一次中长期测算的基础;

步骤3.2,针对需求侧用户的历史负荷数据,基于趋势外推方法,按照峰谷差测算的时间尺度计算其逐月和季度的负荷自然增长率;

步骤3.3,基于逐月和逐季度采集的历史平均峰谷差、负荷自然增长率、以及筛选出的峰谷差测算影响因素,形成数据驱动训练样本;构建基于随机森林的峰谷差测算模型并进行训练;训练后的模型即可实现对需求侧用户负荷峰谷差中长期测算的结果输出。

优选地,步骤3.1具体包括:

步骤3.1.1,设最优组合特征在前N年的数据集为原始样本,在原始样本中用bootstrap方法抽样,产生K个数据集作为决策树的训练集,N为正整数且小于步骤1中的设定数量年份;

步骤3.1.2,如果原本有M个输入变量,每个节点随机选择m个特定变量,并以此确定最佳分类点,其中m<M;

步骤3.1.3,每棵决策树都最大可能地进行生长而不进行剪枝;

步骤3.1.4,取所有的决策树的平均值作为预测值。

优选地,步骤4具体包括:

步骤4.1,基于需求侧用户历史负荷峰谷差和筛选出的相关修正因素构建贝叶斯岭回归模型;

步骤4.2,基于贝叶斯岭回归模型,分别建立季峰谷差与人口修正因素、居民消费水平修正因素的拟合关系,并得到人口修正拟合曲线、居民消费水平拟合曲线,

步骤4.3,基于两种拟合曲线计算修正系数,并依次对步骤3中测算得到的需求侧用户负荷峰谷差测算结果中的季峰谷差进行修正,得到需求侧用户负荷峰谷差修正结果。

优选地,所述贝叶斯岭回归模型中具体计算过程如下:

其中,

p(w |a,b)为对于条件特征a和b下的参数w分布概率;

优选地,步骤4.3所述修正系数D

式中,

D为测算的第n年某一季度的季峰谷差,

D*为修正后的第n年某一季度的季峰谷差,

d

d

本发明的有益效果在于,与现有技术相比,本发明针对需求侧用户负荷变化日趋灵活,难以准确评估需求侧响应的实施效果,中长期需求侧响应实施评价的可靠性依赖于准确的负荷峰谷差预测,提出基于随机森林与二次修正的峰谷差中长期测算模型预测方法,基于二次修正提高预测精度。

附图说明

图1为本发明基于随机森林与二次修正的峰谷差预测方法的流程示意图;

图2为本发明二进制特征组合寻优过程示意图;

图3为本发明基于随机森林的一次中长期预测流程图;

图4为本发明基于贝叶斯岭回归的二次修正流程图;

图5为本发明实施例中采用所提方法的一次中长期月峰谷差预测结果展示图;

图6为本发明实施例中采用所提方法的一次中长期季峰谷差预测结果以及二次修正季峰谷差的预测效果图;

图7为本发明实施例中人口修正拟合曲线;

图8为本发明中居民消费水平拟合曲线。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。

在本发明中,中长期预测法指的是预测时间在一个月到一年间的预测方法,预测方法根据预测时间尺度不同,可分为超短期(0-6h)、短期(6h-1d)和中长期(1个月-1年)预测法。

如图1所示,本发明提供了基于随机森林与二次修正的峰谷差中长期测算方法,包括以下步骤:

步骤1,采集设定数量年份内的多个居民用户的历史负荷数据并计算历史峰谷差,采集影响负荷峰谷差的影响因素数据作为备选特征;

本实施例以国内江苏省某市高、中、低档三个居民小区的月峰谷差与季峰谷差为研究对象,采集2013年到2018年共六年用电负荷的历史数据,数据采集时间分辨率为15min,每天96个数据,其中包括日最大负荷数据,日最小负荷数据,根据日最大负荷数据和日最小负荷数据计算得到日峰谷差,并进一步计算求得月峰谷差与季峰谷差,并根据采集的96个每日用电负荷历史数据计算日平均负荷数据。此外,考虑日最高气温、日最低气温、日平均气温、气压、湿度、降雨量、风速、日平均负荷等影响因素作为备选特征。将人口因素、GDP年度影响因素作为二次修正因素。

以前五年数据作为训练数据,以最后一年数据作为测试数据,用以验证数据预测的有效性。所用预测误差评价指标为平均绝对百分比误差MAPE,平均绝对误差MAE和均方根误差RMSE。

步骤2,进行多源影响因素特征提取,采用二进制特征工程提取最优特征组合,作为随机森林模型的输入;

步骤2具体包括:

步骤2.1,计算步骤1中备选特征与峰谷差之间的相关程度,并根据相关程度由高到低筛选n个备选特征,

为了提高预测精度,考虑多元影响因素精益化筛选出与居民侧负荷峰谷差有显著相关性的特征因素,一个优选但非限制性的实施方式为,采用Persons系数定量分析备选特征与峰谷差之间的相关程度。Persons系数的公式如下:

其中,

X为峰谷差,

Y为任一影响因素;

采用Persons系数定量分析备选特征与峰谷差之间的相关程度,如表1列出作为二进制特征组合备选特征的相关性程度,

表1:峰谷差与各影响因素的相关性程度

步骤2.2,采用基于二进制特征组合方法筛选最优的特征组合作为测算的输入。

由于相关影响因素对峰谷差的影响是共同作用的,不能够孤立地分析单个因素对峰谷差的作用,因此采用二进制特征组合方法在步骤2.1中筛选出的备选特征中,筛选最优的特征组合作为随机森林的输入,步骤2.2具体包括:

步骤2.2.1,使用二进制编码区分备选特征的使用状态,即被使用或者被弃用,并筛选出二进制特征数据集

设一共有n个待筛选的备选特征,特征数据集与其对应的二进制编码分别表示为:

X=[x

W=[w

其中,n为备选特征数量,

第i个特征的x

步骤2.2.2

遗传算法寻优示意图如图2所示,利用遗传算法对

p

式中,

d表示个体二进制编码后的二进制符号数量。

对于每一个类型的小区采用二进制特征组合的方法对峰谷差预测的特征组合进行优化。下表列出了三种小区数据集的前3个特征组合。其中,Top3指筛选出的是排前三的特征组合方案,case1,case2,case3代表该档次小区排前三负荷峰谷差与各影响因素的特征组合方案。其中case1是排第一的特征组合方法,也就是top1,在实验中选择Top1特征组合作为最优特征组合输入。√表示选择该特征,×表示删除该特征。峰谷差与各影响因素的特征组合方案如表2所示,

表2:峰谷差与各影响因素的特征组合方案

步骤3,利用随机森林算法对步骤2选择的最优特征组合的训练数据进行训练,得到需求侧用户负荷峰谷差测算模型,并输出月峰谷差与季峰谷差的一次中长期预测结果。如图3所示。

步骤3具体包括:

步骤3.1,构建随机森林模型,将随机森林作为一次中长期测算的基础,

利用随机森林算法构建测算模型的步骤如下:

步骤3.1.1,设最优组合特征在前N年的数据集为原始样本,在原始样本中用bootstrap方法抽样,产生K个数据集作为决策树的训练集,N为正整数且小于步骤1中的设定数量年份,本实施例中采用前五年的数据集作为原始样本;

步骤3.1.2,如果原本有M个输入变量,每个节点随机选择m个特定变量,并以此确定最佳分类点,其中m

步骤3.1.3,每棵决策树都最大可能地进行生长而不进行剪枝;

步骤3.1.4,取所有的决策树的平均值作为预测值。

步骤3.2,针对需求侧用户的历史负荷数据,基于趋势外推方法,按照峰谷差测算的时间尺度计算其逐月和季度的负荷自然增长率;负荷自然增长率是表征负荷变化特性的影响因素,作为需求侧用户负荷峰谷差测算模型的输入之一。

步骤3.3,基于逐月和逐季度采集的历史平均峰谷差、负荷自然增长率、以及筛选出的峰谷差测算影响因素,形成数据驱动训练样本;构建基于随机森林的峰谷差测算模型并进行训练;训练后的模型即可实现对需求侧用户负荷峰谷差中长期测算的结果输出。最后输出月峰谷差与季峰谷差的测算结果。

本方法基于随机森林的预测结果如表3所示,选取基于支持向量机SVM、多层感知机MLP、高斯回归过程GPR的预测法作为基准预测方法,用于验证本发明所提方法提高预测精度的有效性。从表3、表4可以看出随机森林的预测精度,综合对比其他模型所有的误差指标,随机森林的月峰谷差和季峰谷差预测效果都是最好。

表3:基于不同模型的月峰谷差预测结果

表4:基于不同模型的季峰谷差预测结果

步骤4,基于历史采集的需求侧用户负荷峰谷差数据,将筛选的相关修正因素逐个选取作为输入,构建贝叶斯回归模型,以实现对用户负荷峰谷差的拟合建模,根据拟合结果对一次季峰谷差的中长期预测结果进行修正。

由于季峰谷差时间跨度较大,考虑到年度间影响因素差异对季峰谷差造成的影响,构建贝叶斯岭回归计算,得到相关修正因素与负荷峰谷差的拟合特性,对一次季峰谷差的中长期预测结果进行修正。二次修正过程如图4所示。所述二次季峰谷差修正阶段为:

步骤4.1,基于需求侧用户历史负荷峰谷差和筛选出的相关修正因素构建贝叶斯岭回归模型,贝叶斯岭回归模型中具体计算过程如下:

其中,

p(w|a,b)为对于条件特征a和b下的参数w分布概率;

步骤4.2,基于贝叶斯岭回归模型,分别建立季峰谷差与人口修正因素、居民消费水平修正因素的拟合关系,并得到人口修正拟合曲线、居民消费水平拟合曲线,如图6、7所示。

步骤4.3,基于两种拟合曲线依次计算修正系数并对步骤3中测算得到的需求侧用户负荷峰谷差测算结果中的季峰谷差进行修正,得到需求侧用户负荷峰谷差修正结果;

修正系数D

式中,

D为测算的第n年某一季度的季峰谷差,

D*为修正后的第n年某一季度的季峰谷差,

d

d

以人口修正2018年春季峰谷差为例,已知2017年与2018年人口数据,在拟合曲线上找到对应的峰谷差数值d2017和d2018,计算修正系数并修正2018年春季峰谷差:

式中,D为测算的2018年春季峰谷差,

D*为修正后的2018年春季峰谷差,

d

d

将待预测时刻负荷的预测值与真实值进行比较,计算误差指标MAPE、MAE和RMSE,公式分别如下:

其中,

l

n

此外,本发明提出的基于随机森林与二次修正的峰谷差中长期测算方法,如表5为二次修正后季峰谷差的预测结果。

结果表明,一次预测值与真实值之间存在一定偏差,但经过二次修正后的预测结果比一阶段有较为明显的性能提升。二次修正后模型具有更好的预测效果。由评估指标结果的比较,经过二次修正后的预测结果的RMSE指标、MAPE指标和MAE指标与一次预测相比都有所降低,预测精度得到的有效提高。这说明峰谷差两次预测模型在一定程度上提高了模型对不同年度的影响因素差异的敏感性,从而进一步提高最终预测结果的精准度。

图5为一次中长期月峰谷差预测结果,图6为一次中长期季峰谷差预测结果以及二次修正季峰谷差的预测效果。所采用二次峰谷差预测模型不仅考虑了逐月逐季度的峰谷差影响因素,而且考虑了年度间影响因素差异。通过一次中长期预测与二次修正两个阶段来预测峰谷差,从而大大提高了预测精度。最后通过算例分析证明了本研究所提方法的优越性。

表5:两次季峰谷差预测结果比较

综上所述,本发明的预测方法可用于预测需求侧负荷峰谷差,对电力系统调度、能量管理以及需求响应实施起到重要的指导作用。本发明的方法相较于其他预测法,利用了年度间影响因素差异,进行二次修正,使其预测精度得到明显提升,能更准确地预测居民用户负荷峰谷差,对推进需求侧响应发展,缓解电力供需矛盾具有重要意义。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号