首页> 中国专利> 一种基于长短期记忆神经网络和支持向量回归组合模型的行业中长期负荷预测方法

一种基于长短期记忆神经网络和支持向量回归组合模型的行业中长期负荷预测方法

摘要

本发明公开了一种基于长短期记忆神经网络和支持向量回归组合模型的行业中长期负荷预测方法,本发明方法为:首先,基于皮尔逊相关系数分析行业中长期负荷影响因素与行业负荷的关联程度,提取行业中长期负荷预测的关键影响因素。其次,分别构建考虑负荷时序变化特性的长短期记忆神经网络预测模型和考虑负荷非线性特征的支持向量回归预测模型。然后,基于最优组合预测算法,构建基于长短期记忆神经网络和支持向量回归的考虑负荷综合特征的组合预测模型,对行业中长期负荷进行预测。本发明基于最优组合预测算法,综合考虑长短期记忆神经网络和支持向量回归预测模型的特征与优势,相比于单一预测方法,有效提高了行业中长期负荷预测的精度。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及电力系统的技术领域,更具体地,涉及一种基于长短期记忆神经网络和支持向量回归组合模型的行业中长期负荷预测方法。

背景技术

电力系统负荷预测是指对未来负荷发展变化做出预先估计和推测,是电力系统规划、调度等部门的基础工作,对电力系统规划与运行起着至关重要的作用。根据预测时间尺度的不同,负荷预测可分为超短期预测、短期预测、中长期预测等,其中中长期负荷预测主要是针对月度及以上时间尺度的负荷进行预测,准确的中长期负荷预测有利于供电公司掌握不同行业用户的用电规律,从而为供电公司进行行业布局规划、资源优化配置、供电业务管理等提供重要的决策支持。近年来,随着智能电表以及其他智能量测设备的不断升级与广泛普及,电力部门可以收集到数量更大、精度更高的行业负荷数据及外部数据,这为以大数据、人工智能为代表的新型负荷预测技术奠定了坚实的数据基础。

为了克服传统单一预测模型鲁棒性一般、泛化性能不足的问题,基于集成学习算法的组合预测模型应运而生。相较于单一模型,将多个模型进行集成组合,常可获得更加优越的泛化性能。当每种单一模型包含预测对象的不同信息时,采用组合预测的方法可以提高预测结果的精度。然而,当前组合模型的研究多是针对短期负荷预测,基于组合模型的中长期负荷预测研究较少。相较于短期负荷预测,中长期负荷预测具有训练样本少、时间跨度大、负荷变化规律弱等特点。因此,当前研究较多的基于深度学习神经网络、集成树的负荷预测模型常常因过拟合、无法收敛等原因,预测表现不佳。

在此背景下,针对行业中长期负荷预测的集成组合预测模型仍有待进一步研究。

发明内容

本发明为克服上述现有技术的缺陷,提供一种基于长短期记忆神经网络和支持向量回归组合模型的行业中长期负荷预测方法,能够综合长短期记忆神经网络与支持向量回归的特征和优势,从而提高负荷预测的精度。

本发明采用以下的技术方案:

一种基于长短期记忆(Long Short-Term Memory,LSTM)神经网络和支持向量回归(Support Vector Regression,SVR)组合模型的行业中长期负荷预测方法,包括以下步骤:

步骤1、采用过滤式特征选择方法,基于皮尔逊相关系数评估量化行业中长期负荷与其影响因素的关联程度,根据量化结果提取行业中长期负荷的关键影响因素;

步骤2、分别构建考虑负荷时序变化特性的长短期记忆神经网络预测模型和考虑负荷非线性特征的支持向量回归预测模型;

步骤3、根据步骤1提取的关键影响因素以及步骤2构建的行业中长期负荷单一预测模型,构建基于LSTM神经网络与SVR的最优组合预测模型并基于均方误差最小化准则确定两个模型的权重系数。

上述技术方案中,进一步地,所述步骤1采用过滤式特征选择方法,基于皮尔逊相关系数评估量化行业中长期负荷与其影响因素的关联程度,根据量化指标结果提取行业中长期负荷的关键影响因素,包括以下步骤:

皮尔逊相关系数是一种常见的“相关统计量”,常用于评价两个随机变量之间相关性的强弱。基于皮尔逊相关系数量化各种外部因素对行业中长期负荷的影响程度,筛选出行业中长期负荷的关键影响因素,进而构建行业中长期负荷的特征数据集,使得在提升模型训练效率的同时保证模型较高的预测精度,皮尔逊相关系数的计算表达式如式(12)所示。

式中,r表示行业X和影响因素F之间的相关系数,X

相关系数r介于-1和+1之间,|r|越接近1,则二者相关程度越高,r>0表示二者正相关,r<0表示二者负相关。为量化各影响因素对行业中长期负荷的影响程度,提高负荷预测的精度,筛选出|r|>0.5的影响因素作为关键影响因素并作为预测模型的输入特征。

进一步地,分别构建考虑负荷时序变化特性的长短期记忆神经网络预测模型和考虑负荷非线性特征的支持向量回归预测模型,步骤如下:

构建基于LSTM的负荷预测模型,LSTM的核心是细胞状态(Cell State),负荷的历史特征信息通过细胞状态进行传递,信息的传输与控制由LSTM的门结构实现,包括遗忘门、输入门和输出门。基于LSTM神经网络实现行业中长期负荷预测的计算公式如式(13)-(18)所示。

f

i

o

式中,f

LSTM网络层由多个单元串联构成,状态特征信息通过细胞状态进行传递。基于LSTM神经网络实现中长期负荷预测的流程如下:首先,由上一时间步的短期负荷状态和当前时间步的负荷输入特征共同决定遗忘门、输入门、输出门系数以及候选负荷状态值;其次,由遗忘门系数决定长期负荷状态特征的记忆程度,控制长期负荷状态特征的记忆与传输;然后,根据输入门系数以及候选负荷状态值,对长期负荷状态进行更新;最后,由输出门系数以及更新后的长期负荷状态特征决定当前时间步的短期负荷状态。

构建基于SVR的负荷预测模型,利用支持向量回归对行业中长期负荷进行预测时,行业中长期负荷的主要影响因素将作为模型输入特征x,通过非线性变换Φ(x)映射到高维特征空间,然后以待预测的行业负荷值作为标签在高维特征空间中进行回归拟合,最终得到行业中长期负荷预测的SVR模型,可由式(19)表示。

f(x)=ω

式中,ω为权值向量;b为偏置;Φ(x)为非线性变换;f(x)为支持向量回归值;R

回归拟合的目标是使得预测值与真实值的偏差最小,但是若仅以偏差最小为目标,训练得到的SVR模型往往会因为过拟合导致泛化性能降低,因此引入正则化常数C以平衡模型复杂度和拟合误差,降低模型过拟合的风险,具体算法可由式(20)表示。

式中,

进一步地,根据步骤1提取的关键影响因素以及步骤2构建的行业中长期负荷单一预测模型,构建基于LSTM神经网络与SVR的最优组合预测模型并确定两个模型的权重系数,步骤如下:

构建基于LSTM神经网络和SVR的最优组合预测模型,设LSTM神经网络和SVR模型的组合权系数分别为w

式中,

由式(21)可知,构建基于LSTM神经网络和SVR的组合预测模型的关键在于确定两个子模型的组合权系数。为提高组合模型的预测准确度,可将组合权系数的确定视为求解以下优化问题:

式中,e为均方误差,x

为了评估预测模型的准确性,采用均方根误差和平均绝对百分比误差作为预测评价指标,分别如(23)式和式(24)所示。

本发明的有益效果为:

本发明基于皮尔逊相关系数,提取出行业中长期负荷的关键特征,并对提取的特征数据作预处理工作;基于提取得到的行业中长期负荷关键影响因素构建考虑负荷时序变化特性的长短期记忆神经网络负荷预测模型和考虑负荷非线性特征的支持向量回归负荷预测模型,对两个模型进行分析可知二者存在互补特性,可以从不同角度实现行业中长期负荷精确预测,于是本发明基于均方误差最小化准则将LSTM神经网络预测模型与SVR预测模型有机结合,对行业中长期负荷进行预测,有效提高了中长期负荷预测的准确率,预测精度在98%以上,相比于单一预测模型,所提组合预测模型增强了模型的鲁棒性与泛化性能。

附图说明

图1是本发明整体流程示意图。

图2是本发明LSTM网络单元示意图。

图3是本发明LSTM网络示意图。

图4是本发明组合模型与单一模型的预测曲线。

图5是本发明组合模型与单一模型的预测误差曲线。

具体实施方式

为了更好地理解本发明的目的、技术方案以及技术效果,以下结合附图对本发明进行进一步的讲解说明。

本发明提出了一种基于LSTM神经网络和SVR组合模型的行业中长期负荷预测方法,其实施流程包括如下详细步骤:

步骤1、采用过滤式特征选择方法,基于皮尔逊相关系数评估量化行业中长期负荷与其影响因素的关联程度,根据量化结果提取行业中长期负荷的关键特征;

基于皮尔逊相关系数量化各种外部因素对行业中长期负荷的影响程度,筛选出行业中长期负荷的关键特征,进而构建行业中长期负荷的特征数据集,使得在提升模型训练效率的同时保证模型较高的预测精度,皮尔逊相关系数的计算表达式如式(25)所示。

式中,r表示行业X和影响因素F之间的相关系数,X

相关系数r介于-1和+1之间,|r|越接近1,则二者相关程度越高,r>0表示二者正相关,r<0表示二者负相关。为量化各影响因素对行业中长期负荷的影响程度,提高负荷预测的精度,筛选出|r|>0.5的影响因素作为预测模型的输入特征。

步骤2、分别构建考虑负荷长时序变化特性的长短期记忆神经网络预测模型和考虑负荷非线性特征的支持向量回归预测模型;

首先构建基于LSTM神经网络的负荷预测模型,LSTM神经网络是一种改进的循环神经网络(Recurrent Neural Network,RNN)。相较于RNN,LSTM最大的特点是避免了长期依赖问题,解决了传统RNN在模型训练时梯度消失的问题,具备记忆更长时间节点隐含信息的能力,因此LSTM在处理长时间序列预测问题时具备更好的性能。中长期负荷预测依赖于负荷历史数据的连续变化,这些变化中隐藏着负荷趋势的关键特征,而LSTM能够提取和记忆这种连续时间序列各时间节点之间的依赖特征,从而实现较高精度的负荷预测。

LSTM的核心是细胞状态(Cell State),负荷的历史特征信息通过细胞状态进行传递,信息的传输与控制由LSTM的门结构实现,包括遗忘门、输入门和输出门,LSTM单元结构如图2所示。

基于LSTM神经网络实现行业中长期负荷预测的计算公式如下:

f

i

o

式中,f

LSTM网络层由多个单元串联构成,状态特征信息通过细胞状态进行传递,如图3所示。基于LSTM神经网络实现中长期负荷预测的流程如下:首先,由上一时间步的短期负荷状态和当前时间步的负荷输入特征(即由负荷值以及负荷影响因素值构成的特征向量)共同决定遗忘门、输入门、输出门系数以及候选负荷状态值。其次,由遗忘门系数决定长期负荷状态特征的记忆程度,控制长期状态的记忆与传输。然后,根据输入门系数以及候选负荷状态值,对长期负荷状态进行更新。最后,由输出门系数以及更新后的长期负荷状态特征决定当前时间步的短期负荷状态。

然后构建基于SVR的负荷预测模型,SVR是支持向量机(Support Vector Machine,SVM)在回归问题中的应用。基于SVR的负荷预测基本原理是:将行业中长期负荷的关键影响因素作为模型输入特征x,通过非线性变换Φ(x)映射到高维特征空间,然后以待预测的行业负荷值作为标签在高维特征空间中进行回归拟合,最终得到行业中长期负荷预测的支持向量回归模型:

f(x)=ω

式中,ω为权值向量;b为偏置;Φ(x)为非线性变换;f(x)为支持向量回归值;R

回归拟合的目标是使得预测值与真实值的偏差最小,但是若仅以偏差最小为目标,训练得到的SVR模型往往会因为过拟合导致泛化性能降低,因此引入正则化常数C以平衡模型复杂度和拟合误差,降低模型过拟合的风险,具体算法可由式(33)表示。

式中,

式中,α

式(34)-(36)涉及到计算Φ(x

k(x

使得x

步骤3、根据预处理后的特征输入以及构建的行业中长期负荷单一预测模型,构建基于LSTM神经网络与SVR的最优组合预测模型并基于均方误差最小化准则确定两个模型的权重系数。

设LSTM神经网络和SVR模型的组合权系数分别为w

式中,

设两种子模型的预测误差分别为e

由式(39)可知,构建基于LSTM神经网络和SVR的组合预测模型的关键在于确定两个子模型的组合权系数。为提高组合模型的预测准确度,可将组合权系数的确定视为求解以下优化问题:

式中,x

将式(39)和式(40)代入式(41),可化简为如下矩阵形式。

式中,

为验证所提出的基于LSTM神经网络和SVR组合模型的行业中长期负荷预测方法的有效性和准确性,以某地市2016-2020年钢铁行业月负荷数据进行算例仿真。

基于皮尔逊相关系数分析钢铁行业负荷预期影响因素的相关程度,分析结果如表1所示。

表1行业负荷与影响因素相关性分析结果

由表1可知,粗钢产量、钢铁相关行业负荷、居民月消费水平、月平均气温与钢铁行业负荷的相关性较强,因此将钢铁行业月负荷数据、月粗钢产量数据、钢铁相关行业负荷、居民月消费水平、月平均气温数据加入行业中长期负荷预测数据集。以上连续性特征可通过皮尔逊相关系数进行分析量化,并提取出关键特征作为模型的输入,但是某些非连续性特征(无法通过皮尔逊相关系数进行量化)毫无疑问也会对行业负荷变化产生重要影响,例如春节、国庆等大型节假日所在月份的行业负荷与其他月份的行业负荷将有明显区别,因此将不同月份分为常规月与特征月,将其作为月度特征引入行业中长期负荷预测数据集中,以提高行业月度负荷预测的精度。

将所有数据按4:1:1的比例划分为训练集、验证集与测试集。根据训练集数据并基于最优组合算法计算得到LSTM和SVR的组合权系数分别为0.77和0.23,在训练集上整体表现更佳、误差更小的LSTM模型组合权系数相对更高,SVR模型的组合权系数较小。基于LSTM和SVR的组合模型预测结果与基于LSTM和SVR单一模型的预测结果对比如图4所示。

由图4可知,LSTM神经网络和SVR模型均能够较好地实现行业中长期负荷预测,LSTM神经网络预测误差曲线相对平缓,基本维持在3%以内,SVR模型预测误差曲线变化较大,在1%至5%上下浮动。相较于SVR模型,LSTM神经网络能够更好地捕捉行业负荷变化的趋势,预测准确度更高,对钢铁行业中长期负荷预测的效果更佳。在负荷变化相对较大的时段,如2020年3月及11月,SVR模型的预测准确度更高,预测误差在2%以内,而在负荷相对平缓的时段,LSTM神经网络模型预测的准确度更高,主要保持在1%以内,主要是由于负荷变化的长期特征保存于细胞状态中,在细胞状态传递与更新时变化较小,当前输入特征的快速变化对细胞状态的控制与调节难以及时地反映到细胞状态中,支持向量回归则将输入特征映射到高维空间中,直接对负荷作用,但是对负荷的时序性特征缺少考虑。组合预测模型在各时段的负荷预测误差基本介于两种单一模型之间,在2020年3月及12月,集成组合模型实现了相比于单一模型更高精度的负荷预测,预测误差基本保持在1%左右。单一预测模型和组合预测模型的预测误差指标如表2所示。

表2单一和组合模型预测误差指标

由表2可知,基于LSTM和SVR的组合模型相较于单一模型预测精度更高,平均绝对百分比误差为1.19%,组合模型预测精度的改善得益于两种单一模型的互补性,部分时段LSTM的预测精度更高,部分时段SVR的预测精度更高,将二者进行组合在一定程度上削弱了单一模型适应性较差的影响,增强了中长期负荷预测组合模型的泛化性能。

综上,本发明方法提取行业中长期负荷预测的关键特征并将其作为预测模型的输入,构建了基于LSTM神经网络和SVR的组合预测模型,实现了较高精度的行业中长期负荷预测,预测精度达到98%以上,有效提高了负荷预测模型的泛化性能。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号