首页> 中国专利> 基于FARIMA的智能变电站通信流量阈值模型的构建方法

基于FARIMA的智能变电站通信流量阈值模型的构建方法

摘要

本发明公开了一种基于FARIMA的智能变电站通信流量阈值模型的构建方法。该方法通过对流量序列进行平稳性以及自相关性分析;由序列的Hurst参数设计FIR滤波器,并对数据进行滤波处理;利用AIC信息准则对ARMA(p,q)模型进行定阶,之后对FARIMA(p,d,q)模型的预测值进行残差检验。多次模拟FARIMA模型,进行短期预测,并设计算法生成不同置信度的流量阈值模型。本发明以天津某变电站站控层实际采集流量为测试数据给出了详细的算法描述,并通过一系列的实验得到智能变电站站控层的通信流量阈值模型。

著录项

  • 公开/公告号CN107547269A

    专利类型发明专利

  • 公开/公告日2018-01-05

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201710691538.5

  • 发明设计人 杨强;郝唯杰;

    申请日2017-08-14

  • 分类号

  • 代理机构杭州求是专利事务所有限公司;

  • 代理人郑海峰

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 04:10:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-30

    授权

    授权

  • 2018-01-30

    实质审查的生效 IPC(主分类):H04L12/24 申请日:20170814

    实质审查的生效

  • 2018-01-05

    公开

    公开

说明书

技术领域

本发明涉及电力通信网络流量预测,尤其是涉及一种基于FARIMA的智能变电站通信流量阈值模型的构建方法。

背景技术

随着国家智能化变电站的建设及输配电自动化改造的推进,电网工控信息安全问题日益突出。如何掌握电力信息网络行为性质,协议特征以及流量异常情况无疑成为我国电力通信研究中的关键问题。当前中国正在全力建设智能通信网络,大量的二次设备的接入以及实时数据的更新需求,造成了电力通信网络流量的大量增加和复杂变化。如何规划电缆的配置、路由的选择、带宽的分配,如何减少突发情况造成的重大损失,如何有效提高网络运行的速度和利用率,在智能变电站的建设之中都是关键问题。

精确的变电站网络正常网络模型是电力通信性能分析和结构规划的基础。由于变电站通信网络中的数据流量表现出不同的流量模式和类似于互联网流量的特征,因此可以通过生成数学模型加以分析,开发和理解变电站通信网络数据流量的特征,从而提高设计效益,并且能从多方面维护和加强智能变电站通信;在流量模式预测,负载均衡,流量控制,网络安全和资源配置等方面都有所提升。

本发明针对电力通信网络的特点,结合现有网络自相似流量分析研究的结论,生成智能变电站通信网络流量的阈值模型。其创新性以及技术贡献主要体现在以下几个方面:(1)采集天津某110kV变电站站控层交换机实际的数据流量,建立具有适当参数的流量模型,分析电力通信的网络流量特点。(2)利用计量经济学的思想,使用优化的FARIMA(p,d,q)模型建立智能变电站的正常流量模型,并分析模型切合程度以及电力工控网络的流量形式。(3)基于 FARIMA(p,d,q)模型设计筛选算法,预测下一时段,短期内网络通信数据流量的阈值情况。 (4)分析不同置信度情况下的流量阈值模型,与智能变电站通信特性相结合。

发明内容

本发明的目的在于解决具有突发性和长相关性的智能变电站通信流量的建模以及预测问题,针对现有电力通信流量特征以及规律研究的不足提出了完善的分析方法;生成的智能变电站通信流量阈值模型对电力通信网络的规划以及异常检测具有指导意义。

本发明的目的可以通过以下技术方案来实现:

本发明公开了一种基于FARIMA的智能变电站通信流量阈值模型的构建方法,包括以下步骤:

(1)对采集的智能变电站通信流量数据进行数据分析,包括序列长度分析,季节性分析,平稳性分析以及自相关性分析;

(2)优化FARIMA(p,d,q)模型的建立;

(3)智能变电站通信流量模型的验证,比较不同算法的拟合优度以及预测效果;

(4)多次运行FARIMA(p,d,q)模型预测目标序列,并设计算法保留具有智能变电站流量特征的预测值,生成不同显著性下的流量阈值模型。

优选的,所述步骤(1)具体为:

(a)基于不同的测量探头原始统计步长,对智能变电站通信流量数据进行采集并均值化处理;根据序列长度选择聚合尺度对原序列进行聚合,其公式如下:

式中,X(i)为原始序列,X(k)为聚合之后的序列,n为聚合周期;

做出聚合后序列的周期图,对序列的波动进行季节性分析;

(b)对原序列进行平稳性分析以及自相关性分析;平稳性分析采用ADF测试,使用E-VIEWS软件对序列进行计量经济学分析,比较1%,5%,10%level下的t-statistic值与ADF 测试值的大小关系确定序列的平稳性;自相关性通过计算序列的自相关函数与偏自相关函数得到,同时计算序列的Hurst参数以判定序列长相关性的程度;其中Hurst参数的计算方法如下:

式中,H为算法估计的序列Hurst值;aggver为绝对值法算出的Hurst值,diffvar为方差时间法算出的Hurst值,Rsm为R/S留数法算出的Hurst值。

优选的,所述步骤(2)具体为:

(a)用FARIMA(p,d,q)序列的定义法来产生FARIMA(p,d,q)的时间序列:

如果序列{Xt}是平稳的,且满足方程:

Φ(B)ΔdXt=Θ(B)εt

则称随机过程{Xt}为服从d∈(-0.5,0.5)的FARIMA(p,d,q)模型;其中d是差分阶数,{εt}>

滑动平均项Θ(B)为:

其中φk是滞后阶数为k的回归系数,θk是滞后阶数为k的滑动系数;p是自回归阶数,q>d=(1-B)d为分数差分算子,其二项式展开为:

其中,

Γ代表GAMMA函数。

(b)对原序列进行d阶差分滤波,d的计算公式如下:

d=H-0.5

设计滤波器,对原序列进行分形差分滤波,其公式如下:

其中,W(n)是滤波之后的序列,X(n)是待滤波的时间序列,h(n)是分数差分滤波器的单位冲激响应,满足:

对滤波后的序列进行计量经济学分析,并采用AIC信息准则对分形差分之后的序列进行 ARMA(p,q)模型定阶,AIC信息准则定义如下:

在上述表达式的右边,第一项反映拟合的优劣,第二项表示模型的复杂性;

(c)对定阶后的序列进行残差检验;若残差为白噪声,则对拟合序列进行反滤波处理,得到原序列的拟合值或预测值;若残差不为白噪声,则重新采用AIC信息准则对ARMA(p,q) 模型进行定阶;

(d)采用最小二乘法对ARMA的p阶系数φk(k=1,2,…,p)以及MA的q阶系数θk(k=1,2,…,q)进行估计;

(e)得到FARIMA(p,d,q)的数学表达式。

优选的,所述步骤(3)具体为:

(a)分析拟合序列是否具有智能变电站通信网络流量的自相似性,平稳性,季节性,不规则变动性和多分形性;

(b)对拟合序列进行拟合优度的测算,其拟合优度计算公式如下:

其中MSE代表均方差,R-Square代表确定系数;yi是原序列,是预测序列,是序列的前n项平均值。

优选的,所述步骤(4)具体为:

(a)多次模拟FARIMA(p,d,q)模型,对每一次模型的预测序列进行筛选,假设聚合后的序列长度为l,其每一次模拟预测序列值的目标筛选规则如下:

其中Xt为原始序列,为第i次模拟的第j个预测序列值,n为预测步长,randm是范围为(1,l-n+1)区间内的随机正整数,设预测序列号为j,智能变电站通信流量阈值模型生成公式如下:

式中,maxYj为序列号为j时刻处的最大值;minYj为序列号为j时刻处的最小值,k为通过算法筛选的FARIMA(p,d,q)模拟次数;

(b)生成不同显著性下的智能变电站通信流量阈值模型;

其公式如下:

其中P为置信度,α为显著性,Sinside为在流量阈值区间内的序列个数,Stotal为仿真预测的序列总数,由不同的Sinside得到不同显著性下的通信流量模型。

本发明的有益效果在于解决了智能变电站通信流量的建模以及预测问题;生成的智能变电站通信流量阈值模型对电力通信网络的规划以及异常检测具有指导意义。智能变电站流量阈值模型能实时监测流量走向,快速扫描全网并为日常网络维护提供实时、精准的网络流量流向和流量成分的分析,为未来网络优化、网络调整、网络建设提供决策支持的数据依据。同时正常通信流量阈值的生成为之后异常流量的检测提供了基础,通过分析变电站正常流量的情况,可以更好的总结,预警以及排除异常流量的情况。

附图说明

下面结合附图和实施例对本发明进一步说明;

图1是本发明的方法流程图;

图2(a)是聚合后的智能变电站站控层通信流量时间序列图;

图2(b)是聚合后的智能变电站站控层通信流量分布图;

图3是本发明所采用的三种计算Hurst的方法拟合曲线图;

图4是本发明对分形差分滤波后的序列进行ACF,PACF对比分析图;

图5是本发明采用的优化FARIMA模型对原序列的拟合效果图,以及残差图;

图6是本发明采用的优化FARIMA模型的预测效果与ARIMA模型的预测效果的对比;

图7(a)是本发明构建的置信度为95%的智能变电站通信流量阈值模型;

图7(b)是本发明构建的置信度为90%的智能变电站通信流量阈值模型。

具体实施方式

下面根据附图详细说明本发明,本发明的目的和效果将变得更加明显。

通过实地采集天津某110kV变电站实际数据流量,建立具有适当参数的流量模型。在实际变电站中,共有56个IED和3台监控机通过LAN(局域网)与双环网络结构相连。采样点是由探头机构通过采集SCADA伺服服务器(IBMX3650)端口数据而来的。测量的智能变电站站控层的聚合流量;这些流量能实现远程控制和高级管理服务。探头测量数据流的原始统计时间步长为1ms,表示数据每毫秒刷新并存储一次。在整个SCN操作周期(即24小时) 中记录了8.64×107个数据;通过分析网络流量的特性,发现智能变电站站控层流量也存在很大程度上的自相似特性;因此对流量数据采取聚合方式。其聚合周期为6000ms(1min),聚合后数据量减小为1440个,由0:05分开始到24:05截止。相当于每分钟截取1个数据点,持续一天。其聚合后的序列图与分布图分别如图2(a),图2(b)所示。可以看出序列的分布近似于正态分布,即均值左右的流量值的频率较大。对1440个数据进行均值化处理,方便对其分析。求得序列的均值为:0.9492(Mbit/s)。可以看出智能变电站站控层流量并不是很大。

计算序列Hurst参数。采用三种方法:方差时间法,绝对值法以及R/S留数法;三种方法的拟合曲线如图3所示。由于不同方法对时间序列的自相关程度的解释能力与倾向不同。计量经济学中上常常采用这三者的平均值来估计序列的Hurst参数;计算得aggver=0.7837, diffvar=0.6650,R/S=0.6345。最终得到的H参数为0.6944>0.5,证明序列存在一定程度上的长相关性。

采用5000阶数的滤波器,对原序列进行分型差分为0.1944的滤波;如图4所示,做出原序列以及分形差分后序列的ACF与PACF图;分形差分之后d=0.0076≈0;可以看出,分形差分这一个过程很好的消除了序列的长程相关性。且序列的ACF,PACF图除了前三阶之外,后面滞后的ACF,PACF值均在Statgraphics软件所给的±0.1的置信区间以内。因此判断出序列的长程相关性被很好的消除了,且序列的原有信息得到了有效的保留。

对滤波后的序列进行平稳性分析(ADF test),如下表所示;

表1

单位根统计量ADF=-17.49669都小于EVIEWS给出的显著性水平1%-10%的ADF临界值,所以拒绝原假设,该序列是平稳的。满足平稳性的序列可以对其进行ARMA(p,q)建模分析。

通过了平稳性测试之后方可使用AIC,BIC准则对模型进行ARMA(p,q)定阶。其6阶内的AIC系数如表2所示;

表2

通过算法比对,发现在p∈[7,14],q∈[8,12]这个区域内的AIC值较大。进一步分析其具体的数值时发现ARMA(12,9)模型的AIC值最小,因此可以采用ARMA(12,9)模型对滤波后的序列进行分析。对通过ARMA(12,9)的数据再进行反差分处理,即可得到原序列的拟合值。其E-Views采用的最大似然估计得的各阶系数,部分拟合优度以及单位根情况如下表3 所示。

表3

对ARMA(12,9)的参数情况进行解读,其R-squared值为0.750234,与同类时间序列相比较大,说明模型对数据的拟合程度较好。但拟合程度高并不代表对模型的解释程度充分,因此还需要对序列进行残差检验。其残差检验表如下所示,

表4

残差序列的相关分析结果:

1.可以看出自相关系数始终在零周围处波动,判定该残差为平稳时间序列

2.看Q统计量的Prob值:该统计量的原假设为Xt的1期,2期……32期的自相关系数均等于0,备择假设为自相关系数中至少有一个不等于0。由表4可知,该Prob值都>10%的显著性水平,所以接受原假设,即序列是纯随机序列,即白噪声序列。

由此模型通过了残差检验,对原有的数据信息完成了充分的提取工作。剩下的残差可以理解为网络流量的不规则变动性。

所以最终选择FARIMA(12,0.1944,9)模型对智能变电站站控层数据流量进行建模分析。模型的表达式为:

其中yt为时间序列的第t个值;εt为随机扰动序列的第t个值;为d=0.1944的差分算子。至此,FARIMA(p,d,q)模型已经建立完成,其序列拟合以及残差如图5所示。

对原序列的1400个数据进行线下训练,后40个数据进行预测分析。将得到的40个预测序列与原始数据进行比对,分析优化的FARIMA(p,d,q)模型是否有预测站控层正常流量的能力;同时设计ARIMA(p,d,q)模型作为对照组。

图6为优化FARIMA(p,d,q)模型与ARIMA(p,d,q)模型的预测对比图。可以看出,模型的预测效果不错;其中SSE=0.764,MSE=0.0191,RMSE=0.138。可以看出其MSE值较小,对模型的切合程度较高。另外可以看出预测序列基本可以反映出流量数据的变化情况;其趋势与真实流量数据的趋势几乎相同。由于网络流量存在不规则变动性,此部分为无法预测的值;因此预测序列与真实流量数据不可能完全重合。

多次运行FARIMA(p,d,q)模型,对所有通过FARIMA(p,d,q)模型的预测数据进行筛选分析,即:

其中Xt为原始序列,为第i次模拟的第j个预测序列值,n为预测步长,randm是范围为(1,l-n+1)区间内的随机正整数。以预测序列号j为例,智能变电站通信流量阈值模型生成公式如下:

式中,maxYj为序列号为j时刻处的最大值;minYj为序列号为j时刻处的最小值,k为通过算法筛选的FARIMA(p,d,q)模拟次数。

从统计学意义上分析不同显著性下的流量阈值模型,其公式如下:

其中P为置信度,α为显著性,Sinside为在流量阈值区间内的序列个数,Stotal为仿真预测的序列总数。由不同的Sinside可以得到不同显著性下的通信流量模型。当仿真次数门限较大时,有此时置信度为95%;当仿真次数门限较小时,有此时置信度为90%。

如图7(a)所示为置信度95%的变电站通信流量阈值模型,图7(b)所示为置信度90%的变电站通信流量阈值模型。通过上述模型,我们可以近似得到较短时间间隔内某时刻的正常流量阈值。例如在序列值为25的时刻,当置信区间为95%时其正常流量的区间为[7.7,1.22],当置信区间为90%时其正常流量的区间为[7.2,1.02]。由此我们可以得到站控层正常情况下某时刻通信流量的阈值模型。

不同的置信区间所反映的正常流量模式有所差别,但其大体的流量分布与趋势规律是相似的。在后续的异常检测中可以根据不同的侧重点对流量模型的非正常情况做分析。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号