首页> 中国专利> 基于特性指标的电力输变电设备负荷坏数据检测算法

基于特性指标的电力输变电设备负荷坏数据检测算法

摘要

一种基于特性指标的电力输变电设备负荷坏数据检测算法,步骤为:计算聚类有效性指标,确定最佳聚类数k,用集成聚类算法对负荷曲线聚类,得到每一类的特征曲线C

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-04-10

    授权

    授权

  • 2017-07-18

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160826

    实质审查的生效

  • 2017-01-25

    公开

    公开

说明书

技术领域

本发明涉及电力系统大数据挖掘领域,特别是一种基于特性指标的电力输变电设备负荷坏数据检测算法。

背景技术

随着电力系统信息化程度的不断提高和电力大数据量的迅速增长,研究适用于电力大数据挖掘的算法并建立有效的知识发现模型,对智能电网业务模式创新和发展具有重要意义。

电力系统中,各类数据采集与监控系统采集的输变电主设备负荷数据是电力系统调度运行、安全稳定分析、设备状态与风险评估基础。然而,在电力系统的实际运行中,一方面由于数据采集通道错误、远程终端单元故障等原因会导致观测数据出现反常态势,以致与大多数观测值不一致;另一方面,由于特殊事件(如线路检修、切负荷停电、大事件冲击等)引起负荷的异常变化,也会导致观测数据违背常规。此外,数据计量装置或存储设备故障也可能导致部分负荷数据缺失。因此,在进行负荷数据分析与建模之前,必须对原始负荷数据中的异常数据进行有效的检测和辨识。

这里所说的负荷缺坏数据的识别与处理基于以下两个前提条件:(1)负荷数据具有规律性和随机性两个特点。规律性是负荷坏数据辨识与修正的基础,而随机性确定了负荷修正值在统计学意义下的置信度与置信区间。(2)负荷曲线具有纵向平滑性及横向相似性。平滑性是指电力系统相近时刻负荷变化较小,相似性是指相邻且类型相同的负荷曲线形状非常相似。

目前国内外对电力负荷数据异常辨识的研究存在一些普遍性的问题。首先,文献中的方法都是针对小规模数据集,对于大规模数据集的计算效率较低;其次,大多数方法没有将负荷曲线的平滑性与相似性综合考虑,从而导致辨识与修正的准确率较低;最后,这些方法对单个离散坏数据的处理效果较好,而对于大片连续坏数据的处理效果一般。

发明内容

本发明的目的是为了解决上述问题,设计了一种基于特性指标的电力输变电设备负荷坏数据检测算法。具体设计方案为:

一种基于特性指标的电力输变电设备负荷坏数据检测算法,其特征在于,步骤为:

令迭代次数为r,用户总数为M,且用户的数量为至少一个,

步骤一、令r=1,

步骤二、计算聚类有效性指标,确定最佳聚类数k,

步骤三、用集成聚类算法对负荷曲线聚类,得到每一类的特征曲线Cp

步骤四、计算每一类中各负荷曲线在各时刻时,实际负荷曲线与特征曲线的差异程度zscore。

步骤五、用移动中值平滑算法对每一条负荷曲线进行平滑处理,

步骤六、将原始负荷曲线和平滑负荷曲线作差得到误差序列en

步骤七、计算各时刻的平滑性指标mscore,

步骤八、检测坏数据,

步骤九、令迭代次数r=r+1,若r>M,重复步骤二至步骤九,若r<M,则完成检测。

步骤二中,得到K个类簇{Xp,p=1,2,…,K},步骤三中,得到特征曲线,其中p为迭代聚类数,h为时刻值。

步骤四中,计算第p类各条曲线在t时刻的相似性指标,

>zscore(p,i,t)=xi(t)-xp(t)xp(t)>

重复步骤四,直至每条负荷曲线都被处理过,该指标表示负荷曲线上某点与特征曲线上对应点的偏离程度,zscore的值越大表明该点的异常度越大。

步骤五中,对每一条负荷曲线进行平滑处理的流程为:

输入:时间序列x={x1,x2,…,xn};参数k

输出:平滑处理后的时间序列yn

令迭代次数r=1

取窗口宽度为2k+1,则xi的平滑值yi为xi-k,xi-k+1,…,xi+k-1,xi+k的中值:

yi=median{xi-k,xi-k+1,…,xi+k-1,xi+k}

令窗口宽度取3,即k=1。

则边界点的平滑值为:

y1=median{y2,y3,…,3y2-2y3}

yn=median{yn,yn-1,…,3yn-1-2yn}

重复以上步骤,直至序列值不再变化,

移动中值平滑法由于采用的是中位数,

对每条负荷曲线用3点移动中值平滑法计算其平滑曲线,得到

步骤六中,误差序列en的获得方法为:

>en=yn-xn={yn(h)-xn(h),h=1,2,...,H}>

步骤七中,计算xn各时刻的平滑性指标mscore,其计算公式为:

>mscore=en(h)/yn(h),h=1,2,...,H>

该指标表示负荷曲线上某点与平滑曲线上对应点的偏离程度,zscore的值越大表明该点的异常度越大。

步骤八中,坏数据检测公式为:

|zscore|>thr1,|mscore|>thr2

所述thr1为zscore的阀值,所述thr2为所述mscore的阀值。

通过本发明的上述技术方案得到的基于特性指标的电力输变电设备负荷坏数据检测算法,其有益效果是:

移动中值平滑法由于采用的是中位数而不是平均值,因此可以有效消除离群点对其邻近点平滑值的影响,具有较好的稳定性。

对于大规模数据集的计算效率较高,辨识与修正的准确率较高能够有效处理连续坏数据。

附图说明

图1是本发明所述基于特性指标的电力输变电设备负荷坏数据检测算法的步骤流程图;

图2是本发明所述zscore的各时刻箱线图;

图3是本发明所述mscore的各时刻箱线图;

图4是本发明所述输变电主设备负荷数据的zscore散点图;

图5是本发明所述输变电主设备负荷数据的mscore散点图。

具体实施方式

下面结合附图对本发明进行具体描述。

图1是本发明所述基于特性指标的电力输变电设备负荷坏数据检测算法的

步骤流程图,如图1所示,一种基于特性指标的电力输变电设备负荷坏数据检测算法,其特征在于,步骤为:

令迭代次数为r,设备负荷曲线总数为M,且设备负荷曲线的数量为至少一个,

步骤一、令r=1,

步骤二、计算聚类有效性指标,确定最佳聚类数k,

步骤三、用集成聚类算法对负荷曲线聚类,得到每一类的特征曲线Cp

步骤四、计算每一类中各负荷曲线在各时刻时,实际负荷曲线与特征曲线的差异程度zscore。

步骤五、用移动中值平滑算法对每一条负荷曲线进行平滑处理,

步骤六、将原始负荷曲线和平滑负荷曲线作差得到误差序列en

步骤七、计算各时刻的平滑性指标mscore,

步骤八、检测坏数据,

步骤九、令迭代次数r=r+1,若r>M,重复步骤二至步骤九,若r<M,则完成检测。

步骤二中,得到K个类簇{Xp,p=1,2,…,K},步骤三中,得到特征曲线,其中p为迭代聚类数,h为时刻值。

步骤四中,计算第p类各条曲线在t时刻的相似性指标,

>zscore(p,i,t)=xi(t)-xp(t)xp(t)>

重复步骤四,直至每条负荷曲线都被处理过,该指标表示负荷曲线上某点与特征曲线上对应点的偏离程度,zscore的值越大表明该点的异常度越大。

步骤五中,对每一条负荷曲线进行平滑处理的流程为:

输入:时间序列x={x1,x2,…,xn};参数k

输出:平滑处理后的时间序列yn

令迭代次数r=1

取窗口宽度为2k+1,则xi的平滑值yi为xi-k,xi-k+1,…,xi+k-1,xi+k的中值:

yi=median{xi-k,xi-k+1,…,xi+k-1,xi+k}

令窗口宽度取3,即k=1。

则边界点的平滑值为:

y1=median{y2,y3,…,3y2-2y3}

yn=median{yn,yn-1,…,3yn-1-2yn}

重复以上步骤,直至序列值不再变化,

移动中值平滑法由于采用的是中位数,

对每条负荷曲线用3点移动中值平滑法计算其平滑曲线,得到

步骤六中,误差序列en的获得方法为:

>en=yn-xn={yn(h)-xn(h),h=1,2,...,H}>

步骤七中,计算xn各时刻的平滑性指标mscore,其计算公式为:

>mscore=en(h)/yn(h),h=1,2,...,H>

该指标表示负荷曲线上某点与平滑曲线上对应点的偏离程度,zscore的值越大表明该点的异常度越大。

步骤八中,坏数据检测公式为:

|zscore|>thr1,|mscore|>thr2

所述thr1为zscore的阀值,所述thr2为所述mscore的阀值。

取某省级电网185个电力用户一年365天的负荷数据,共67525条负荷曲线。每条负荷曲线记录全天的48点,共3241200个数据点。人为制造离散坏数据点675个,连续坏数据点125个,坏数据占比为0.025%。

实施例一

通过集成聚类法对67525条负荷曲线进行聚类,本实施例中得到K个类簇{Xp,p=1,2,…,K}及每一类的特征曲线本例中,H=48,且其中每个族类的曲线个数为n1,n2,…,nk,易知n1+n1+…+nk=67525。

实施例二

计算第一个类簇X1中n1条曲线与特征曲线C1在每个时刻的相似性指标zscore

>zscore(i,t)=xi(t)-C1(t)C1(t)>

式中,i=1,2,…,n1,t=1,2,…,48.

重复本实施例的上述计算过程,分别计算剩余k-1个类簇中剩余的负荷曲线的相似性指标zscore。

实施例三

取第一条负荷曲线x1,根据参数k设置窗口宽度,

本实时例中取k=3,

窗口宽度为2k+1,

x1(t)的平滑值y1(i)为x1(t-k),x1(t-k+1),…,x1(t+k-1),x1(t+k)的中值:

y1(t)=median{x1(t-k),x1(t-k+1),…,x1(t+k-1),x1(t+k)}

重复本实施例的上述计算过程,直至序列值不再变化。

根据本实施例的上述计算过程,对67525条负荷曲线xi都得出对应的yi

实施例四

计算每条负荷曲线的误差序列ei

ei=yi-xi={yi(t)-xi(t),t=1,2,…,48}

计算各条曲线各个时刻的平滑性指标mscore:

mscorei(t)=ei(t)/yi(t),h=1,2,…,48

实施例五

图2是本发明所述zscore的各时刻箱线图;图3是本发明所述mscore的各时刻箱线图,图2与图3的指标统计结果为根据实施例一至四获得,如图2、图3所示,由箱线图可见各时刻zscore和mscore的值都以0为中心;若用Q3表示上四分位数,Q1表示下四分位数,四分位间距IQR=Q3-Q1,则大多数点都位于偏离中位线±3IQR的范围内(即图中的上下边缘内);偏离箱线图中位线越远的点是坏数据的可能性越大。

实施例六

为了确定阈值thr1和thr2的取值,根据实施例一至五的计算指标统计结果,作出zscore和mscore的散点图。图4是本发明所述负荷数据的zscore散点图;图5是本发明所述负荷数据的mscore散点图,如图4图5所示,图4和图5中的离群点表示负荷曲线的坏数据。可见zscore比mscore的波动性更大。

根据zscore和mscore的散点图,本算例中thr1取0.65,thr2取0.3。获得检测结果:

其中漏检数表示把坏数据检测为正常数据,错检表示把正常数据检测为坏数据,检测错误率为漏检数与误检数之和与坏数据总量的比值。

由上表可见,本文提出的负荷曲线坏数据检测算法具有较高的准确率。随着坏数据数量的增大,漏检数逐渐增大,误检数变化较小,算法的检测错误率逐渐减小。

实施例八

在实施例七的检测结果中,取坏数据数量为800,研究阈值thr1=0.65与thr2=0.3对检测结果的影响。

由计算结果可见,阈值thr1和thr2的取值对于检测结果具有重要的影响,检测错误率与thr1和thr2的关系曲线基本都呈U形,即存在最优的阈值thr1和thr2组合,使得检测错误率最小。选取合理的thr1和thr2对于负荷曲线坏数据检测非常重要,阈值的选取可以借助于zscore和mscore的散点图。

上述技术方案仅体现了本发明技术方案的优选技术方案,本技术领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理,属于本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号