首页> 中国专利> 基于电力数据的异常检测算法

基于电力数据的异常检测算法

摘要

本发明公开了一种基于电力数据的异常检测算法,分析功率的差值,采用当前时刻减去前面第四个时刻的值,并且连续4个值都低于阈值则判断为异常;画出其当前时刻功率差值的直方图,采用核密度估计算法,设其概率密度函数为f,公式如下:本发明通过对所采集的功率数据进行差值计算,画出其当前时刻的历史数据的直方图,由于异常数据较少,可将其近似为高斯模型,根据历史数据的分布,来计算当前时刻该功率值出现的概率,低于某个阈值则为异常。

著录项

  • 公开/公告号CN112819088A

    专利类型发明专利

  • 公开/公告日2021-05-18

    原文格式PDF

  • 申请/专利权人 苏州安极能新能源发展有限公司;

    申请/专利号CN202110190741.0

  • 申请日2021-02-20

  • 分类号G06K9/62(20060101);G06Q50/06(20120101);

  • 代理机构32474 苏州高专知识产权代理事务所(特殊普通合伙);

  • 代理人冷泠

  • 地址 215000 江苏省苏州市吴中区太湖东路9号澹台湖大厦(武珞科技园)801-2室

  • 入库时间 2023-06-19 11:02:01

说明书

技术领域

本发明属于电力数据异常检测技术领域,特别是涉及一种基于电力数据的异常检测算法。

背景技术

在电力数据异常检测中大多使用k-means算法和孤立森林算法,其中k-means算法对初始中心敏感,容易陷入局部最优并且需要事先确定聚类的数量等问题,而使用孤立森林算法时由于电力数据波动较大,会将正常数据检测为异常。

发明内容

本发明的目的在于提供一种基于电力数据的异常检测算法,通过对所采集的功率数据进行差值计算,画出其当前时刻的历史数据的直方图,由于异常数据较少,可将其近似为高斯模型,根据历史数据的分布,来计算当前时刻该功率值出现的概率,低于某个阈值则为异常。

为达上述目的,本发明是通过以下技术方案实现的:

基于电力数据的异常检测算法,分析功率的差值,采用当前时刻减去前面第四个时刻的值,并且连续4个值都低于阈值则判断为异常;画出其当前时刻功率差值的直方图,采用核密度估计算法,设其概率密度函数为f,公式如下:

进一步的,用平均积分平方误差来衡量带宽h的优劣,公式如下:

在弱假设下,

其中,

R(g)=∫g(x)

m

为了使MISE(h)最小,则转化为求极点问题,

进一步的,K的公式为:

进一步的,取值范围为0~100。

进一步的,交叉验证方法采用留一法。

本发明的实施例具有以下有益效果:通过对所采集的功率数据进行差值计算,画出其当前时刻的历史数据的直方图,由于异常数据较少,可将其近似为高斯模型,根据历史数据的分布,来计算当前时刻该功率值出现的概率,低于某个阈值则为异常。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为功率差值直方分布图。

图2为实施例1中去除周日数据的异常数据。

图3为实施例1中去除周日数据的检测结果。

图4为实施例1中周日异常数据。

图5为实施例1中周日异常数据的检测结果。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。

为了保持本发明实施例的以下说明清楚且简明,本发明省略了已知功能和已知部件的详细说明。

在电力数据异常检测中,所采集的数据为电流、电压、功率、频率等数据,但电压基本稳定在330V,频率为50HZ,并不会因为异常情况而发生改变,又由于功率为电压与电流的乘积,很好的显示异常发生时的情况,故本发明解决问题的思路在于对功率数据进行分析。

电力数据异常情况大多体现在功率的突增和突降,所以采用功率的差值进行分析。但由于功率数据比不稳定,正常情况也会有突变,故采用当前时刻减去前面第四个时刻的值,并且连续4个值都低于阈值则判断为异常。

画出其当前时刻功率差值的直方图,根据图1可知其近似于高斯分布,故可采用核函数为高斯函数的核密度估计算法。

核密度估计(Kernel density estimation),是一种用于估计概率密度函数的非参数方法,为独立同分布F的n个样本点,设其概率密度函数为f,核密度估计为以下:

K(.)为核函数(非负、积分为1,符合概率密度性质,并且均值为0),为高斯函数

h>0为一个平滑参数,称作带宽(bandwidth),也看到有人叫窗口。

带宽反映了KDE曲线整体的平坦程度,也即观察到的数据点在KDE曲线形成过程中所占的比重。带宽越大,观察到的数据点在最终形成的曲线形状中所占比重越小,KDE整体曲线就越平坦;带宽越小,观察到的数据点在最终形成的曲线形状中所占比重越大,KDE整体曲线就越陡峭。

用平均积分平方误差(mean intergrated squared error)来衡量带宽h的优劣。

在弱假设下,

其中,

R(g)=∫g(x)

m

为了使MISE(h)最小,则转化为求极点问题,

K即为公式(2),f(x)为功率差值直方分布近似的高斯分布概率密度函数。

本次用GridSearchCV函数来确定h,分类器用高斯函数,取值范围为0~100,模型评价标准为平均积分平方误差,采用交叉验证中的留一法。

留一法就是每次只留下一个样本做测试集,其他样本做训练集,如果有k个样本,则需要训练k次,测试k次。留一法计算繁琐但样本利用率高。

实施例1

请参阅图2至图5,由于该公司周日用电数据与周一至周六用电数据相差较大,故将数据分为去除周日数据和周日数据,分别用KDE算法进行检测,通过GridSearchCV函数分别计算最佳带宽,算得去除周日数据带宽为21.36,周日数据带宽为33.05,确定好带宽用KDE算法进行训练根据实际情况调整阈值,去除周日数据阈值为0.0007,周日数据阈值为0.001。

图2为10月17日及其前7天的数据,其中Z1为异常数据,可以发现在15时25分出现异常,15点55分恢复。

检测结果如图3所示,其中一条为10月17日一天的功率数据,另一条为KDE计算出的概率曲线,Z2为检测为异常(突降和突增)进行报警。

图4为8月30日及其前7天的数据,其中Z3为异常数据,可以发现在7时40分出现异常。

检测结果如图5所示,其中一条为8月30日一天的功率数据,另一条为KDE计算出的概率曲线,Z4为检测为异常(突降或突增)进行报警。

本发明通过对所采集的功率数据进行差值计算,画出其当前时刻的历史数据的直方图,由于异常数据较少,可将其近似为高斯模型,根据历史数据的分布,来计算当前时刻该功率值出现的概率,低于某个阈值则为异常。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制;方位词“内、外”是指相对于各部件本身的轮廓的内外。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号