首页> 中国专利> 一种基于决策树算法的电能表功能异常评估方法及系统

一种基于决策树算法的电能表功能异常评估方法及系统

摘要

本发明提供一种基于决策树算法的电能表功能异常评估方法及系统,其中方法包括:对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据;根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征项数据;通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型;将所述特征项数据输入所述计量设备功能异常评估模型,得到异常的判定结果。本发明利用功能异常的历史反馈工单提出了异常判定规则的修改建议,合理考虑了电表实际运行中的不同因素的影响,避免了几种较为普遍的误判情形,降低了运维成本。

著录项

  • 公开/公告号CN113011481A

    专利类型发明专利

  • 公开/公告日2021-06-22

    原文格式PDF

  • 申请/专利权人 广东电网有限责任公司计量中心;

    申请/专利号CN202110262053.0

  • 申请日2021-03-10

  • 分类号G06K9/62(20060101);G06Q10/00(20120101);G06Q10/06(20120101);G06Q50/06(20120101);

  • 代理机构44202 广州三环专利商标代理有限公司;

  • 代理人陈旭红;吴落

  • 地址 510000 广东省广州市越秀区东风东路水均岗8号

  • 入库时间 2023-06-19 11:32:36

说明书

技术领域

本发明涉及智能电表仪器检测技术领域,特别是涉及一种基于决策树算法的电能表功能异常评估方法及系统。

背景技术

由于国民经济的快速发展,日渐庞大的用电需求为电网运营管理提出了更高的要求,为保证向用户提供精准服务,信息化技术手段在电力系统得到越来越多的应用。然而,计量设备智能水平的不断提升也带来了新的问题,设备复杂性的持续增加使得计量装置异常表现的持续更加。各种类型的电能计量装置异常问题很大程度上影响着电网和用户之间的利益。对电能表进行运行监测和状态评估,及时发现计量设备功能异常情况并采取措施处理,保证设备的稳定运行,实现计量的可靠、准确,不仅有利于电网公司的经济效益和用户的切身利益,更有利于社会的和谐稳定。随着“互联网+”时代的来临,电力公司信息化工作日渐完善,用电信息采集数据的广度和深度也逐步提高,大数据特征愈发明显,如何通过上述海量的数据及时的判知各类异常,及早发现设备隐患并完成现场处置,已成为智能化运维工作的迫切需求。

目前国内研究电能计量设备功能异常主要方法是基于用户用电信息采集系统,包括智能电表在内地各种采集终端都可以自主地诊断自身运行状态,及时发现运行过程中自身出现的各种异常并实时上报到采集系统主站。这些采集信息如用户用电电量、电压、电流、频率等电能状态量为计量设备的远程监测提供了数据基础。

但是,现有技术存在以下问题:

(1)现行的功能异常诊断方法准确度还有提升空间,对现场故障存在较多误判情形,易将电参量的偶然波动判断为功能异常,造成时间和人力的耗费,给用户带来不便,导致电能表运行的维护成本过高;(2)模型适应性较差,基于某些实验地区的数据特征得到的诊断方案对数据的依赖性较强,对于用户用电特征有差异的地区不适用,对电网的实际情况缺乏考虑;(3)对异常产生的原因缺乏机理分析和实际数据验证,异常特征建模还需要考虑其与异常产生原因之间的关系,并通过现场反馈从而不断的完善。(4)决策树分类算法还不够完善,需要搜集大量现场实例完善运维反馈信息,对算法进行优化。

发明内容

为解决以上现有技术的问题,本发明提供一种基于决策树算法的电能表功能异常评估方法及系统,对计量装置在线功能异常评估模型进行完善,提升功能异常分析的准确度,提高功能异常的诊断效率,为智能化运维提供支撑。

本发明一个实施例提供一种基于决策树算法的电能表功能异常评估方法,包括:

对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据;其中,所述样本数据包括:训练集数据及测试集数据;

根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征项数据;

通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型;

将所述特征项数据输入所述计量设备功能异常评估模型,得到异常的判定结果。

进一步地,所述对获取到的原始测量数据进行预处理得到样本数据,具体地:

根据局部异常因子算法检测所述原始测量数据,将异常数据及缺失数据进行填充或过滤。

进一步地,所述将所述特征项数据输入所述计量设备功能异常评估模型,包括:

基于所述C4.5算法,计算所述特征项数据的信息增益;

将所述信息增益最大值所对应的特征项数据作为决策树根节点;

根据所述根节点的不同取值对应的子集递归生成决策树子节点,直至满足决策树生成条件。

进一步地,所述通过所述训练集数据,利用C4.5算法搭建决策树模型,包括:

获取目标样本个数占训练总样本的比例;

通过所述目标样本个数占训练总样本的比例计算训练集的类别信息熵;所述训练集的类别信息熵通过以下公式进行计算:

其中,Info(S)为训练集的类别信息熵,p

通过目标样本概率计算以特征项数据划分的条件信息熵;所述以特征项数据划分的条件信息熵通过以下公式进行计算:

其中,Info(S

将所述训练集以预设规则进行划分,得到若干子训练集;

通过所述训练集的类别信息熵、所述子训练集,计算特征项数据的条件信息熵;所述特征项数据的条件信息熵通过以下公式进行计算:

其中,Info

根据所述训练集的类别信息熵及所述特征项数据的条件信息熵计算条件特征项数据的信息增益;通过以下公式进行计算:

Gain(A,S)=Info(S)-Info

其中,Gain(A,S)为条件特征项数据的信息增益,Info(S)为训练集的类别信息熵,Info

通过当前样本个数占训练总样本的比例计算特征项数据在样本中的信息熵;所述特征项数据在样本中的信息熵通过以下公式计算:

其中,Info(A)为特征项数据在样本中的信息熵,p

通过所述条件特征项数据的信息增益及所述特征项数据在样本中的信息熵计算特征量项数据的信息增益;所述特征量项数据的信息增益通过以下公式进行计算:

其中,Gain(A,S)为条件特征项数据的信息增益,Info(A)为特征项数据在样本中的信息熵。

进一步地,所述由所述测试集数据对所述决策树模型进行剪枝优化处理,包括:

根据叶子节点的误差率及叶子节点归类的数据占所有数据的比例计算叶子节点的误差代价;所述叶子节点的误差代价通过以下公式计算:

C(t)=e(t)p(t);

其中,C(t)是叶子节点t的误差代价,e(t)为叶子节点的误差率,p(t)为叶子节点归类的数据占所有数据的比例;

根据所述叶子节点的误差代价、子树生长的叶子节点数、子树的误差代价计算树中每一个子树的表面误差率增益,所述树中每一个子树的表面误差率增益通过以下公式进行计算:

其中,α为每一个子树T

选取子树的表面误差率增益最小的子树,将其生成的分支进行剪枝;当多个子树的表面误差率增益同时到达最小时,取子树生长的叶子节点数最大的进行剪枝,直至到达模型的评估要求为止。

本发明一实施例提供一种基于决策树算法的电能表功能异常评估系统,包括:

预处理模块,用于对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据;其中,所述样本数据包括:训练集数据及测试集数据;

异常判定规则改进模块,用于根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征项数据;

计量设备功能异常评估模型建立模块,用于通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型;

判定结果生成模块,用于将所述特征项数据输入所述计量设备功能异常评估模型,得到异常的判定结果。

进一步地,所述预处理模块,还用于:

根据局部异常因子算法检测所述原始测量数据,将异常数据及缺失数据进行填充或过滤。

进一步地,所述判定结果生成模块,包括:

特征项数据的信息增益计算子模块,用于基于所述C4.5算法,计算所述特征项数据的信息增益;

将所述信息增益最大值所对应的特征项数据作为决策树根节点;

根据所述根节点的不同取值对应的子集递归生成决策树子节点,直至满足决策树生成条件。

进一步地,所述特征项数据的信息增益计算子模块,还用于:

获取目标样本个数占训练总样本的比例;

通过所述目标样本个数占训练总样本的比例计算训练集的类别信息熵;所述训练集的类别信息熵通过以下公式进行计算:

其中,Info(S)为训练集的类别信息熵,p

通过目标样本概率计算以特征项数据划分的条件信息熵;所述以特征项数据划分的条件信息熵通过以下公式进行计算:

其中,Info(S

将所述训练集以预设规则进行划分,得到若干子训练集;

通过所述训练集的类别信息熵、所述子训练集,计算特征项数据的条件信息熵;所述特征项数据的条件信息熵通过以下公式进行计算:

其中,Info

根据所述训练集的类别信息熵及所述特征项数据的条件信息熵计算条件特征项数据的信息增益;通过以下公式进行计算:

Gain(A,S)=Info(S)-Info

其中,Gain(A,S)为条件特征项数据的信息增益,Info(S)为训练集的类别信息熵,Info

通过当前样本个数占训练总样本的比例计算特征项数据在样本中的信息熵;所述特征项数据在样本中的信息熵通过以下公式计算:

其中,Info(A)为特征项数据在样本中的信息熵,p

通过所述条件特征项数据的信息增益及所述特征项数据在样本中的信息熵计算特征量项数据的信息增益;所述特征量项数据的信息增益通过以下公式进行计算:

其中,Gain(A,S)为条件特征项数据的信息增益,Info(A)为特征项数据在样本中的信息熵。

进一步地,所述计量设备功能异常评估模型建立模块,还用于:

根据叶子节点的误差率及叶子节点归类的数据占所有数据的比例计算叶子节点的误差代价;所述叶子节点的误差代价通过以下公式计算:

C(t)=e(t)p(t);

其中,C(t)是叶子节点t的误差代价,e(t)为叶子节点的误差率,p(t)为叶子节点归类的数据占所有数据的比例;

根据所述叶子节点的误差代价、子树生长的叶子节点数、子树的误差代价计算树中每一个子树的表面误差率增益,所述树中每一个子树的表面误差率增益通过以下公式进行计算:

其中,α为每一个子树T

选取子树的表面误差率增益最小的子树,将其生成的分支进行剪枝;当多个子树的表面误差率增益同时到达最小时,取子树生长的叶子节点数最大的进行剪枝,直至到达模型的评估要求为止。

与现有技术相比,本发明实施例的有益效果在于:

本发明一个实施例提供一种基于决策树算法的电能表功能异常评估方法,包括:对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据;其中,所述样本数据包括:训练集数据及测试集数据;根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征项数据;通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型;将所述特征项数据输入所述计量设备功能异常评估模型,得到异常的判定结果。本发明利用功能异常的历史反馈工单提出了异常判定规则的修改建议,合理考虑了电表实际运行中的不同因素的影响,避免了几种较为普遍的误判情形,降低了运维成本。此外,本方法提出的剪枝优化方法对于现有的决策树算法的进行优化,有效提高了算法的效率。

附图说明

为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的一种基于决策树算法的电能表功能异常评估方法的流程图;

图2是本发明另一实施例提供的反向电量异常验证结果的示意图;

图3是本发明又一实施例提供的不同算法误判率随训练样本变化的示意图;

图4是本发明某一实施例提供的一种基于决策树算法的电能表功能异常评估系统的装置图;

图5是本发明某一实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。

应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

目前国内研究电能计量设备功能异常主要方法是基于用户用电信息采集系统,包括智能电表在内地各种采集终端都可以自主地诊断自身运行状态,及时发现运行过程中自身出现的各种异常并实时上报到采集系统主站。这些采集信息如用户用电电量、电压、电流、频率等电能状态量为计量设备的远程监测提供了数据基础。国家电网公司基于采集系统中的原始数据完成了原始专家知识库构建,并设计了37个智能诊断分析模型,更加准确的对各类计量异常、用电异常实现远程诊断。

但是这些现有技术存在以下问题:

(1)现行的功能异常诊断方法准确度还有提升空间,对现场故障存在较多误判情形,易将电参量的偶然波动判断为功能异常,造成时间和人力的耗费,给用户带来不便,导致电能表运行的维护成本过过高。

(2)模型适应性较差,基于某些实验地区的数据特征得到的诊断方案对数据的依赖性较强,对于用户用电特征有差异的地区不适用,对电网的实际情况缺乏考虑。

(3)对异常产生的原因缺乏机理分析和实际数据验证,异常特征建模还需要考虑其与异常产生原因之间的关系,并通过现场反馈从而不断的完善。

(4)目前,决策树分类算法还不够完善,需要搜集大量现场实例完善运维反馈信息,对算法进行优化。

本发明的目的在于运用数据挖掘技术,对计量装置在线功能异常评估模型进行完善,提升功能异常分析的准确度,提高功能异常的诊断效率,为智能化运维提供支撑。

第一方面。

请参阅图1,本发明一实施例提供一种基于决策树算法的电能表功能异常评估方法,包括:

S10、对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据。

其中,所述样本数据包括:训练集数据及测试集数据。

在某一具体实施方式中,所述对获取到的原始测量数据进行预处理得到样本数据,具体地:

根据局部异常因子算法检测所述原始测量数据,将异常数据及缺失数据进行填充或过滤。

在某一具体实施例中,所述步骤S10包括:

(1):获取智能电表功能异常在线评估所需信息:台区及用户档案信息;智能电表采集电参量信息;功能异常上报信息。台区用户档案信息可以由所在地计量中心获得,智能电表运行过程中的电参量信息主要通过基于AMI的智能电表数据采集系统测量获得,功能异常上报信息由主站工作人员统计获得。

(2):对上述原始测量数据进行预处理。由于通信故障、电磁信号干扰等情况偶尔会导致一些数据异常的问题,例如有功示值突变、有功示值串户、电流电压示值远远超出正常值等现象,针对以上问题采用局部异常因子算法(LOF)等方法检测出异常值,避免该不良测量数据影响电表功能异常评估的准确性。

基于AMI数据采集系统所获取的原始测量数据进行预处理。利用LOF因子检测异常数据,将异常数据当作缺失数据处理,并对缺失数据进行填充或过滤。预处理后的数据作为特征工程的数据变量。该步骤主要包括:

1)异常值处理:

上述异常数据主要是由于通信故障、电磁信号干扰等情况偶尔会导致一些数据异常的问题,从而导致异常采样数据大幅度偏离附近几次采样数据。对于异常数据的识别主要通过异常因子算法(LOF)实现。基于异常因子算法的数据异常值识别过程如下:

1、输入第i天近一周的日冻结反向有功数据P

2、在P

3、计算p

4、计算p

reach_dist

5、计算p

6、计算p

若其LOF大于1,则认为是异常值,然后将其是为缺失值,用上述缺失值的处理办法进行缺失值补全。

2)缺失值处理:

对于少量缺失,采用线性插值法进行填充,具体如式,其中n取2。针对大量缺失,则将当天数据过滤,其中,缺失是否严重定义为一天电气参数缺失超过四个点数。

其中x

S20、根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征项数据。

在某一具体实施例中,所述步骤S20包括:

根据各种类型的功能产生原因以及反馈工单的分析,对传统的异常判定规则进行改进,提出异常特征。该步骤具体包括:

(1)对可能发生的各种异常的原因进行必要的机理分析,给出传统的异常判定规则。

(2)通过分析历史工单以及实地调查,总结传统判定算法判定功能异常的过程中存在的问题以及产生误判的原因,并针对相应的误判原因提出改进的判定规则。

(3)根据提出的规则通过一系列的特征工程工作生成具体的特征项。

在另一具体实施例中,所述步骤S20包括:

(1)传统的反向电量判断规则为:电能表反向有功总示值大于0,当天反向电量大于1KWh。

(2)根据历史工单反馈分析发现,产生反向电量的主要有以下几种情况:

情景1:用户属于光伏用户或小水电上网用户,发电期间向电网传输电能;

情景2:用户内部有电机类或能量转换设备,此类型设备具体工作过程中会引起反向电量;

情景3:用户内部有感性负载;

情景4:拥有多电源的用户在并列运行时会向电网方向传送有功电能量;

情景5:容性补偿过大;

情景6:接线错误,包括电流互感器极性接反、相序接错;

情景7:表计内部故障;

根据现场调研以及历史工单的反馈发现,上述出现几种情况虽均表现为反向电量,但由于电能表计量功能异常引起的反向电量异常情况只有情景7;而其他情况下,电能表计量功能实际正常,但根据传统判断规则,将会造成误判。

(3)针对第(2)点提出的误判情形,对传统规则进行修改,提出改进的判断规则如下:

1)按照传统电能表反向电量异常判定规则进行反向电量的初步判断;满足则判为反向电量异常疑似表,然后进行下一步的判断;

2)判断用户是否在光伏发电用户或小水电上网用户名单中,如果在,则剔除,如果不在,则进行下一步的判断;

3)判断用户是否存在某一相或多相96点电流全为负,如果存在则可推断为接线错误导致的反向电量异常,如果不存在,则进行下一步判断;

4)判断用户正向有功电量走字是否远大于反向有功电量走字,本文采用反向电量和正向电量的比值M,并根据接线方式设置阈值。通过大量的实地考察,最终将阈值设定为:单相电能表M=0.1,三相三线电能表M=0.9,三相四线电能表M=0.45。如果大于设定的阈值,则判定为现场异常,下发工单进行处理,否则进行下一步的判断;

5)用户在三天时间内正向有功电量走字情况是否正常;本文采用连续三天电量的方差,经大量实验后将阈值设定为1。

(4)根据第(3)点提出的改进的判断规则,提取如下特征量:

1)根据电能表反向有功总示值p(单位:kWh),计算反向电量概率特征量RAP:

依据相关规约可拟定参数a=0,b=1。该特征作为最基本的反向电流异常特征。

2)根据台区及用户档案信息中的光伏标识,计算光伏特征量PV:

增加该特征,有利于降低误判为情景1的概率。

3)根据电流信息,计算电流特征量Cur:

增加该特征,有利于降低误判为情景6的概率。

4)根据正反向电量,计算正反电量比特征量Ratio

其中M的取值如下:

增加该特征,有利于降低误判为情景4的概率。

5)根据反向电量,计算反向电量波动特征量Std_p:

增加该特征,有利于降低误判为情景2的概率。

6)根据电压、电流、功率,计算出电压与电流间的相角γ,然后根据γ计算感性负载特征量Inductive:

增加该特征,有利于降低误判为情景3的概率。

S30、通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型。

在某一具体实施方式中,所述由所述测试集数据对所述决策树模型进行剪枝优化处理,包括:

根据叶子节点的误差率及叶子节点归类的数据占所有数据的比例计算叶子节点的误差代价;所述叶子节点的误差代价通过以下公式计算:

C(t)=e(t)p(t);

其中,C(t)是叶子节点t的误差代价,e(t)为叶子节点的误差率,p(t)为叶子节点归类的数据占所有数据的比例;

根据所述叶子节点的误差代价、子树生长的叶子节点数、子树的误差代价计算树中每一个子树的表面误差率增益,所述树中每一个子树的表面误差率增益通过以下公式进行计算:

其中,α为每一个子树T

选取子树的表面误差率增益最小的子树,将其生成的分支进行剪枝;当多个子树的表面误差率增益同时到达最小时,取子树生长的叶子节点数最大的进行剪枝,直至到达模型的评估要求为止。

在某一具体实施方式中,所述C4.5算法是决策树算法的一种。决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去。相当于做一个投影,c=f(n),将样本经过一种变换赋予一种类别标签。决策树为了达到这一目的,可以把分类的过程表示成一棵树,每次通过选择一个特征pi来进行分叉。

S40、将所述特征项数据输入所述计量设备功能异常评估模型,得到异常的判定结果。

在某一具体实施方式中,所述将所述特征项数据输入所述计量设备功能异常评估模型,包括:

基于所述C4.5算法,计算所述特征项数据的信息增益;

将所述信息增益最大值所对应的特征项数据作为决策树根节点;

根据所述根节点的不同取值对应的子集递归生成决策树子节点,直至满足决策树生成条件。

在某一具体实施方式中,所述通过所述训练集数据,利用C4.5算法搭建决策树模型,包括:

获取目标样本个数占训练总样本的比例;

通过所述目标样本个数占训练总样本的比例计算训练集的类别信息熵;所述训练集的类别信息熵通过以下公式进行计算:

其中,Info(S)为训练集的类别信息熵,p

通过目标样本概率计算以特征项数据划分的条件信息熵;所述以特征项数据划分的条件信息熵通过以下公式进行计算:

其中,Info(S

将所述训练集以预设规则进行划分,得到若干子训练集;

通过所述训练集的类别信息熵、所述子训练集,计算特征项数据的条件信息熵;所述特征项数据的条件信息熵通过以下公式进行计算:

其中,Info

根据所述训练集的类别信息熵及所述特征项数据的条件信息熵计算条件特征项数据的信息增益;通过以下公式进行计算:

Gain(A,S)=Info(S)-Info

其中,Gain(A,S)为条件特征项数据的信息增益,Info(S)为训练集的类别信息熵,Info

通过当前样本个数占训练总样本的比例计算特征项数据在样本中的信息熵;所述特征项数据在样本中的信息熵通过以下公式计算:

其中,Info(A)为特征项数据在样本中的信息熵,p

通过所述条件特征项数据的信息增益及所述特征项数据在样本中的信息熵计算特征量项数据的信息增益;所述特征量项数据的信息增益通过以下公式进行计算:

其中,Gain(A,S)为条件特征项数据的信息增益,Info(A)为特征项数据在样本中的信息熵。

在某一具体实施例中,所述步骤S40通过对不同台区的数据进行测试,将提取的特征项输入到获取的决策树中,得到异常的判定结果。并现场获取电表的真实状态与S40评估结果进行对比,分析基于决策树算法的电能表功能异常评估方法的性能。

在另一具体实施例中,将以上样本数据集分为训练集和测试集,利用C4.5算法计算不同属性的信息增益,形成决策树的搭建,由测试集的数据对决策树进行训练,由最后确定的决策树形成计量设备功能异常评估模型。该步骤具体包括:

(1)将经过特征计算处理后的异常特征量作为电能表异常评估模型的输入样本;

(2)基于的C4.5算法,分别计算输入的异常特征量{RAP、PV、Cur、Ratio、Std_p、Inductive}的信息增益,并用最大信息增益所对应的特征量作为决策树根节点,对根节点的不同取值对应的子集递归用上述过程生成决策树子节点,直至满足决策树生成停止条件。其中,特征量A的改进信息增益计算步骤:

1)计算样本集S的类别信息熵Info(S):

其中p

2)计算特征量A的条件信息熵Info

其中S

其中,p

3)计算条件特征量A的信息增益Gain(A,S):

Gain(A,S)=Info(S)-Info

4)计算特征量A在样本S中的信息熵Info(A):

5)计算特征量A的信息增益:

(3)采用复杂性剪枝算法对(2)生成的决策树进行剪枝处理。剪枝优化步骤如下:

1)计算树中每一个子树T

其中

C(t)=e(t)p(t)

式中e(t)式叶子节点t的误差率;p(t)式叶子节点t归类的数据占所有数据的比例;C(T

2)选取α最小的子树,将其生成的分支进行剪枝。当多个子树的α值同时到达最小时,取

通过对台区内智能电表抽样检测,获得智能电表计量功能异常的实际类型,并与电能表计量异常估计类型对比,分析基于决策树算法的电表异常远程估计算法的性能。

对智能电表异常估计结果进行分析,具体包括:

(1)对台区内智能电表的实际异常类型进行检测:对于规模较大的台区,采用分层抽样的方式,按照各用户用电量水平进行分层,并确定各层抽取的样本数量;对于规模较小的台区,可以采用全部检测的方式,并统计反向电量异常的电能表ID号。

(2)获取抽取的智能电表的台区及用户档案信息和智能电表运行数据,并将其输入至特征量计算模块。得到的相应特征值输入至基于决策树算法的电能表异常评估模型,得到反向电量异常的电能表ID号。

(3)选取一个实际的台区进行现场测试,对步骤S14中评估算法的性能进行分析。

本发明实例首先对一个包含10万组数据的台区用电数据进行分析。对搜集的原始测量数据采用局部异常因子检测算法进行数据预处理,剔除了300组不良测量数据,并对剩余的测量数据提取相应的特征作为电表功能异常评估模型的输入变量。利用决策树算法判定电表的反向电量异常情况,得到的判定结果如图2所示。同样用传统的反向电量异常判定规则进行判定作为对比,此外,我们也进行了现场验证以判断模型的准确性。从图2可以看出,改进后的规则判断结果与真实值较为相近,而传统的异常判定规则存在较多误判情形。

此外,我们还对不同算法的性能进行分析,综合比较了ID3、C4.5和进行剪枝优化的C4.5算法误判率,图3显示了各个算法的误判率随训练样本数目的变化,可以看出训练样本数目增加会显著降低每一个算法的误判率,经过剪枝优化的C4.5算法性能最好。

第二方面。

请参阅图4,本发明一实施例提供一种基于决策树算法的电能表功能异常评估系统,包括:

预处理模块10,用于对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据。

其中,所述样本数据包括:训练集数据及测试集数据。

在某一具体实施方式中,所述对获取到的原始测量数据进行预处理得到样本数据,具体地:

根据局部异常因子算法检测所述原始测量数据,将异常数据及缺失数据进行填充或过滤。

在某一具体实施例中,所述预处理模块10还用于:

(1)获取智能电表功能异常在线评估所需信息:台区及用户档案信息;智能电表采集电参量信息;功能异常上报信息。台区用户档案信息可以由所在地计量中心获得,智能电表运行过程中的电参量信息主要通过基于AMI的智能电表数据采集系统测量获得,功能异常上报信息由主站工作人员统计获得。

(2)对上述原始测量数据进行预处理。由于通信故障、电磁信号干扰等情况偶尔会导致一些数据异常的问题,例如有功示值突变、有功示值串户、电流电压示值远远超出正常值等现象,针对以上问题采用局部异常因子算法(LOF)等方法检测出异常值,避免该不良测量数据影响电表功能异常评估的准确性。

基于AMI数据采集系统所获取的原始测量数据进行预处理。利用LOF因子检测异常数据,将异常数据当作缺失数据处理,并对缺失数据进行填充或过滤。预处理后的数据作为特征工程的数据变量。该步骤主要包括:

1)异常值处理:

上述异常数据主要是由于通信故障、电磁信号干扰等情况偶尔会导致一些数据异常的问题,从而导致异常采样数据大幅度偏离附近几次采样数据。对于异常数据的识别主要通过异常因子算法(LOF)实现。基于异常因子算法的数据异常值识别过程如下:

1、输入第i天近一周的日冻结反向有功数据P

2、在P

3、计算p

4、计算p

reach_dist

5、计算p

6、计算p

若其LOF大于1,则认为是异常值,然后将其是为缺失值,用上述缺失值的处理办法进行缺失值补全。

2)缺失值处理:

对于少量缺失,采用线性插值法进行填充,具体如式,其中n取2。针对大量缺失,则将当天数据过滤,其中,缺失是否严重定义为一天电气参数缺失超过四个点数。

其中x

异常判定规则改进模块20,用于根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征项数据。

在某一具体实施例中,所述异常判定规则改进模块20还用于:

根据各种类型的功能产生原因以及反馈工单的分析,对传统的异常判定规则进行改进,提出异常特征。该步骤具体包括:

(1)对可能发生的各种异常的原因进行必要的机理分析,给出传统的异常判定规则;

(2)通过分析历史工单以及实地调查,总结传统判定算法判定功能异常的过程中存在的问题以及产生误判的原因,并针对相应的误判原因提出改进的判定规则;

(3)根据提出的规则通过一系列的特征工程工作生成具体的特征项。

在另一具体实施例中,所述异常判定规则改进模块20还用于:

(1)传统的反向电量判断规则为:电能表反向有功总示值大于0,当天反向电量大于1KWh。

(2)根据历史工单反馈分析发现,产生反向电量的主要有以下几种情况:

情景1:用户属于光伏用户或小水电上网用户,发电期间向电网传输电能;

情景2:用户内部有电机类或能量转换设备,此类型设备具体工作过程中会引起反向电量;

情景3:用户内部有感性负载;

情景4:拥有多电源的用户在并列运行时会向电网方向传送有功电能量;

情景5:容性补偿过大;

情景6:接线错误,包括电流互感器极性接反、相序接错;

情景7:表计内部故障;

根据现场调研以及历史工单的反馈发现,上述出现几种情况虽均表现为反向电量,但由于电能表计量功能异常引起的反向电量异常情况只有情景7;而其他情况下,电能表计量功能实际正常,但根据传统判断规则,将会造成误判。

(3)针对第(2)点提出的误判情形,对传统规则进行修改,提出改进的判断规则如下:

1)按照传统电能表反向电量异常判定规则进行反向电量的初步判断;满足则判为反向电量异常疑似表,然后进行下一步的判断;

2)判断用户是否在光伏发电用户或小水电上网用户名单中,如果在,则剔除,如果不在,则进行下一步的判断;

3)判断用户是否存在某一相或多相96点电流全为负,如果存在则可推断为接线错误导致的反向电量异常,如果不存在,则进行下一步判断;

4)判断用户正向有功电量走字是否远大于反向有功电量走字,本文采用反向电量和正向电量的比值M,并根据接线方式设置阈值。通过大量的实地考察,最终将阈值设定为:单相电能表M=0.1,三相三线电能表M=0.9,三相四线电能表M=0.45。如果大于设定的阈值,则判定为现场异常,下发工单进行处理,否则进行下一步的判断;

5)用户在三天时间内正向有功电量走字情况是否正常;本文采用连续三天电量的方差,经大量实验后将阈值设定为1。

(4)根据第(3)点提出的改进的判断规则,提取如下特征量:

1)根据电能表反向有功总示值p(单位:kWh),计算反向电量概率特征量RAP:

依据相关规约可拟定参数a=0,b=1。该特征作为最基本的反向电流异常特征。

2)根据台区及用户档案信息中的光伏标识,计算光伏特征量PV:

增加该特征,有利于降低误判为情景1的概率。

3)根据电流信息,计算电流特征量Cur:

增加该特征,有利于降低误判为情景6的概率。

4)根据正反向电量,计算正反电量比特征量Ratio

其中M的取值如下:

增加该特征,有利于降低误判为情景4的概率。

5)根据反向电量,计算反向电量波动特征量Std_p:

增加该特征,有利于降低误判为情景2的概率。

6)根据电压、电流、功率,计算出电压与电流间的相角γ,然后根据γ计算感性负载特征量Inductive:

增加该特征,有利于降低误判为情景3的概率。

计量设备功能异常评估模型建立模块30,用于通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型。

在某一具体实施方式中,所述计量设备功能异常评估模型建立模块30,还用于:

根据叶子节点的误差率及叶子节点归类的数据占所有数据的比例计算叶子节点的误差代价;所述叶子节点的误差代价通过以下公式计算:

C(t)=e(t)p(t);

其中,C(t)是叶子节点t的误差代价,e(t)为叶子节点的误差率,p(t)为叶子节点归类的数据占所有数据的比例;

根据所述叶子节点的误差代价、子树生长的叶子节点数、子树的误差代价计算树中每一个子树的表面误差率增益,所述树中每一个子树的表面误差率增益通过以下公式进行计算:

其中,α为每一个子树T

选取子树的表面误差率增益最小的子树,将其生成的分支进行剪枝;当多个子树的子树的表面误差率增益同时到达最小时,取子树生长的叶子节点数最大的进行剪枝,直至到达模型的评估要求为止。

判定结果生成模块40,用于将所述特征项数据输入所述计量设备功能异常评估模型,得到异常的判定结果。

在某一具体实施方式中,所述判定结果生成模块40包括:

特征项数据的信息增益计算子模块,用于基于所述C4.5算法,计算所述特征项数据的信息增益;

将所述信息增益最大值所对应的特征项数据作为决策树根节点;

根据所述根节点的不同取值对应的子集递归生成决策树子节点,直至满足决策树生成条件。

在某一具体实施方式中,所述特征项数据的信息增益计算子模块,还用于:

获取目标样本个数占训练总样本的比例;

通过所述目标样本个数占训练总样本的比例计算训练集的类别信息熵;所述训练集的类别信息熵通过以下公式进行计算:

其中,Info(S)为训练集的类别信息熵,p

通过目标样本概率计算以特征项数据划分的条件信息熵;所述以特征项数据划分的条件信息熵通过以下公式进行计算:

其中,Info(S

将所述训练集以预设规则进行划分,得到若干子训练集;

通过所述训练集的类别信息熵、所述子训练集,计算特征项数据的条件信息熵;所述特征项数据的条件信息熵通过以下公式进行计算:

其中,Info

根据所述训练集的类别信息熵及所述特征项数据的条件信息熵计算条件特征项数据的信息增益;通过以下公式进行计算:

Gain(A,S)=Info(S)-Info

其中,Gain(A,S)为条件特征项数据的信息增益,Info(S)为训练集的类别信息熵,Info

通过当前样本个数占训练总样本的比例计算特征项数据在样本中的信息熵;所述特征项数据在样本中的信息熵通过以下公式计算:

其中,Info(A)为特征项数据在样本中的信息熵,p

通过所述条件特征项数据的信息增益及所述特征项数据在样本中的信息熵计算特征量项数据的信息增益;所述特征量项数据的信息增益通过以下公式进行计算:

其中,Gain(A,S)为条件特征项数据的信息增益,Info(A)为特征项数据在样本中的信息熵。

在某一具体实施例中,所述通过对不同台区的数据进行测试,将提取的特征项输入到获取的决策树中,得到异常的判定结果。并现场获取电表的真实状态与评估结果进行对比,分析基于决策树算法的电能表功能异常评估方法的性能。

在另一具体实施例中,将以上样本数据集分为训练集和测试集,利用C4.5算法计算不同属性的信息增益,形成决策树的搭建,由测试集的数据对决策树进行训练,由最后确定的决策树形成计量设备功能异常评估模型。具体包括:

(1)将经过特征计算处理后的异常特征量作为电能表异常评估模型的输入样本;

(2)基于的C4.5算法,分别计算输入的异常特征量{RAP、PV、Cur、Ratio、Std_p、Inductive}的信息增益,并用最大信息增益所对应的特征量作为决策树根节点,对根节点的不同取值对应的子集递归用上述过程生成决策树子节点,直至满足决策树生成停止条件。其中,特征量A的改进信息增益计算步骤:

1)计算样本集S的类别信息熵Info(S):

其中p

2)计算特征量A的条件信息熵Info

其中S

其中,p

3)计算条件特征量A的信息增益Gain(A,S):

Gain(A,S)=Info(S)-Info

4)计算特征量A在样本S中的信息熵Info(A):

5)计算特征量A的信息增益:

1)采用复杂性剪枝算法对(2)生成的决策树进行剪枝处理。剪枝优化步骤如下:

①计算树中每一个子树T

其中

C(t)=e(t)p(t)

式中e(t)是叶子节点t的误差率;p(t)是叶子节点t归类的数据占所有数据的比例;C(T

②选取α最小的子树,将其生成的分支进行剪枝。当多个子树的α值同时到达最小时,取

通过对台区内智能电表抽样检测,获得智能电表计量功能异常的实际类型,并与电能表计量异常估计类型对比,分析基于决策树算法的电表异常远程估计算法的性能。

对智能电表异常估计结果进行分析,具体包括:

(1)对台区内智能电表的实际异常类型进行检测:对于规模较大的台区,采用分层抽样的方式,按照各用户用电量水平进行分层,并确定各层抽取的样本数量;对于规模较小的台区,可以采用全部检测的方式,并统计反向电量异常的电能表ID号。

(2)获取抽取的智能电表的台区及用户档案信息和智能电表运行数据,并将其输入至特征量计算模块。得到的相应特征值输入至基于决策树算法的电能表异常评估模型,得到反向电量异常的电能表ID号。

(3)选取一个实际的台区进行现场测试,对步骤S14中评估算法的性能进行分析。

第三方面。

本发明提供了一种电子设备,该电子设备包括:

处理器、存储器和总线;

所述总线,用于连接所述处理器和所述存储器;

所述存储器,用于存储操作指令;

所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本申请的第一方面所示的一种基于决策树算法的电能表功能异常评估方法对应的操作。

在一个可选实施例中提供了一种电子设备,如图5所示,图5所示的电子设备5000包括:处理器5001和存储器5003。其中,处理器5001和存储器5003相连,如通过总线5002相连。可选地,电子设备5000还可以包括收发器5004。需要说明的是,实际应用中收发器5004不限于一个,该电子设备5000的结构并不构成对本申请实施例的限定。

处理器5001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器5001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。

总线5002可包括一通路,在上述组件之间传送信息。总线5002可以是PCI总线或EISA总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器5003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器5003用于存储执行本申请方案的应用程序代码,并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。

其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

第四方面。

本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的一种基于决策树算法的电能表功能异常评估方法。

本申请的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号