公开/公告号CN113313409A
专利类型发明专利
公开/公告日2021-08-27
原文格式PDF
申请/专利权人 中国南方电网有限责任公司;
申请/专利号CN202110668115.8
申请日2021-06-16
分类号G06Q10/06(20120101);G06Q50/06(20120101);G06F16/245(20190101);G06F16/28(20190101);
代理机构37221 济南圣达知识产权代理有限公司;
代理人董雪
地址 510623 广东省广州市萝岗区科学城科翔路11号
入库时间 2023-06-19 12:22:51
技术领域
本发明涉及电力设备缺陷分析技术领域,尤其涉及一种基于数据关联的电力系统二次设备缺陷分析方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
电力系统二次设备的可靠运行是电力系统安全稳定的重要保障。近年来,随着经济的飞速发展,电网规模不断扩大,电网中二次设备的数量也发生了跨越式的增长,“设备多,人少”的矛盾给二次设备的运维人员带来了相当大的工作负担,同时也给电网运行带来了风险,二次设备的运维和管控水平亟待提高。二次设备的运维人员在日常工作中会对所发现和处理的缺陷进行记录和归档,方便日后的查看、统计和分析。这些二次设备缺陷数据中蕴含着大量的有用信息,对缺陷数据进行挖掘和分析将对提升二次设备的运维和管控水平有着重要的意义。
但是,当前对于二次设备缺陷数据的挖掘和分析仍然缺乏理论性和系统性,主要体现在分析方法简单,仅进行缺陷数据的分类和统计,对于数据之间的关联关系等重要特性并未涉及,分析结果对二次设备运维和管控的指导意义不大。电力系统的数字化、信息化、智能化不断发展,带来了更多的数据源,缺陷数据的规模也大幅度提高,导致工作量增大,传统的数据分析方法不能够达到理想的效果。
发明内容
为了解决上述问题,本发明提出了一种基于数据关联的电力系统二次设备缺陷分析方法及系统,能够解决传统的数据分析方法耗费时间和人力,数据未能得到充分的利用等问题,并且能够挖掘出缺陷数据之间存在的关联性。
在一些实施方式中,采用如下技术方案:
一种基于数据关联的电力系统二次设备缺陷分析方法,包括:
获取待分析电力二次设备的历史缺陷数据,并进行数据提取;
将提取的数据中的文本型数据转化为数字型数据;
对于处理后的数据,利用聚类算法得到设定数量的簇类;基于所述簇类结合挖掘关联规则的算法确定缺陷分析结果。
作为进一步地方案,获取待分析电力二次设备的历史缺陷数据,具体包括:与出现缺陷的二次设备本身相关的信息、针对缺陷的评价信息以及针对缺陷事件的发现、处理流程信息。
作为进一步地方案,进行提取的历史缺陷数据包括:二次设备的生产厂家、二次设备型号、二次设备缺陷的原因、发生缺陷的设备部位、缺陷等级、缺陷发现的时间、缺陷处理的时间以及处理缺陷所涉及的专业。
作为进一步地方案,将获取的数据中的文本型数据转化为数字型数据,具体包括:
分别为不同的文本属性的数据分配相对应的数值数据,构建缺陷数据集矩阵。
作为进一步地方案,对于处理后的数据,利用聚类算法得到设定数量的簇类,具体包括:
随机生成K个聚类中心;
计算缺陷数据集矩阵中的每个样本点到聚类中心的距离;
根据所述距离将样本点划分到与其距离最小的簇类当中去;
重新计算新的聚类中心;
判断新的聚类中心是否收敛;如果收敛,输出K个簇类;否则,更新新的聚类中心,重新对数据进行聚类,直到聚类中心收敛为止。
作为进一步地方案,根据欧几里得距离计算数据集中样本点x
作为进一步地方案,还包括:对不同厂家的同一电力系统二次设备进行缺陷分析,确定不同厂家设备的故障多发类型。
在另一些实施方式中,采用如下技术方案:
一种基于数据关联的电力系统二次设备缺陷分析系统,包括:
数据获取模块,用于获取待分析电力二次设备的历史缺陷数据,并进行数据提取;
数据处理模块,用于将提取的数据中的文本型数据转化为数字型数据;
缺陷分析模块,用于对于处理后的数据,利用聚类算法得到设定数量的簇类;基于所述簇类结合挖掘关联规则的算法确定缺陷分析结果。
在另一些实施方式中,采用如下技术方案:
一种终端设备,其包括处理器和存储器,处理器用于实现各指令;存储器用于存储多条指令,所述指令适于由处理器加载并执行上述的基于数据关联的电力系统二次设备缺陷分析方法。
在另一些实施方式中,采用如下技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述的基于数据关联的电力系统二次设备缺陷分析方法。
与现有技术相比,本发明的有益效果是:
本发明利用K-means算法可以将缺陷文本数据分成若干个簇,在一定的程度上减少缺陷文本数据的大小,减少后续的缺陷分析的工作量;此外各个簇内相似度较高,具有一定的关联性,在此基础上利用Apriori算法对各个簇分别进行关联分析能够找出各缺陷属性之间的关联强弱,能够为缺陷分析提供一定的指导作用。
本发明方法能够进一步挖掘缺陷数据之间的关联度,为设备的检修和维护提供一定的指导作用。
本发明的其他特征和附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本方面的实践了解到。
附图说明
图1是本发明实施例中基于聚类算法和关联规则相结合的电力系统二次设备缺陷分析方法示意图;
图2是本发明实施例中聚类算法示意图。
图3是本发明实施例中Apriori算法示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
在一个或多个实施方式中,公开了一种基于数据关联的电力系统二次设备缺陷分析方法,参照图1,包括以下步骤:
(1)获取待分析电力二次设备的历史缺陷数据,并进行数据提取;
具体地,缺陷数据主要包括三类:
1)与出现缺陷的二次设备本身紧密相关的信息,如设备的生产厂家、设备类型、设备型号、设备的投运时间、发生缺陷的二次设备部位等。
2)针对缺陷的简要评价信息,如缺陷的级别和缺陷的主要原因等。
3)针对缺陷事件本身的发现、处理等流程性的信息,如发现缺陷的时间、处理的时间和所涉及的专业等。
在进行数据分类之前,需要对数据做预处理,提取出具有重要特征的缺陷数据,减少计算的复杂度。
其中,前2类信息主要用于缺陷的事后分析,而第3类更偏向于缺陷的管理。
本实施例针对前2类信息,考虑部分类型的信息之间存在的冗余关系,提取出二次设备的生产厂家、二次设备型号、二次设备缺陷的原因、发生缺陷的设备部位以及缺陷等级等5项重要信息作为数据挖掘和缺陷分析的对象。
(2)将提取的数据中的文本型数据转化为数字型数据;
具体地,本实施例中,电力系统二次设备历史缺陷数据,是一类多重变量的数据集;
完整的缺陷数据集是一个30×5的矩阵,每一行对应着一种故障缺陷,包含的属性有二次设备的生产厂家,二次设备型号、二次设备缺陷的原因、发生缺陷的设备部位以及缺陷等级,共计5种属性,由于该五种属性均为文本属性,为后续的数据分析更加方便,本文选择把种类中的字符型数据转化成数值型数据。
比如:
二次设备的生产厂家:厂家A为1,厂家B为2,厂家C为3,厂家D为4,厂家E为5,厂家F为6,厂家G为7;
电压等级:110KV为1,220KV为2,500KV为3;
二次设备缺陷的原因:元器件损坏为1,通道故障为2,软故障为3,其他原因为4,接口接触不良为5;
发生缺陷的部位:CPU板为1,管理板为2,二次回路为3,电源板为4,交流板为5,其他为6;
缺陷等级:一般为1,重大为2,紧急为3;
(3)对于处理后的数据,利用聚类算法得到设定数量的簇类;
参照图2,本实施例中,利用聚类算法得到设定数量的簇类的具体步骤包括:
步骤1):初始化所需要的分类数目,随机生成K个聚类中心;
步骤2):计算缺陷数据集矩阵中的每个样本点到聚类中心的距离;
本实施例中,根据欧几里得距离公式计算数据集中样本点x
欧几里得距离公式如下:
步骤3):将样本点划分到与其距离最小的簇类当中去;根据距离最近原则,将样本点x
步骤4):重新计算新的聚类中心;
当有新的数据被分配到该类别当中时,该簇的质心会发生改变,应当重新计算新的聚类中心。计算簇C
步骤5):判断新的聚类中心是否收敛;若输出K个分类好的簇类;否则,更新新的聚类中心点,直到聚类中心点收敛到某个常数为止。
基于所述簇类将大规模的缺陷文本分解为若干个簇内相似程度高,簇间相似程度低的数据集。
(4)基于所述簇类结合Apriori算法对若干类别分别做关联分析,依据得到的强关联规则得出结论。
参照图3,利用Apriori算法对若干类别做关联分析的具体步骤包括:
步骤6):在初始候选项集中依据式(3)求最小支持度,找出大于最小支持度的频繁K(其中K为1、2……5)项集的集合。
步骤7):依据式(4)求出最小置信度,从频繁项集中筛选出大于最小置信度的强关联规则。
步骤8):根据强关联规则对二次设备的缺陷数据进行分析。
某电网公司部分设备缺陷数据如表1所示:
表1
运用聚类分析算法,对电力设备的缺陷数据进行聚类分析,分类结果如下:
第1类共3个,分别是:2,13,21
第2类共7个,分别是:4,5,6,11,15,16,24
第3类共6个,分别是:8,9,10,19,25,29
第4类共3个,分别是:3,28,30
第5类共5个,分别是:12,14,22,23,27
第6类共6个,分别是:1,7,17,18,20,26。
基于K-means算法将缺陷文本分成相似度较高的几个类别之后,能够将大规模的缺陷文本数据进行切分,再利用Apriori算法对缺陷信息进行关联规则的挖掘能够进一步找出二次设备的薄弱环节以及导致设备故障产生的原因,并在一定的程度上能够分析出家族性缺陷。
以K-means算法结果的第2类别为例,利用Apriori算法进行算例的仿真:类别2的缺陷数据如表2
表2
预设Apriori算法的最小支持度为0.2,最小置信度为0.7,得到若干条关联规则,经过筛选,得出对二次系统缺陷分析有指导意义的6条强关联规则,如表3所示:
表3
由关联结果作进一步的缺陷分析:
由强关联规则1分析可知:厂家A生产的设备易于发生CPU板损坏,置信度高达80%;
由强关联规则3和6分析可知:厂家A生产的设备在220KV易于发生CPU板损坏类型的故障,大概率原因是因为元器件损坏导致的。可以看出厂家A生产的设备可能是绝缘性能不好。
由强关联规则5分析可知,厂家B生产的设备当中管理板部位存在一定的薄弱环节,应当得到足够的重视。
本实施例利用K-means算法可以将缺陷文本数据分成若干个簇,在一定的程度上减少缺陷文本数据的大小,减少后续的缺陷分析的工作量;此外各个簇内相似度较高,具有一定的关联性,在此基础上利用Apriori算法(挖掘关联规则的频繁项集算法)对各个簇分别进行关联分析能够找出各缺陷属性之间的关联强弱,能够为缺陷分析提供一定的指导作用。
实施例二
在一个或多个实施方式中,公开了一种基于数据关联的电力系统二次设备缺陷分析系统,包括:
数据获取模块,用于获取待分析电力二次设备的历史缺陷数据,并进行数据提取;
数据处理模块,用于将提取的数据中的文本型数据转化为数字型数据;
缺陷分析模块,用于对于处理后的数据,利用聚类算法得到设定数量的簇类;基于所述簇类结合Apriori算法确定缺陷分析结果。
需要说明的是,上述各模块的具体实现方式已经在实施例一中进行了说明,不再赘述。
实施例三
在一个或多个实施方式中,公开了一种终端设备,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中的基于数据关联的电力系统二次设备缺陷分析方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的基于数据关联的电力系统二次设备缺陷分析方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
机译: 记录了一种基于数据库的数据关联方法和一种基于数据库的数据关联系统以及基于数据库的数据关联方法,并且计算机可读记录介质包括计算机可读记录介质。
机译: 用于基于与第一预测基础相关联的第一数据集来针对身体部位使用治疗参数的第一可能结果的图形说明的系统,以及用于修改图形说明以示出使用治疗的第二可能结果的系统基于与第二预测依据相关联的第二数据集的参数
机译: 与基于分组的多媒体通信标准关联的数据的隧道方法,用于通过单个HTTP端口通信端口业务的方法,具有程序指令的计算机可读介质,用于与基于分组的多媒体通信协议,与数据包的多媒体通信相关联的数据的隧道指令通过单个HTTP端口与端口通信,以及用于通过单个端口向多个端口传送隧道通信的系统