首页> 中国专利> 配网项目设备画像指标评价系统与评价方法

配网项目设备画像指标评价系统与评价方法

摘要

本发明涉及一种配网项目设备画像指标评价系统与评价方法,属于电网配电技术领域。本发明结构包括原始数据层、事实标签层、模型标签层、智能先验标签层;原始数据层与事实标签层连接;模型标签层与事实标签层连接,智能先验标签层与模型标签层连接。本发明的有益效果在于,探索设备数据价值挖掘方向及路径,实现设备管理领域数据价值的充分挖掘和应用。另一方面,促进各专业间数据融合与数据治理,基于数据挖掘技术和标签画像技术,实现设备“标签化”管理及全息画像展现,准确把握设备健康状态,发挥设备画像基础作用,辅助支撑电网规划设计、投资改造、设备运行、设备检修及退役工作等发展决策,促进电网设备利用效率提升。

著录项

说明书

技术领域

本发明涉及一种配网项目设备画像指标评价系统与评价方法,属于电网配电技术领域。

背景技术

发展业务信息化经过二十余年的发展,已经走过三个阶段:单一功能的信息化、线上化;业务融合、信息共享的系统贯通阶段;以及现在以PIS 2.0为代表的大数据阶段。而电力设备是电网运行的基础元件,是电网建设的末端环节,也是公司经营的最终闭环节点,是海量数据的产生者和载体。目前,由于统计业务的信息化和智能电网终端的普及,设备数据逐步规模化、系统化,已成为电网公司宝贵的数据资产,挖掘设备大数据应用价值,对改革发展新形势下,提升电网企业经营决策能力、实现提质增效、促进转型发展具有重要的意义。

在电网设备利用能效方面,目前电网公司已积累了海量设备数据资源,涵盖设备属性、运行、效率等多方面,具备了进一步开展深层数据挖掘的客观基础,为深化实施设备能效分析提供了良好条件。电网规划具有覆盖范围广、数据信息量大、编制任务繁重等特点,科学合理电网规划的基础是对各个层次、各个维度的海量数据信息进行统筹管理,挖掘有效信息,以提升电网规划效率及投资建设精准度。因此,通过项目的开展基于大数据、人工智能技术的设备全息画像研究,对促进电网规划、精益投资进行了系统性研究与实用性探索。

现有技术的缺陷在于,配电网设备相关数据积累越来越庞大,其数据存储分散又抽象,分析手段大多基于统计计算,而且缺乏深层次、多维度的数据挖掘。在用户方面,电网已经开始建立相关的用户画像标签体系,在设备方面,还没有建立规范的设备标签体系,目前还处于起步阶段。

发明内容

本发明的目的在于,深入结合知识发现、机器学习等人工智能技术理论,积极推进电力系统大数据应用,挖掘电网设备海量数据管理潜力与实践价值。针对电网设备属性与特征,开展设备全量数据价值挖掘,以“标签”形式,围绕设备电压等级、分类、区域范围和运行状态等,从不同维度建立设备标签体系。智能形成多层次、多视角、可视化的设备立体画像,准确把握效率、能力和运行状态,实现基于大数据的设备精细化分析、差异化管理,支撑电网规划、统计工作,促进电网设备利用效率提升,从而提供一种配网项目设备画像指标评价系统与评价方法。

本发明的技术方案在于,配网项目设备画像指标评价方法,基于现有大量设备的基本信息及数据统计方法,通过人工智能、自然语言处理的技术提取设备信息中的深层次隐含特征,并结合领域专家的人工先验经验,获取对针对运行状态评价、运行效益评估,投资决策支持的智能先验标签,形成配电网设备画像指标库以及设备画像标签数据,构建配电网主设备的智能全息画像模型;从而建立基于配电网设备智能全息画像技术的整体应用系统。

从数据提取维度的角度,将标签数据分为:事实标签、模型标签、智能先验标签,具体包括以下步骤:

步骤1、获取设备的事实标签,将基于现有大量设备的基本信息及数据统计方法,定义为事实标签;具有来源固定,目标明确,获取的信息相对固定的特性;

步骤2、获取模型标签:将基于数据挖掘,获取数据本身内在的关联及隐含知识,定义为模型标签;具有来源不固定,目标不明确,可能挖掘出大量无专业实践意义的纯数据关联信息的特性;

步骤3、智能先验标签:基于专业先验知识与人工智能结合的自定义智能标签,由领域专家提出的具有实际业务意义的智能标签,再过人工智能技术从海量数据中自动地,有方向性地获取数据间的内在关联信息;具有来源相对固定,目标明确,挖掘信息的过程与方法是智能与全自动的特性。

本发明结构包括原始数据层、事实标签层、模型标签层、智能先验标签层;原始数据层与事实标签层连接;模型标签层与事实标签层连接,智能先验标签层与模型标签层连接。

本发明的有益效果在于,一方面,研究大数据技术、画像技术、人工智能技术在电力设备管理领域的应用,探索设备数据价值挖掘方向及路径,实现设备管理领域数据价值的充分挖掘和应用。另一方面,促进各专业间数据融合与数据治理,并以海量数据为基础,基于数据挖掘技术和标签画像技术,实现设备“标签化”管理及全息画像展现,准确把握设备健康状态,发挥设备画像基础作用,辅助支撑电网规划设计、投资改造、设备运行、设备检修及退役工作等发展决策,促进电网设备利用效率提升。

附图说明

图1为本发明方法流程图。

图2为本发明系统结构图。

图3为本发明应用构架图。

图4为设备画像图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围,下面结合附图1至3和具体实施例对本发明进一步说明。

抽取长沙市指定变压器(设备编码为16M00000017197857)期间在2018年06月01号~2019年11月02号的运行数据,首先将原始数据经过数据处理层预处理,为机器学习的模型变量输入做准备,然后选取多种机器学习算法及神经网络算法进行对比训练预测模型,选取最优模型,最终提炼设备重过载先验预估标签。基于省电网大数据平台,结合省电网公司规划管理网上平台,开展对设备全息画像的研究应用。以运行状态评价、运营效益评估和投资决策支持等三大应用场景展开分析,建立高质量的设备标签库,为应用场景主题面板数据图表展示提供数据支撑,最终在规划管理网上平台呈现。通过完善规划管理平台在设备画像方面的短板,提升电网规划问题在线上评估的全面性和精准性。

通过对长沙、邵阳两个典型地区近两年的设备台账数据、设备运行数据、气象数据、GIS数据等进行数据深度分析,构建全面反映设备属性、状态、特征的,涵盖设备运行、效益、成本、成本等多维度的全息画像指标库。设备全息画像指标库包括通过系统字段获取的设备电压等级、主变容量等级、配变容量等级、线路长度、设备资产性质、是否农网、设备运行状态、生产厂家、线路架设方式、线路性质、设备重要程度、设备状态评价、设备所在地区特征、设备运行年限、设备月均输入电量、主配变电容量年均增长率、线路长度年均增长率、设备电压合格率、设备未消除危急缺陷条数、设备未消除严重缺陷条数、设备未消除一般缺陷条数、设备非计划停电次数、设备停电总次数、计划停运小时、非计划停运小时、输电线路输入电量、配电线路输入电量、输电线路输出电量、配电线路输出电量、配电线路售电量、配电线路供电量、台区日供电量、台区日售电量、台区日损失电量、台区日线损率、输配电线路线损率、设备低电压时长、设备高电压时长、设备合格电压时长、设备电压合格率、户均配变容量、主配变最大负荷、主配变平均负荷、线路最大工作电流、线路最大允许输送电流、主配变最大负载率、主配变平均负载率、线路最大负载率、负荷增速、10KV线路电缆化、10KV架空线路绝缘化、台区低电压用户数、设备运营效率、设备利用率、单位配变售电量、单位线路售电量。

从数据提取维度的角度,标签数据可分为三类:事实标签、模型标签、智能先验标签,具体分类分层如下图1所示:

事实标签。既定事实,从原始数据中提取。比如设备电压等级、设备线路长度、变压器类型、线路性质、生产厂家等如多个系统均有该字段,则标签取值时需要做匹配、比对、选择。

模型标签。没有对应数据,需要定义规则,建立模型来计算得出标签实例。比如变(配)电容量年均增长率、线路长度年均增长率、最大负载率标签、损耗降低率标签等标签。

智能先验标签。基于专业先验知识与人工智能结合的自定义智能标签,由领域专家提出的具有实际业务意义的智能标签,再过人工智能技术从海量数据中自动的,有方向性的获取数据间的内在关联信息。

本发明结构包括原始数据层、事实标签层、模型标签层、智能先验标签层;原始数据层与事实标签层连接;模型标签层与事实标签层连接,智能先验标签层与模型标签层连接。

智能先验标签可能用到的常见模型算法包括:

(1)线性回归:线性回归是统计学和机器学习中最知名和最易理解的算法之一。预测建模主要关注最小化模型误差或者尽可能作出最准确的预测,以可解释性为代价。

线性回归的表示是一个方程,它通过找到输入变量的特定权重(称为系数 B),来描述一条最适合表示输入变量 x 与输出变量 y 关系的直线。

根据输入 x 预测 y,线性回归学习算法的目标是找到系数 B0 和 B1 的值。可以使用不同的技术从数据中学习线性回归模型,例如用于普通最小二乘法和梯度下降优化的线性代数解。

(2)Logistic 回归:Logistic 回归是机器学习从统计学中借鉴的另一种技术。它是解决二分类问题的首选方法。Logistic 回归与线性回归相似,目标都是找到每个输入变量的权重,即系数值。与线性回归不同的是,Logistic回归对输出的预测使用被称为logistic函数的非线性函数进行变换。logistic 函数看起来像一个大的 S,并且可以将任何值转换到 0 到 1 的区间内。这非常实用,因为我们可以规定 logistic 函数的输出值是 0 和 1(例如,输入小于 0.5 则输出为 1)并预测类别值;

由于模型的学习方式,Logistic 回归的预测也可以作为给定数据实例(属于类别0 或 1)的概率。这对于需要为预测提供更多依据的问题很有用。像线性回归一样,Logistic 回归在删除与输出变量无关的属性以及非常相似(相关)的属性时效果更好。它是一个快速的学习模型,并且对于二分类问题非常有效。

(3)分类与回归树:决策树是预测建模机器学习的一种重要算法。决策树模型的表示是一个二叉树。这是算法和数据结构中的二叉树,没什么特别的。每个节点代表一个单独的输入变量 x 和该变量上的一个分割点(假设变量是数字);

决策树的叶节点包含一个用于预测的输出变量 y。通过遍历该树的分割点,直到到达一个叶节点并输出该节点的类别值就可以作出预测。决策树学习速度和预测速度都很快。

(4)朴素贝叶斯:朴素贝叶斯是一个简单但是很强大的预测建模算法。该模型由两种概率组成,这两种概率都可以直接从训练数据中计算出来:1)每个类别的概率;2)给定每个 x 的值,每个类别的条件概率。一旦计算出来,概率模型可用于使用贝叶斯定理对新数据进行预测。当你的数据是实值时,通常假设一个高斯分布(钟形曲线),这样你可以简单的估计这些概率;

朴素贝叶斯之所以是朴素的,是因为它假设每个输入变量是独立的。这是一个强大的假设,真实的数据并非如此,但是,该技术在大量复杂问题上非常有用。

(5)K 近邻算法:KNN 算法非常简单且有效。KNN 的模型表示是整个训练数据集。KNN 算法在整个训练集中搜索 K 个最相似实例(近邻)并汇总这 K 个实例的输出变量,以预测新数据点。对于回归问题,这可能是平均输出变量,对于分类问题,这可能是众数(或最常见的)类别值。诀窍在于如何确定数据实例间的相似性。如果属性的度量单位相同(例如都是用英寸表示),那么最简单的技术是使用欧几里得距离,你可以根据每个输入变量之间的差值直接计算出来其数值;

KNN 需要大量内存或空间来存储所有数据,但是只有在需要预测时才执行计算(或学习)。可以随时更新和管理训练实例,以保持预测的准确性。

(6)支持向量机(SVM):支持向量机是最受欢迎和最广泛讨论的机器学习算法之一。超平面是分割输入变量空间的一条线。在 SVM 中,选择一条可以最好地根据输入变量类别(类别 0 或类别 1)对输入变量空间进行分割的超平面。在二维中,你可以将其视为一条线,我们假设所有的输入点都可以被这条线完全的分开。SVM 学习算法找到了可以让超平面对类别进行最佳分割的系数;

超平面和最近的数据点之间的距离被称为间隔。分开两个类别的最好的或最理想的超平面具备最大间隔。只有这些点与定义超平面和构建分类器有关。这些点被称为支持向量,它们支持或定义了超平面。实际上,优化算法用于寻找最大化间隔的系数的值。

(7) Bagging 和随机森林:随机森林是最流行和最强大的机器学习算法之一。它是 Bootstrap Aggregation(又称 bagging)集成机器学习算法的一种。bootstrap 是从数据样本中估算数量的一种强大的统计方法。例如平均数。从数据中抽取大量样本,计算平均值,然后平均所有的平均值以便更好的估计真实的平均值。bagging 使用相同的方法,但是它估计整个统计模型,最常见的是决策树。在训练数据中抽取多个样本,然后对每个数据样本建模。需要对新数据进行预测时,每个模型都进行预测,并将所有的预测值平均以便更好的估计真实的输出值;

随机森林是对这种方法的一种调整,在随机森林的方法中决策树被创建以便于通过引入随机性来进行次优分割,而不是选择最佳分割点。因此,针对每个数据样本创建的模型将会与其他方式得到的有所不同,不过虽然方法独特且不同,它们仍然是准确的。结合它们的预测可以更好的估计真实的输出值。

(8)Boosting 和 AdaBoost:Boosting 是一种集成技术,它试图集成一些弱分类器来创建一个强分类器。这通过从训练数据中构建一个模型,然后创建第二个模型来尝试纠正第一个模型的错误来完成。一直添加模型直到能够完美预测训练集,或添加的模型数量已经达到最大数量。AdaBoost 是第一个为二分类开发的真正成功的 boosting 算法。这是理解 boosting 的最佳起点。现代 boosting 方法建立在 AdaBoost 之上,最显著的是随机梯度提升;

AdaBoost 与短决策树一起使用。在第一个决策树创建之后,利用每个训练实例上树的性能来衡量下一个决策树应该对每个训练实例付出多少注意力。难以预测的训练数据被分配更多权重,而容易预测的数据分配的权重较少。依次创建模型,每个模型在训练实例上更新权重,影响序列中下一个决策树的学习。在所有决策树建立之后,对新数据进行预测,并且通过每个决策树在训练数据上的精确度评估其性能。因为在纠正算法错误上投入了太多注意力,所以具备已删除异常值的干净数据非常重要。

(9)神经网络算法:常见的神经网络是层级机构,每层神经元与下一层神经元完全互连,神经元之间不存在同层连接,也不存在跨层连接,这样的神经网络称为“多层前馈神经网络”,其中输入层神经元接收外界输入,隐层与输出层神经元对信号进行加工,最终结果由输出层神经元输出。也就是说,输入层神经元仅是接受输入,不进行函数处理,隐层与输出层包含功能神经元。神经网络的学习过程,就是根据训练数据来调整神经元之间的连接权以及每个功能神经元的阈值。

神经网络算法的工作流程是:先将输入示例提供给输入层神经元,然后逐层将信号前传,直到产生输出层的结果;然后计算输出层的误差,再将误差逆向传播至隐层神经元,最后根据隐层神经元的误差来对连接权和阈值进行调整。这个迭代过程循环进行,直到达到某些条件才停止。

总体技术架构实现上基于省公司大数据平台,采用组件化、动态化的多层技术体系架构设计,实现数据的汇集、处理、存储、计算,并引入微服务框架,按照业务进行微服务的设计,通过统一的服务网关为应用提供支撑。整体上,技术架构包括原始数据层、数据处理层、设备数据仓库、公共组件、服务网关、设备画像应用几个部分,如图3所示:

1)数据服务:主要包括原始数据层和数据处理层,原始数据层基于大数据平台汇集的各类业务数据,包括EMS、CMS、OMS、PMS、营销平台、气象平台等多个业务系统相关数据项,数据处理层根据数据处理规则预处理出设备台账数据、设备运行数据、气象数据、地理位置数据等,确保数据质量满足业务需求;

2)设备数据仓库:利用大数据平台提供的离线计算引擎MapReduce与内存计算Spark框架实现设备指标库中非实时性要求的指标计算,利用大数据平台实时分析引擎实现设备指标库中时性要求高的指标计算,利用自主研发的自动化AI训练平台对机器学习算法进行自动训练,自我挖掘、自主进化,进一步挖掘预测隐藏指标;

3)公共组件:实现应用管理、服务注册管理、用户访问权限控制,同时提供元数据管理实现公司规划相关数据的统一管理,利用数据质量管理提供数据校核规则、数据质量监控等服务;

4)服务网关:控制应用对服务的访问,提供了服务的负载均衡、路由转发、黑白名单等功能;

5)画像应用:可以支持运行状态评价、运营效益评估、投资决策支持、群体/个体设备画像分析和设备个性化推荐等应用。

数据应用层主要是以运行状态评价、运营效益评估和投资决策支持三大应用场景展开分析:

运行状态评价,通过归纳总结提炼设备评价标语库,建立设备评价模型,对设备运行状态进行智能评价;

运营效益评估,综合性分析设备损耗、负载等运行数据,以评估设备运行效率,为设备的运营提供有效的指导;

投资决策支持,从设备画像标签库获取专业指标,自动生成配电网设备投资建议报告,为设备的投资决策提供精准支撑。

设备标签体系在建立和完善的过程中,随着标签的完善以及智能化处理的提升,将有更广阔的应用场景。

选取长沙市设备编码为16M00000017197857的配变变压器为展示案例,计算变压器画像指标和标签,具体数据和图像展示如下,其中标签计算表格主要是计算案例设备的设备标签值以及所需的指标值,

设备全息画像展示则是分基础信息、运行信息、运行收益、成本信息和寿命阶段等5个维度全方位展示设备整体呈现效果,如图4所示。

本发明基于人工智能与大数据的设备画像研究方案主要有如下三个方面的创新:

(1)算法创新:采用更深层次的人机融合智能算法,充分利用领域专家的先验知识与AI技术深度融合,更有效的提取挖掘针对具体业务的隐含知识;

(2)评价创新:通过设备画像客观评价信息与技术专家主观评价信息的双重提取与融合算法,构建主、客观评价相互融合、相互验证的新评价系统;

(3)应用创新:以设备智能全息画像为基础,进一步提升扩展业务的智能性,构建整个能源产业链的智能画像,个性化服务不同业务需求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号