首页> 中国专利> 基于Hadoop的电力大数据处理系统

基于Hadoop的电力大数据处理系统

摘要

本发明提供一种基于Hadoop的电力大数据处理系统,涉及大数据处理技术领域。该系统通过数据集成子系统采集来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;数据仓库子系统通过数据仓库将电力数据进行文件层的存储固化,以文件读写引擎HDFS进行数据读写支撑,支持大数据处理时的并行、多层数据处理;数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告;本发明的系统基于Hadoop技术,能够实时处理电力大数据,具有高可靠、高效、可伸缩、高容错、低成本的特点。

著录项

说明书

技术领域

本发明涉及大数据处理技术领域,尤其涉及一种基于Hadoop的电力大数据处理系统。

背景技术

变电站作为电力系统运行的核心,其运行的安全稳定对电力企业发展起决定性作用,变电与配电工作正是保证变电站安全稳定运行的关键因素。500千伏变电站的运行状况,直接影响着区域主电力网的安全与稳定。同时,它还直接影响着电网供电的可靠性和经济性,通过对变电站运维管理优化研究对于提升变电站安全水平和经济水平具有重要的现实意义。

随着变电设备的数量增加,电力数据也随之增长,例如MIS系统数据、设备管理数据、历史检修数据等,因此,如果能在电力系统管理中引入大数据技术,对于电网的发展进步和提升电网资产管理效率将具有强力的促进作用。与此同时,随着电力企业实现设备检修的信息化、数字化,积累了大量的设备台帐数据、设备分类、设备技术参数、部件附属设备、仪表信息等设备基础信息数据,设备运行状态、设备缺陷部位、缺陷内容、造成的影响及可能的后果、技改过程记录等过程数据,及设备类型、厂家缺陷排名等统计分析数据。然而,这些数据分别在不同信息系统中,数据格式结构不同、数据标准不统一、数据质量难以评估,需要构建智能精益检修数据集成软件,离线或自动化实时同步集成电力生产MIS系统、设备管理系统、工作流数据、历史数据等多方数据源数据,并按照分析目标、智能精益检修大数据统一标准进行数据的集约化、标准化处理和清洗,形成用于大数据分析的数据格式和后期进行业务算法分析的数据基础。

另一方面,现有的系统随着使用的时间推移和不断深入,系统难免会产生一些失效数据、无依据来源数据、描述错误或不准确数据以及出现细节数据丢失等现象。以上现象的存在,导致数据中心在集成各业务系统数据的时候,必须着手解决数据质量问题。只有拥有高质量数据的数据中心,才可以充分挖掘数据潜在的价值,进而带来效益。为进一步增强系统分析性能,实现设备检修从信息化、数字化向标准化、集约化、智能化转型,需要在信息化基础上,引入大数据、人工智能深度学习技术,进行深度融合实现多源海量数据的快速分析、主动预测预警和故障智能研判,提升设备状态评估的效率和智能化水平。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于Hadoop的电力大数据处理系统,对数据进行集中抽取、清洗、转换、筛选,进而实现对电力数据的持久存储。

为解决上述技术问题,本发明所采取的技术方案是:基于Hadoop的电力大数据处理系统,包括数据集成子系统、数据仓库子系统、数据质量管理子系统;

所述数据集成子系统采集来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;

所述数据仓库子系统通过数据仓库将数据集成子系统得到的电力数据进行文件层的存储固化,以文件读写引擎HDFS进行数据读写支撑,支持大数据处理时的并行、多层数据处理;所述数据仓库划分为四个逻辑区域:源数据存储区、数据暂存区、数据存储区、中央数据仓库/数据集市;

所述数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告。

优选地,所述数据集成子系统包括数据采集模块和数据处理模块;

所述数据采集模块以不同方式根据采集规则进行监控并采集相应的数据,并通过调用数据转换组件完成封装,再通过交换传输功能来完成数据从数据源到大数据平台的采集;采集驱动分为系统主动抽取和被动接收两种情况;

所述主动抽取利用变化数据捕获、日志挖掘、标识字段和接口方式,提供实时或定时的全量抽取、增量抽取和全量式增量抽取;所述被动接收的数据导入支持手动导入、批量式接入,支持多格式文件导入,支持一次性、周期性或事件驱动型的数据导入;

所述数据处理模块对存储在数据仓库源数据存储区的来自不同数据源的多源异构数据,通过ETL工具预处理后装载入数据仓库子系统的数据暂存区;ETL工具按照清洗规则对数据仓库子系统的数据暂存区、数据存储区的数据进行加工、汇总,最终装载入数据仓库的中央数据仓库中。

优选地,所述数据处理模块进行数据处理的具体过程为:

步骤1、数据预处理:加载源电力数据,增加时间拉链,并将数据载入数据仓库子系统的暂存区;然后对源电力数据做数据平衡检查、稽核数据有效性,并报告数据质量;

步骤2、数据清洗:对数据仓库子系统暂存区中的电力数据利用ETL工具进行标准化清洗,统一数据表达格式、排序数据、筛选重复数据、合并或分割数据项、无效数据删除、缺失列删除、缺失值替换、异常值处理、行去重、列去重、代码替换、数据过滤、类型转换和格式转换,将标准化清洗后数据装载入数据仓库子系统数据存储区的基础数据层,并报告数据清洗异常;

步骤3、数据转换:对数据仓库子系统数据存储区中的标准化电力数据,按照业务转换规则,增加序列、增加常量、行列转换、合并记录、数据项拼接、数据项拆分、数据类型转换、字符串替换、字符串填充、字符串剪切、字符串截断、数值提取、数值填充、值映射、计算函数转换、脚本执行、数据集拆分、数据集合并、数据集连接和数据集排序这些通用数据转换规则加工数据后装载入数据仓库的中央数据仓库中。

优选地,所述数据仓库子系统的源数据存储区存储数据集成子系统采集的来自不同数据源的原始电力数据,也称为原始数据源;

数据暂存区是为了保证数据移动的顺利进行而开设的增量性的数据存储空间,是源数据存储区中的原始电力数据进入中央数据仓库前的缓存区;所述数据暂存区的电力数据与现有的OLTP交易系统实体结构具有相同的属性,同时增加表示数据来源的属性SOURCECODE和用于获得数据处理时间的属性LAST MODIFIED DATE;如果原始的电力数据中已经有了上述两个属性,则在这两个属性中增加DW后缀进行标识;数据暂存区的电力数据成功导入数据存储区之后,清空数据暂存区中的数据;

数据存储区的数据作为数据仓库的数据进行存储;数据存储区从逻辑上分为两部分,一部分用来存放OLTP交易系统的历史数据,并确定是否对OLTP中的交易数据与基础数据进行生命周期管理;另一部分存放数据仓库部分加工的信息,即通过数据存储区对历史数据经过整合后的信息;

中央数据仓库为具有星型结构的多维数据存储区,中央数据仓库的实体包括事实实体和尺寸实体;中央数据仓库支持最细粒度级别数据查询,保证在最细粒度级别实现多维的分析,即能够同时支持汇总数据以及明细数据的多维查询;

数据集市是某一主题领域的专有的多维数据区,实现某一主题领域的多维查询需求;数据集市的实体也包括事实实体和尺寸实体两部分,但与中央数据仓库不同的是这部分的事实实体和尺寸实体都是为某一主题服务的;其中,事实实体是指某个事物的各方面信息的描述,描述性的属性包括:该事物各方面的度量信息,相关度量信息的维度信息;尺寸实体是与事实实体相关的维信息,包括多个事实实体共有的维度信息以及某个事实实体需要的专有的维信息。

优选地,所述数据质量管理子系统通过电力数据使用情况监控、质量监控、质量管理和质量剖析四个环节对数据仓库存储的电力数据进行质量管理,与前期数据标准管理、后期数据编码管理两个阶段共同形成电力数据的全生命周期管理;所述数据质量管理子系统对电力数据进行质量管理的各环节具体为:

环节一、电力数据使用情况监控;追踪数据仓库中的电力数据在现有的电力业务系统中的使用情况,与数据申请形成考核和管控检测报表,供相关管理部门使用;对超过规定时间不用的电力数据,进行数据清理和归档,实现数据的全生命周期管理;

环节二、电力数据质量监控;记录原始数据经过数据处理模块进行数据清洗后产生的元数据,并对该元数据进行评分,得出数据质量分数,生成数据质量报告;并对大数据清洗后的元数据和原始数据比较,记录问题数据、分析数据问题原因;

环节三、数据质量管理;建立一个端到端的数据管理体系,包括数据风险管理、价值创造、组织流程、管理策略、数据责任人多项内容;

环节四、数据质量剖析;建立标准化的数据质量分析模型,并根据电力数据质量监控环节产生的数据质量报告启动数据预警机制;质量分析结果以评分或等级形式表述数据质量的高低程度,并设置数据质量的最低阈值和最高阈值,当数据质量分数低于最低阈值或高于最高阈值时,启动相应的数据预警机制,告之数据管理员采取相应的处理措施;并当预警机制启动时,立即触发数据清理预案,开展数据清理工作。

采用上述技术方案所产生的有益效果在于:本发明提供的基于Hadoop的电力大数据处理系统,面向海量的异构数据,基于Hadoop技术,能够实时处理电力大数据,具有高可靠、高效、可伸缩、高容错、低成本的特点,并且能够轻松地开发和运行处理海量数据的应用程序。数据集成子系统通过对变电站设备的运行状态进行实时不间断监测和数据收集,构建数据提供者和数据使用者之间的数据传输高速通道,解决不同物理位置、不同应用系统与平台的数据交换传输,实现实时、准实时、定期地进行主动式共享数据获取、被动式数据交换,接收来自不同渠道的共享数据。数据仓库基于分布式框架,支持结构化、半结构化、非结构化数据,关系型、文档型、图型、键值对型模式的数据的存储,同时提供标准化接口,其他业务系统可以通过编程对数据进行检索、分析,可有效被数据处理及统计分析部分调用,提高操作效率,减少操作时长。数据质量管理子系统针对数据缺失、数据错误等数据质量问题以及相应技术性问题和非技术性问题,对数据质量进行检查,并对脏数据进行预警,加强系统的稳定性,修正系统漏洞,为系统的健壮性提供有益的反馈。

附图说明

图1为本发明实施例提供的基于Hadoop的电力大数据处理系统的架构图;

图2为本发明实施例提供的数据集成子系统的进行数据集成的流程图;

图3为本发明实施例提供的数据仓库的逻辑构图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

本实施例中,基于Hadoop的电力大数据处理系统,如图1所示,包括数据集成子系统、数据仓库子系统、数据质量管理子系统;

所述数据集成子系统采集数据库、网络、MIS系统、数据采集传输设备等来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;从而实现清除不完整,不准确的无用数据,提高数据的准确性以及可分析价值。

所述数据集成子系统包括数据采集模块和数据处理模块,数据集成过程如图2所示;所述数据采集模块以手工、自动等不同方式根据采集规则进行监控并采集来自不同数据源的电力数据,并通过调用数据转换组件完成封装,再通过交换传输功能将来自不同数据源的数据存储到数据仓库子系统的源数据存储区;采集驱动分为系统主动抽取和被动接收两种情况;可对采集对象相关属性进行灵活配置。

所述主动抽取利用变化数据捕获(CDC)、日志挖掘、标识字段和接口方式,提供实时或定时的全量抽取、增量抽取和全量式增量抽取;所述被动接收的数据导入支持手动导入、批量式接入,支持多格式文件导入,支持一次性、周期性或事件驱动型的数据导入;

所述数据处理模块对存储在数据仓库源数据存储区的来自不同数据源的多源异构数据,通过ETL工具预处理后装载入数据仓库子系统的数据暂存区;ETL工具按照清洗规则对数据仓库子系统的数据暂存区、数据存储区的数据进行加工、汇总,最终装载入数据仓库的中央数据仓库中,具体包括以下步骤:

步骤1、数据预处理:加载源电力数据,并将数据载入数据仓库子系统的暂存区;然后对源电力数据做数据平衡检查、稽核数据有效性,并报告数据质量;

步骤2、数据清洗:对数据仓库子系统暂存区中的电力数据利用ETL工具进行标准化清洗,包括统一数据表达格式、排序数据、筛选重复数据、合并或分割数据项、无效数据删除、缺失列删除、缺失值替换、异常值处理、行去重、列去重、代码替换、数据过滤、类型转换和格式转换,将标准化清洗后数据装载入数据仓库子系统数据存储区的基础数据层,并报告数据清洗异常;

步骤3、数据转换:对数据仓库子系统数据存储区中的标准化电力数据,按照业务转换规则,增加序列、增加常量、行列转换、合并记录、数据项拼接、数据项拆分、数据类型转换、字符串替换、字符串填充、字符串剪切、字符串截断、数值提取、数值填充、值映射、计算函数转换、脚本执行、数据集拆分、数据集合并、数据集连接和数据集排序这些通用数据转换规则加工数据后装载入数据仓库的中央数据仓库中。

所述数据仓库子系统通过数据仓库将数据集成子系统得到的电力数据进行文件层的存储固化,以契合大数据数据分析、处理的文件读写引擎HDFS(HadoopDistributedFile System)进行数据读写支撑,支持大数据处理时的并行、多层数据处理,以高精度支撑系统数据处理。具有强大的存储读写能力,为企业数据赋予数据动能;所述数据仓库划分为四个逻辑区域,如图3所示:源数据存储区(Source Data Store),数据暂存区(Staging Area),数据存储区(Operational Data Store,ODS),中央数据仓库(Baseline)/数据集市(Datamart);

所述源数据存储区存储数据集成子系统采集的来自不同数据源的原始电力数据,也称为原始数据源;

所述数据暂存区是为了保证数据移动的顺利进行而开设的增量性的数据存储空间,是源数据存储区中的原始电力数据进入中央数据仓库前的缓存区;从电力业务系统到数据暂存区的数据传输,应该避免进行复杂的数据处理,以保证数据的快速导入而尽量减少对业务系统造成的压力。所述数据暂存区的电力数据与现有的OLTP交易系统实体结构具有相同的属性,同时增加表示数据来源的属性SOURCE CODE和用于获得数据处理时间的属性LAST MODIFIED DATE;

如果原始的电力数据中已经有了上述两个属性,则在这两个属性中增加DW后缀进行标识;数据暂存区的电力数据成功导入数据存储区之后,清空数据暂存区中的数据;

所述数据存储区,此区的数据作为数据仓库的数据进行存储;数据存储区从逻辑上分为两部分,一部分用来存放OLTP交易系统的历史数据,并确定是否对OLTP中的交易数据与基础数据(即缓慢变化的处理)进行生命周期管理;另一部分存放数据仓库部分加工的信息,即通过数据存储区对历史数据经过整合后的信息,这些信息更加全面地反映出一个主题中某件事物的全貌;

所述中央数据仓库为具有星型结构的多维数据存储区,中央数据仓库的实体包括事实实体(FACT ENTITY)和尺寸实体(DIMENSION ENTITY);中央数据仓库支持最细粒度级别数据查询(如大分类-中分类-小分类-细分类),保证在最细粒度级别实现多维的分析,即能够同时支持汇总数据以及明细数据的多维查询;

所述数据集市是某一主题领域的专有的多维数据区,实现某一主题领域的多维查询需求;数据集市的实体也包括事实实体(FACT ENTITY)和尺寸实体(DIMENSION ENTITY)两部分,但与中央数据仓库不同的是这部分的事实实体(FACT ENTITY)和尺寸实体(DIMENSION ENTITY)都是为某一主题服务的;其中,事实实体(FACT ENTITY)是指某个事物的各方面信息的描述,描述性的属性包括:该事物各方面的度量信息,相关度量信息的维度信息;尺寸实体(DIMENSION ENTITY)是与事实实体(FACT ENTITY)相关的维信息,包括多个事实实体(FACT ENTITY)共有的维度信息以及某个事实实体(FACT ENTITY)需要的专有的维信息。

所述数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告,这样后续程序就会变得稳定可靠。针对提交的数据质量报告,系统维护人员和业务人员可以根据这些数据,修正系统漏洞,对业务流程进行调整,这是对系统正面的有益的反馈。主要包含数据使用情况监控、质量监控、质量分析、数据清理等环节,与前期数据标准管理、后期数据编码管理两个阶段共同形成主数据的全生命周期管理。

所述数据质量管理子系统通过电力数据使用情况监控、质量监控、质量管理和质量剖析四个环节对数据仓库存储的电力数据进行质量管理,与前期数据标准管理、后期数据编码管理两个阶段共同形成电力数据的全生命周期管理;所述数据质量管理子系统对电力数据进行质量管理的各环节具体为:

环节一、电力数据使用情况监控;系统需将管控流程延伸到业务应用环节,追踪数据仓库中的电力数据在现有的电力业务系统中的使用情况,与数据申请形成考核和管控检测报表,供相关管理部门使用;对超过规定时间不用的电力数据,进行数据清理和归档,实现数据的全生命周期管理;

环节二、电力数据质量监控;记录原始数据经过数据处理模块进行数据清洗后产生的元数据,并对该元数据进行评分,得出数据质量分数,生成数据质量报告;并对大数据清洗后的元数据和原始数据比较,记录问题数据、分析数据问题原因,为之后的数据采集数据集成打下基础形成规范;

环节三、数据质量管理;为了保证数据从产生到消亡的整个过程都具备较高质量,需建立一个端到端的数据管理体系,包括数据风险管理、价值创造、组织流程、管理策略、数据责任人多项内容;通过建立数据责任人制度、规范数据管理流程和定义数据架构元素来提高数据质量水平,强化数据风险管理能力,提升数据投资回报率。

环节四、数据质量剖析;建立标准化的数据质量分析模型,并根据电力数据质量监控环节产生的数据质量报告启动数据预警机制,加强与数据清理的联动;质量分析结果以评分或等级形式表述数据质量的高低程度,并设置数据质量的最低阈值和最高阈值,当数据质量分数低于最低阈值或高于最高阈值时,启动相应的数据预警机制,告之数据管理员采取相应的处理措施;为提高数据处理效率,并当预警机制启动时,立即触发数据清理预案,开展数据清理工作。

本实施例中,数据质量管理整体思路是按照数据流的生命周期分成三个不同的处理流程:元数据流程、业务数据流程、数据质量管理流程。元数据流程负责对数据流的各个控制点的元数据进行管理,从而可以展现元数据从源到末的映射过程,包括表级和字段级的映射过程;业务数据流程的抽取、转换和加载过程由ETL工具来负责;数据质量管理流程负责对数据流的各个控制点的异常情况进行问题登记、问题派发、问题分析、问题解决和解决情况评估。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号