首页> 中国专利> 一种基于统一数据资源池的数据治理系统

一种基于统一数据资源池的数据治理系统

摘要

本发明公开了一种基于统一数据资源池的数据治理系统,包括:数据接入模块,其用于将数据源的数据资源实现完整接入;数据处理模块,其用于对数据资源进行提取、清洗、转换的标准化处理;数据管控模块,其用于对数据资源进行数据标准管理、元数据管理、资源目录管理的全生命周期管理;数据资源池模块,其用于对数据资源进行分级分类管理;数据服务模块,其用于对数据资源进行服务化封装,提供数据资源服务;数据共享交换模块,其用于对数据资源进行跨业务、跨应用、跨部门的信息共享。本发明公开的数据治理系统,在统一信息资源规划下,将数据资源汇聚、治理,形成统一的数据资源池,对各类数据共享服务需求提供统一的数据目录服务。

著录项

  • 公开/公告号CN112650745A

    专利类型发明专利

  • 公开/公告日2021-04-13

    原文格式PDF

  • 申请/专利权人 中科环森智慧科技(苏州)有限公司;

    申请/专利号CN202011643272.5

  • 发明设计人 瞿建栋;

    申请日2020-12-30

  • 分类号G06F16/215(20190101);G06F16/23(20190101);G06F16/2455(20190101);G06F16/2457(20190101);G06F16/25(20190101);G06Q50/26(20120101);

  • 代理机构32359 苏州瑞光知识产权代理事务所(普通合伙);

  • 代理人罗磊

  • 地址 215010 江苏省苏州市高新区道元路16号1幢101室102-103

  • 入库时间 2023-06-19 10:35:20

说明书

技术领域

本发明属于数据处理系统领域,尤其涉及一种基于统一数据资源池的数据治理系统。

背景技术

突发事件的发生通常难于预测且破坏性较大,对人类社会造成的危害往往是触目惊心的,这其中既有地震、火山爆发、泥石流、海啸、台风、洪水等突发性自然灾害,也有污染物泄漏、水体污染、±壤污染等人类活动导致的突发性事故灾难,而涉及公共安全和公共卫生的突发事件也占到了相当大的比重。因此,应急业务具有多元性和全面性的特点。

面对多源异构的数据资源,需要数据资源的汇聚、治理,形成统一的数据资源池,对内部业务系统和对外部各级政务部门的各类数据共享服务需求提供统一的数据目录服务。

发明内容

本发明的目的在于:将多源异构的数据资源完整接入,形成统一的数据资源池,对各类数据共享服务需求提供统一的数据目录服务。

为了实现上述目的,本发明采用了如下技术方案:一种基于统一数据资源池的数据治理系统,包括:

数据接入模块,其用于将数据源的数据资源实现完整接入;

数据处理模块,其用于对数据资源进行提取、清洗、转换的标准化处理;

数据管控模块,其用于对数据资源进行数据标准管理、元数据管理、资源目录管理的全生命周期管理;

数据资源池模块,其用于对数据资源进行分级分类管理;

数据服务模块,其用于对数据资源进行服务化封装,提供数据资源服务;

数据共享交换模块,其用于对数据资源进行跨业务、跨应用、跨部门的信息共享。

作为上述技术方案的进一步描述:

数据源包括外部关联部门数据、应急管理局内部业务部门及转录部门数据、社会互联网公开数据、感知数据。

作为上述技术方案的进一步描述:

数据源的接入方式包括数据库接入方式、文件接入方式、接口调用方式和数据交换方式。

作为上述技术方案的进一步描述:

数据接入模块包括数据探查子模块、数据读取子模块和数据对账子模块。

作为上述技术方案的进一步描述:

数据探查子模块用于对来源数据进行业务探查、接入方式探查、字段探查、数据集探查、问题数据探查以及数据推送。

作为上述技术方案的进一步描述:

数据读取子模块用于检测从源系统抽取的数据或从指定位置读取的数据是否与数据定义一致。不一致的停止接入,并重新进行数据的探查和定义;一致的执行进一步接入,对数据进行解密、解压操作,生成作用于数据全生命周期的记录ID,并对数据进行字符集转换,将数据转成符合数据处理要求的格式。

作为上述技术方案的进一步描述:

数据对账子模块用于核对和检验数据提供方和数据接入方在某一对账节点的完整性、一致性、正确性。如果在某一对账时间点数据提供方和数据接入方分别对应的数据条数不一致,记录异常并告警。

作为上述技术方案的进一步描述:

数据资源池模块包括原始库和资源库,所述原始库对数据按照来源进行标识并根据数据种类采取不同的存储机制进行存储,所述原始库中存储的数据经过清洗、转换、关联、比对的数据处理操作之后形成标准数据并存储至资源库。

作为上述技术方案的进一步描述:

资源库中数据处理操作清洗包括字典表映射、数据去重处理和数据去空处理。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

1、本发明中,面对数据资源、感知数据、政务数据、行业数据、企业数据等数据资源,数据接入模块主要通过数据探查、数据读取、数据对账等将多源异构的数据资源实现完整接入。

2、本发明中,对于接入的数据资源,按照数据使用目的分级分类建库,统一规划资源,通过对数据资源进行标准统一、流程规范的组织与挖掘,形成包含原始库、资源库、主题库、专题库等的应急管理数据资源池,以满足应急管理内部各单位业务专题数据落地建库需求,为综合展示、数据服务、领导决策提供数据支持。

3、本发明中,数据治理系统利用数据接入模块、数据处理模块、数据管控模块、数据服务模块、数据共享交换模块等功能模块,实现数据资源、感知数据、政务数据、行业数据、企业数据等数据资源的汇聚、治理,形成统一的数据资源池,对内部业务系统和对外部各级政务部门的各类数据共享服务需求提供统一的数据目录服务。

附图说明

图1为一种基于统一数据资源池的数据治理系统的总体架构图。

图2为一种基于统一数据资源池的数据治理系统中数据探查子模块的架构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1-2,本发明提供一种技术方案:一种基于统一数据资源池的数据治理系统,包括:

数据接入模块,其用于将数据源的数据资源实现完整接入;

数据处理模块,其用于对数据资源进行提取、清洗、转换的标准化处理;

数据管控模块,其用于对数据资源进行数据标准管理、元数据管理、资源目录管理的全生命周期管理;

数据资源池模块,其用于对数据资源进行分级分类管理;

数据服务模块,其用于对数据资源进行服务化封装,提供数据资源服务;

数据共享交换模块,其用于对数据资源进行跨业务、跨应用、跨部门的信息共享。

数据源包括外部关联部门数据、应急管理局内部业务部门及转录部门数据、社会互联网公开数据、感知数据。外部关联部门数据以及应急管理局内部业务部门及转录部门数据,可以通过其业务系统,采用接入前置,将数据接入数据缓冲区,实现数据接入。

数据源的接入方式包括数据库接入方式、文件接入方式、接口调用方式和数据交换方式。对于现有已建系统接入,已进行应用整合的系统采用一次性全量接入方式进行数据迁移,沿用系统全量数据抽取、增量同步方式进行接入;规划新建系统将根据实时性要求开展数据接入与交换。数据采集接入策略支持交互式接入、批量数据接入以及实时数据接入三种方式。

数据接入模块包括数据探查子模块、数据读取子模块和数据对账子模块。

数据探查子模块用于对来源数据进行业务探查、接入方式探查、字段探查、数据集探查、问题数据探查以及数据推送。数据探查子模块对来源数据存储位置、提供方式、总量和更新情况、业务含义、字段格式语义和取值分布、数据结构、数据质量等进行多维度探查,以达到认识数据的目的,为数据定义提供依据。

数据读取子模块用于检测从源系统抽取的数据或从指定位置读取的数据是否与数据定义一致。不一致的停止接入,并重新进行数据的探查和定义;一致的执行进一步接入,对数据进行解密、解压操作,生成作用于数据全生命周期的记录ID,并对数据进行字符集转换,将数据转成符合数据处理要求的格式。

数据对账子模块用于核对和检验数据提供方和数据接入方在某一对账节点的完整性、一致性、正确性。如果在某一对账时间点数据提供方和数据接入方分别对应的数据条数不一致,记录异常并告警。

数据资源池模块包括原始库和资源库,所述原始库对数据按照来源进行标识并根据数据种类采取不同的存储机制进行存储,所述原始库中存储的数据经过清洗、转换、关联、比对的数据处理操作之后形成标准数据并存储至资源库。原始库作为各个数据源系统与数据资源池之间的桥梁,具备多种数据类型的存储能力,能够兼容结构化数据、半结构化数据、非结构化数据,可以按照不同数据域定义进行分来源,分类型,分时间的存储。对于结构化数据,原始库中数据表与源业务系统提供的数据表保持一一对应的关系,在数据抽取过程中添加一些必要的字段,如抽取时间,数据源标识等,便于在原始库中对数据抽取时间和来源系统进行回溯,支撑上层数据血缘关系的展现。对于数据量存量大,且日增量大的源业务系统中的数据,根据特定的规则进行抽取和分区存储,这样既可以提升后期数据读取的速度,可以降低数据治理过程中消耗的计算资源。资源库的结构设计与原始库基本保持一致,在粒度上以最细的方式存储;在数据内容上,保存对原始库进行标准化后的标准数据,以及清洗产生的脏数据,便于向源业务部门反馈,促进其提升数据质量,同时减少误清洗带来的风险。

资源库中数据处理操作清洗包括字典表映射、数据去重处理和数据去空处理。根据数据元生成清洗规则,统一完成字典表的映射。数据去重处理:通过指定数据去重条件,把重复的数据清洗掉,保留非重复的数据。数据去空处理:对空值进行填充,保障后续数据加工的正确性。空值填充的内容需要根据业务要求来完成。

工作原理:数据治理系统包括数据接入模块、数据处理模块、数据资源池、数据管控模块、数据服务模块、数据共享交换模块。数据接入模块主要通过数据探查、数据读取、数据对账等将多源异构的数据资源实现完整接入。数据处理模块主要通过对数据资源的提取、清洗、转换等实现对数据资源的标准化处理。数据管控模块主要通过数据标准管理、元数据管理、资源目录管理等实现对数据资源的全生命周期管理。数据资源池主要通过资源库、主题库、专题库等建设实现数据的分级分类管理,进一步提升数据资源资产价值。数据服务是通过对数据资源的服务化封装,形成对外提供数据资源服务的能力。数据共享交换主要实现跨业务、跨应用、跨部门的信息共享。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号