首页> 中国专利> 一种基于主数据驱动的数据治理系统

一种基于主数据驱动的数据治理系统

摘要

本发明公开了一种基于主数据驱动的数据治理系统,包括主数据业务管理模块:用于生成数据相应的实例化业务功能;数据模型管理模块:用于提供不同行业类别的数据模板;数据质量管理模块:用于数据整个生命周期中数据质量问题的识别、度量、监控和预警等管理活动;数据集成管理模块:用于数据接收和数据分发中间件的管理,对数据进行标准化;基础支撑管理模块:用于保障数据操作安全性,方便进行层级管理;工作流模块:用于数据管理的自动化、智能化和整合化;数据清洗模块:用于集成后零散、重复、不完整的数据依据一定清洗规则进行清洗,保证数据的唯一、精确、完整、一致和有效性;定时任务处理模块:用于处理数据非实时计算。

著录项

  • 公开/公告号CN113111046A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 联洋国融(北京)科技有限公司;

    申请/专利号CN202010025725.1

  • 发明设计人 孙小亮;李玉璐;

    申请日2020-01-10

  • 分类号G06F16/21(20190101);G06F16/215(20190101);G06F16/23(20190101);G06F16/27(20190101);G06F16/28(20190101);

  • 代理机构

  • 代理人

  • 地址 100032 北京市西城区北三环中路29号院3号楼4层507、509室

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本发明涉及大数据技术领域,具体来说,涉及一种基于主数据驱动的数据治理系统。

背景技术

随着越来越多的企业建立并广泛应用信息系统,所应用的业务场景日益复杂,跨业务、跨部门和跨系统的业务连贯性需求越来越迫切,并呈现出数据不完整、分散不统一、质量低、共享集成成本高以及数据经济效益不明显等问题,如何解决“信息孤岛”,使数据有统一标准,有序存储、具有良好质量并助力于业务分析与应用,从而制造经济效益,是企业或组织业务发展过程中面临的极大技术挑战,其中主数据作为具有高业务价值的企业核心数据,是数据治理过程的重点对象。因此,亟需一套基于主数据驱动、提供数据集成、模型标准规范、数据清洗、质量稽核、安全机制的一系列数据监控管理的数据治理系统。

针对相关技术中的问题,目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供一种基于主数据驱动的数据治理系统,以解决上述背景技术中提出的问题。

本发明的技术方案是这样实现的:

根据本发明的一方面,提供了一种基于主数据驱动的数据治理系统。

基于主数据驱动的数据治理系统包括:

主数据业务管理模块:用于生成数据相应的实例化业务功能;

数据模型管理模块:用于提供不同行业类别的数据模板,对元属性、数据约束条件、校验规则、编码规则等方面的定义与管理;

数据质量管理模块:用于数据整个生命周期中数据质量问题的识别、度量、监控和预警等管理活动;

数据集成管理模块:用于数据接收和数据分发中间件的管理,对数据进行集成,整合,清洗和标准化;

基础支撑管理模块:用于保障数据操作安全性,方便进行层级管理;

工作流模块:用于数据管理的自动化、智能化和整合化;

数据清洗模块:用于集成后零散、重复、不完整的数据依据一定清洗规则进行清洗,保证数据的唯一、精确、完整、一致和有效性;

定时任务处理模块:用于处理数据非实时计算。

其中,所述主数据业务管理模块包括数据申请子模块、数据审核子模块、数据变更子模块、数据查询子模块和数据归档子模块,其中,数据申请子模块,用于提供线上创建主数据、通用数据文件格式上传,经过数据萃取整合成有效的存储方式;数据审核子模块,用于自动校验数据之间的精确查重和模糊查重和按自定义工作流在线审批;数据变更子模块,用于对已经审核存储的主数据进行调整编辑,提交变更申请后进行自动校验,经审核通过内容生效,保留数据历史版本,实现版本追溯与对比分析;数据查询子模块,用于根据不同需求对数据进行查询;数据归档子模块,用于以物理方式将主系统中具有较低业务价值的主数据迁移到更适合、更经济高效的历史库中,仅可进行查询操作。

其中,所述基础支撑管理模块包括安全管理子模块、用户管理子模块和日志管理子模块,其中,安全管理子模块,用于对数据进行分级、用户级别及权限的定义来划分不同操作,确保数据操作安全性;用户管理子模块,用于进行组织分级,便于权限分配;日志管理子模块,用于所有重要的操作必须提供完备的日志记录。

其中,所述安全管理子模块包括身份认证分模块、内容安全分模块、访问控制分模块和安全恢复分模块,其中,身份认证分模块,用于进行用户身份认证;内容安全分模块,用于记录访问内容;访问控制分模块,用于控制用户仅能访问权限内的数据;安全恢复分模块,用于恢复误删数据。

其中,所述访问内容包括相关人员信息、相关数据信息和操作时间信息。

其中,所述数据清洗模块包括数据清洗规则子模块和数据清洗任务子模块,其中,清洗规则子模块,用于对数据定义清洗规则;数据清洗任务子模块,用于根据所述清洗规则对数据进行清洗。

根据本发明的另一方面,提供了一种基于主数据驱动的数据治理方法,该基于主数据驱动的数据治理方法包括以下步骤:

接受用户登录信息,基础支撑管理模块对用户进行身份验证;

主数据业务管理模块对用户上传数据进行接受,并对数据定义生命周期;

数据模型管理模块对所述数据进行加工处理,使其符合系统集成需求;

数据集成模块对数据进行集成标准化处理;

数据质量管理模块依据维度对所述数据进行质量分析并生成质量分析报告。

其中,所述登录信息包括用户账号和用户密码。

其中,所述维度包括完整性、唯一性、正确性、一致性、有效性、及时性。

与现有技术相比,本发明具有以下有益效果:

(1)、构建标准化元属性和业务规则库,内置技术元数据和业务元数据的元模型,从根源上规范数据,便于对元数据的管理,有效地减少了查询和管理数据的时间。

(2)、通过数据编码,将信息分类、校核、合计、检索等操作进行简化,节省存储空间,提高处理速度。数据检验规则的定义与应用,实现对数据之间的精确查重和模糊查重,在校验结束后自动提示错误输入,有效地保证主数据的唯一性和规范性,最大限度地降低和避免人为因素导致的信息错误。

(3)、主数据业务管理以数据生命周期为基础,对主数据提供申请机制、校验、审核、变更、分发等操作条线的功能,搭建一个主数据管理机制,流程化对系统主数据进行集中维护,降低了主数据管理的成本和提高了维护的合理规范度。

(4)、数据清洗将集成后零散、重复、不完整的数据依据一定清洗规则进行清洗,保证数据的唯一、精确、完整、一致和有效性,提高了数据应用和后续的数据分析性能,提升了数据质量,也方便了数据查找和对比。

(5)、质量分析和监控,对接入的数据进行定时的质量监控并产出分析报告,方便用户实时把控数据的基本情况,提升数据在使用中的价值。

(6)、用户权限分配和审核工作流机制,一方面提高了主数据治理过程中的安全性,另一方面有效对使用该系统的用户进行层级管理,提高工作效率

(7)、日志记录功能监控系统各级用户的操作,可以利用它检查错误发生原因,能对自身运行的状态、运行所涉及的日志、数据操作等日志进行记录,便于IT人员的维护或业务人员的查询。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于主数据驱动的数据治理系统的框图;

图2是根据本发明实施例的一种基于主数据驱动的数据治理系统的逻辑架构图;

图3是根据本发明实施例的一种基于主数据驱动的数据治理系统中数据集成原理图;

图4是根据本发明实施例的一种基于主数据驱动的数据治理方法的流程图。

具体实施方式

下面,结合附图以及具体实施方式,对发明做出进一步的描述:

根据本发明的实施例,提供了一种基于主数据驱动的数据治理系统。

如图1-3所示,该基于主数据驱动的数据治理系统包括:

主数据业务管理模块:用于生成数据相应的实例化业务功能;

数据模型管理模块:用于提供不同行业类别的数据模板,对元属性、数据约束条件、校验规则、编码规则等方面的定义与管理;

数据质量管理模块:用于数据整个生命周期中数据质量问题的识别、度量、监控和预警等管理活动;

数据集成管理模块:用于数据接收和数据分发中间件的管理,对数据进行集成,整合,清洗和标准化;

基础支撑管理模块:用于保障数据操作安全性,方便进行层级管理;

工作流模块:用于数据管理的自动化、智能化和整合化;

数据清洗模块:用于集成后零散、重复、不完整的数据依据一定清洗规则进行清洗,保证数据的唯一、精确、完整、一致和有效性;

定时任务处理模块:用于处理数据非实时计算。

如图2所示,对应的,在上述方案中,所述主数据业务管理模块包括数据申请子模块、数据审核子模块、数据变更子模块、数据查询子模块和数据归档子模块,其中,数据申请子模块,用于提供线上创建主数据、通用数据文件格式上传,经过数据萃取整合成有效的存储方式;数据审核子模块,用于自动校验数据之间的精确查重和模糊查重和按自定义工作流在线审批;数据变更子模块,用于对已经审核存储的主数据进行调整编辑,提交变更申请后进行自动校验,经审核通过内容生效,保留数据历史版本,实现版本追溯与对比分析;数据查询子模块,用于根据不同需求对数据进行查询;数据归档子模块,用于以物理方式将主系统中具有较低业务价值的主数据迁移到更适合、更经济高效的历史库中,仅可进行查询操作;

其中,数据申请子模块提供线上创建主数据、通用数据文件格式上传,经过数据萃取整合成有效的存储方式,提供附件上传功能,如pdf、jpg、dwf等格式,按照模板批量导入编码初始文件,上传自动进行检验和唯一性检测;

数据审核子模块包括自动校验数据之间的精确查重和模糊查重和按自定义工作流在线审批。数据校验规则包括唯一性校验、关联性校验、取值范围校验、相关附属表校验、正则表达式校验等,可以实现自定义附属值表、同名库校验查重、值列表模板选择以及自定义规则等功能。人工审批过程中需要记录审批意见,生成审批日志;

数据变更子模块提供对已经审核存储的主数据进行调整编辑,提交变更申请后进行自动校验,经审核通过内容生效,保留数据历史版本,实现版本追溯与对比分析;

数据查询子模块包括申请、审批、明细属性、变更历史,分发历史、数据分发接口日志等的查询,并按照不同的需求进行查询的结果的下载和打印;

数据归档子模块以物理方式将主系统中具有较低业务价值的主数据迁移到更适合、更经济高效的历史库中,仅可进行查询操作;

主数据业务管理模块在“主数据模型”的实体创建后,业务管理流程生成相应的实例化业务功能,提供数据申请、初始校验、编码审核、数据校验、数据生成、数据分发等六大功能主线,并提供数据清洗、变更、维护、停用、归档、注销、统计分析等服务内容。能够支持各类主数据的定义和使用,例如物料、供应商、客户、账务、财务科目等主数据类型的管理,并可自行扩展所管理的主数据范围,实现业务配置的自动化。

如图2所示,对应的,在上述方案中,所述基础支撑管理模块包括安全管理子模块、用户管理子模块和日志管理子模块,其中,安全管理子模块,用于对数据进行分级、用户级别及权限的定义来划分不同操作,确保数据操作安全性;用户管理子模块,用于进行组织分级,便于权限分配;日志管理子模块,用于所有重要的操作必须提供完备的日志记录;

其中,所述安全管理子模块包括身份认证分模块、内容安全分模块、访问控制分模块和安全恢复分模块,其中,身份认证分模块,用于进行用户身份认证;内容安全分模块,用于记录访问内容;访问控制分模块,用于控制用户仅能访问权限内的数据;安全恢复分模块,用于恢复误删数据。其中,所述访问内容包括相关人员信息、相关数据信息和操作时间信息;

具体的,在安全管理子模块中系统用户认证支持第三方LDAP,用户账号认证支持CA证书方式,并根据需要完成用户认证方式的定制。在系统登录与用户安全方面提供双因素认证令牌、USB KEY集成、CA数字证书、WINDOWS AD域认证、密码加密设定等多种可选择的增强安全的策略,实现系统高安全性与高可靠性,保证数据内容安全,在业务系统与数据治理系统的数据传输过程中为每个接口传输数据采用3DES(对称算法)进行加密,针对每一个接口生成密码。传输的业务数据采用对3DES进行加密;对称算法的密钥采用非对称算法进行加密传输;非对称算法密钥集团持有,公钥由集团下发给下属各局;

日志管理子模块中系统对所有重要的操作必须提供完备的日志记录,可以根据需要灵活调整系统日志记录级别;系统日志支持syslog协议和FTP协议,以远程保存系统日志;

还需说明的是,用户权限的安排由系统管理员进行分配,组建企业数据治理组织机构,按照部门进行划分,部门内部又按权限不同划分为:普通可查看用户、可进行修改用户、审核用户(用户权限可重叠)。不同部门根据业务不同对主数据的视图不同。日志管理实时记录对主数据的所有操作明细:包括增删改查,申请审批机制,记录内容有相关人员信息、相关数据信息、操作时间信息,便于相关人员对系统的维护和行为查看;安全管理实现对用户、角色分类,分级的授权管理,控制用户能够按权限访问数据,加强用户身份安全管理,系统支持对用户和角色进行分级授权;控制用户仅能访问权限内的数据;支持用户强密码策略和规范;支持用户身份的第三方验证;支持用户身份USB KEY安全访问控制;支持用户登录、用户操作、系统错误、系统删除等日志。

如图2所示,对应的,在上述方案中,所述数据清洗模块包括数据清洗规则子模块和数据清洗任务子模块,其中,清洗规则子模块,用于对数据定义清洗规则;数据清洗任务子模块,用于根据所述清洗规则对数据进行清洗;

需说明的是,数据清洗模块使用ETL工具对于结构化数据文件支持行级、列级、单元格级的数据清洗规则;系统内置通用的数据清洗规则,并支持灵活地根据业务需求扩展新的规则。对于文本则提取元数据(文件名称、文件大小、文件类型等),进行摘要、分类等,并根据文件类型做进一步的处理。

压缩文件:解压缩;

eml文件:提取发件人、收件人、主题、正文、附件等;

excel文件:提取结构化内容,多个tab分别提取;

csv文件/json文件:结构化;

办公文件:提取正文文本内容;

纯文本:提供正文文本内容;

其它文件:不处理。

如图2所示,在上述方案中,数据模型管理模块提供不同行业类别的数据模板,如客户类、产品类、物料类、人员类、财务类等等主数据模板。每一模板都有对应的编码规则(将数据信息用特定数字来表示、如:国家代码、币种、计量单位、地区划分)、元属性配置(属性字段构成、取值范围、默认值定义等)、校验规则(同名库校验、多属性组合关联性校验、取值范围校验、重复性校验等,支持模糊匹配,例如“北京”和“北京市”等同)。支持用户自定义其他主数据类别,提供编码规则、元属性、校验规则给用户自由配置,对规则进行管理。

如图2所示,在上述方案中,数据质量管理通过配置稽核规则和质量检测任务,输出质量报告,进行综合评分、列评分、质量问题、列值剖析等方面的展示,支持在线查阅或导出。根据质量稽核规则,如果数据违反“正向”预期,应生成质量问题,并给出量化的评估。例如:针对id列的唯一性判定,如果有N个id值存在重复,这就违反“正向”预期,应判定为数据质量问题,同时给出可量化的问题严重程度(如N/totalRecordNum)。对于列值剖析,给出表中每一列的列值特征;根据数据类型进行分析:

数值类型:最大值、最小值、平均值、中位数等;

日期类型:最大值、最小值;字符/字符串:

根据频率,分析top 10;

其它类型:不剖。

如图2所示,在上述方案中,工作流模块支持用户以可视化的方式、有向无环图的形式,快速构建任务工作流,配置汇聚预处理各个步骤(以下简称子任务)之间的先后顺序、依赖关系。配置子任务时支持对源数据进行预览。提供任务运行方式有:

(1)运行本节点:只运行当前节点对应的任务。

(2)运行本任务:运行工作流中所有任务。

(3)运行到本节点:运行本节点对应的任务。运行之前,需要先运行本节点依赖的任务。如果依赖的任务本身也有依赖,依此类推。

(4)从本节点运行:运行本节点对应的任务。运行之后,执行依赖本节点的后续任务,依此类推,运行到末尾节点为止,或者条件判断不通过为止。同一个任务支持用户多次修改、运行、探索工作流,直到效果验证达标为止,系统应保存工作流的最新状态。子任务在配置过程中,支持定义自定义的参数,以便在定期调度中,支持计算分区、输出表、输出分区的动态规则。

如图2所示,在上述方案中,数据集成管理模块中包含数据集成和数据分发两部分的接口中间件的数据交互方式和策略。数据产生有两种:人工导入、系统对变化数据自动捕获;

支持两种传输方式——同步传输、异步传输:

(1)同步传输:其他业务系统向主数据治理系统发送一条或一批主数据后,进行等待,接收系统处理成功返回结果,再继续下一批数据的发送,进行实时的交互传输;

(2)异步传输:源系统顺序发送待处理的主数据,无需等待处理结果,统一处理完毕后接收系统再发送处理结果,源系统则记录反馈;

支持两种数据获取方式——被动、主动:

(1)被动:由业务系统制定荻取策略,分发服务调用时间、频次皆由其设定;

(2)主动:由主数据系统制定策略,包含分发目标系统、分发数据对象范围、分发频次和时间。(分发信息将实时记录到日志中进行后期查询和版本维护)。

使用Web服务架构,基于标准的JDBC和ODBC接口,可支持TXT或excel类型数据,支持包括SFTP/FTP等方式的文件批量采集方式,基于Hadoop的数仓,如Hive的分布式数据仓库。

如图3所示,对应的,在上述方案中,所采用的数据集成方式为消息队列,所有应用之间,要通信的消息都通过消息队列来传输,由消息队列来保证数据传输的异步性、稳定性等,类似于网络连接结构,所有数据通过一条可靠的链路进行通信。不同应用之间解耦,双方规定好通信的消息格式,各自将消息发给消息队列就可以了。不管对方是用什么语言开发的系统,只要它们采用统一的消息格式,Java开发的系统也能够和C++,.NET等平台的系统通信。消息的可靠性保障,发送消息的具体任务相当于交给了消息队列。所有提交的消息由消息队列里的Message Router来投递,类似于网络系统里的路由器,根据发送方指定的地址转发到另外一个地方。同时,消息队列也根据不同的需要将消息持久化,保证消息在投递的过程中不会被丢失。系统可靠性保障,无需双方系统都在线,消息可以准确地送达对方,如果对方暂时忙消息也会保存在消息队列中,等需要的时候再响应获取,保证了信息的有效传递。这种保证系统异步执行的特性,也提升了系统性能。

根据本发明实施例的另一方面,提供了一种基于主数据驱动的数据治理方法。

如图4所示,根据本发明实施例的基于主数据驱动的数据治理方法包括以下步骤:

步骤S101,接受用户登录信息,基础支撑管理模块对用户进行身份验证;

步骤S103,主数据业务管理模块对用户上传数据进行接受,并对数据定义生命周期;

步骤S105,数据模型管理模块对所述数据进行加工处理,使其符合系统集成需求;

步骤S107,数据集成模块对数据进行集成标准化处理;

步骤S109,数据质量管理模块依据维度对所述数据进行质量分析并生成质量分析报告。

其中,所述登录信息包括用户账号和用户密码。

其中,所述维度包括完整性、唯一性、正确性、一致性、有效性、及时性。

综上所述,借助于本发明的上述技术方案,构建标准化元属性和业务规则库,内置技术元数据和业务元数据的元模型,从根源上规范数据,便于对元数据的管理,有效地减少了查询和管理数据的时间,通过数据编码,将信息分类、校核、合计、检索等操作进行简化,节省存储空间,提高处理速度。数据检验规则的定义与应用,实现对数据之间的精确查重和模糊查重,在校验结束后自动提示错误输入,有效地保证主数据的唯一性和规范性,最大限度地降低和避免人为因素导致的信息错误,主数据业务管理以数据生命周期为基础,对主数据提供申请机制、校验、审核、变更、分发等操作条线的功能,搭建一个主数据管理机制,流程化对系统主数据进行集中维护,降低了主数据管理的成本和提高了维护的合理规范度,数据清洗将集成后零散、重复、不完整的数据依据一定清洗规则进行清洗,保证数据的唯一、精确、完整、一致和有效性,提高了数据应用和后续的数据分析性能,提升了数据质量,也方便了数据查找和对比,质量分析和监控,对接入的数据进行定时的质量监控并产出分析报告,方便用户实时把控数据的基本情况,提升数据在使用中的价值,用户权限分配和审核工作流机制,一方面提高了主数据治理过程中的安全性,另一方面有效对使用该系统的用户进行层级管理,提高工作效率,日志记录功能监控系统各级用户的操作,可以利用它检查错误发生原因,能对自身运行的状态、运行所涉及的日志、数据操作等日志进行记录,便于IT人员的维护或业务人员的查询。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号