首页> 中国专利> 一种数据集市框架

一种数据集市框架

摘要

本发明公开了一种数据集市框架,属于数据集市领域,数据集市框架接入至少一数据平台,数据集市框架包括:数据整合模块,用于监控数据平台,并于数据平台中的源数据发生变动时,对发生变动的源数据进行整合;数据处理模块,连接数据整合模块,用于将整合的源数据同步到一数据表中;报表展示模块,连接数据处理模块,用于预先设置一报表,并于出具报表时通过更新后的数据表进行内容展示,数据表与报表一对一展示。本发明利用生产者‑消费者模式对数据进行实时监控,一旦发生变动就触发生产者,进而通过消费者实现数据整合、处理;在出具报表时,直接通过数据表进行内容展示,数据表和报表一对一展示,以提供可靠的决策制定依据。

著录项

  • 公开/公告号CN114676201A

    专利类型发明专利

  • 公开/公告日2022-06-28

    原文格式PDF

  • 申请/专利权人 上海深至信息科技有限公司;

    申请/专利号CN202210192987.6

  • 发明设计人 吴霜;张志遵;朱瑞星;

    申请日2022-02-28

  • 分类号G06F16/28;G06F16/27;G06F16/25;

  • 代理机构上海申新律师事务所;

  • 代理人党蕾

  • 地址 200120 上海市浦东新区中国(上海)自由贸易试验区浦东大道720、728号16B室

  • 入库时间 2023-06-19 15:47:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-28

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及数据集市领域,尤其涉及一种数据集市框架。

背景技术

数据集市(Data Mart),也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库,设计的目的是支持决策支持系统(Decision-making Support System,DSS)功能。在数据仓库里,每个数据单元都与特定的时间相关。数据仓库包括原子级别的数据和轻度汇总的数据,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。

从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的。然而,现有的数据集市抽取出来的数据杂乱,无脑存储,难以管理,需要花费大量的人力成本来维护;并且在需要出具报表时才会对数据进行处理,导致报表出具效率低,因此针对以上问题,迫切需要设计出一种数据集市框架,以满足实际使用的需要。

发明内容

为了解决以上技术问题,本发明提供了一种数据集市框架。

本发明所解决的技术问题可以采用以下技术方案实现:

一种数据集市框架,所述数据集市框架接入至少一数据平台,所述数据集市框架包括:

数据整合模块,用于监控所述数据平台,并于所述数据平台中的源数据发生变动时,对发生变动的所述源数据进行整合;

数据处理模块,连接所述数据整合模块,用于将整合的所述源数据同步到一数据表中;

报表展示模块,连接所述数据处理模块,用于预先设置一报表,并于出具所述报表时通过更新后的所述数据表进行内容展示,所述数据表与所述报表一对一展示。

本发明所述的数据集市框架,所述至少一数据平台包括一数据库,用于存储所述源数据;

所述数据整合模块与所述至少一数据平台通过生产者-消费者模式对所述数据库进行实时监控和数据整合。

本发明所述的数据集市框架,所述至少一数据平台包括:

一生产者处理单元,用于所述源数据一旦发生变动,则触发一次生产者,并生成一生产者记录;

所述数据整合模块包括:一消费者处理单元,用于根据所述生产者记录进行消费。

本发明所述的数据集市框架,所述数据整合模块通过日志的方式进行有序的记录每一所述生产者记录。

本发明所述的数据集市框架,所述数据处理模块包括:

一定时处理单元,用于按照一所述预置的定时任务根据所述生产者记录对所述数据平台中发生变动的所述源数据进行全量同步更新。

本发明所述的数据集市框架,所述数据处理模块通过字段关系映射的方式将发生变动的所述源数据同步到所述数据表中的对应字段。

本发明所述的数据集市框架,所述数据处理模块为Kettel工具,所述Kettel工具以插件的形式存储在所述数据集市框架中。

本发明所述的数据集市框架,所述数据集市框架提供一报表接口,用以通过所述报表接口接入不同的所述报表。

本发明所述的数据集市框架,所述数据集市框架提供一数据资源接口,用以通过所述数据资源接口接入所述至少一数据平台。

本发明所述的数据集市框架,所述数据平台为医疗数据平台。

本发明的有益效果在于:

本发明通过python程序搭建数据集市框架,利用生产者-消费者模式对接入的数据平台中的数据进行实时监控,一旦发生变动就触发生产者,进而通过消费者实现数据整合、处理;并且在数据整合、处理过程中,将源数据拉取到数据表中,在出具报表时,直接通过数据表进行内容展示,数据表和报表一对一展示,以提供可靠的决策制定依据。

附图说明

图1为本发明较佳的实施例中,数据集市框架的结构框图;

图2为本发明较佳的实施例中,数据对应的表的变换流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。

下述对本发明实施例涉及到的标准术语进行解释:

Kettel工具:是一种ETL工具,可直接部署在Linux系统上,通过kitchen.sh脚本进行部署,直接将kitchen.sh脚本写入Dockerfile或者yum文件,通过run命令或者compose-up命令的形式在后台运行,其中,Dockerfile是一个用来构建镜像的文本文件,文本内容包含了一条条构建镜像所需的指令和说明。

本发明实施例提供一种数据集市框架,属于数据集市领域,如图1和图2所示,数据集市框架接入至少一数据平台1,数据集市框架包括:

数据整合模块3,用于监控数据平台1,并于数据平台1中的源数据发生变动时,对发生变动的源数据进行整合;

数据处理模块4,连接数据整合模块3,用于将整合的源数据同步到一数据表B中;

报表展示模块5,连接数据处理模块4,用于预先设置一报表C,并于出具报表C时通过更新后的数据表B进行内容展示,数据表B与报表C一对一展示。

具体的,本发明实施例通过python程序搭建数据集市框架,利用生产者-消费者模式对接入的数据平台1中的数据进行实时监控,一旦发生变动就触发生产者,进而通过kettel工具进行消费,实现数据整合、处理;并且在数据整合、处理过程中,直接进行数据抓取,将源数据直接拉取到数据表B中,在出具报表C时,直接通过数据表B进行内容展示,报表不需要通过额外SQL或者程序进行处理,数据表B和报表C一对一展示,以提供可靠的决策制定依据。

进一步的,框架具有导入功能,能够导入数据报表模板,在导入数据报表模板后,框架会直接生成新的数据表B,且数据表B直接针对报表C内字段一一对应。

本发明实施例的数据集市框架优化了报表C的抓取方式,不同于现有技术中在需要出具报表C时才会进行数据抓取;本发明直接数据表B与报表C一对一模式,在出具报表C之前,已经完成了数据处理的过程,优化了报表的处理方式,大大减少的报表处理的时间,提高了报表出具效率。

作为优选的实施方式,其中,至少一数据平台1包括一数据库11,用于存储源数据;

数据整合模块3与至少一数据平台1通过生产者-消费者模式对数据库进行实时监控和数据整合。

作为优选的实施方式,其中,至少一数据平台1包括:

一生产者处理单元12,用于源数据一旦发生变动,则触发一次生产者,并生成一生产者记录;

数据整合模块3包括:一消费者处理单元31,用于根据生产者记录进行消费。

具体的,在本实施例中,数据平台1一旦产生新数据,就触发一次生产者,产生生产者记录,并发送给python程序,python程序利用Kettel工具自动消费进行数据的同步处理。

作为优选的实施方式,其中,数据整合模块3通过日志的方式进行有序的记录每一生产者记录。

具体的,在本实施例中,每一条生产者记录都是有序的,通过日志记录下来,无需安装任何插件,通过日志记录的方式便于后期用户对数据平台1的数据进行准确有效的追溯,为后续数据平台1的异常问题追溯原因提供数据依据。

作为优选的实施方式,其中,数据处理模块4包括:

一定时处理单元41,用于按照一预置的定时任务根据生产者记录对数据平台1中发生变动的源数据进行全量同步更新。

具体的,在本实施例中,为了避免数据丢失的风险,本发明先基于生产者-消费者模式进行处理,得到生产者记录,触发数据更新,由于每一条生产者记录都是有序存储的,按照预置的定时任务进行数据同步的定时、集中、有序处理,例如预置的定时任务可以是设置为每晚8点集中处理所有的生产者记录,进行定时全量同步更新,每晚或者每隔一段时间进行一次定期养护,防止消费数据有遗漏或者其他途径获取的数据未及时更新的情况,保证出具报表C时,数据的完整性和可靠性。

进一步的,在数据量较大的情况下,也可以通过增量更新的方式进行数据同步处理。

作为优选的实施方式,其中,数据处理模块4通过字段关系映射的方式将发生变动的源数据同步到数据表B中的对应字段。

作为优选的实施方式,其中,数据处理模块4为Kettel工具,Kettel工具以插件的形式存储在数据集市框架中。

具体的,本发明实施例利用Kettel工具对数据进行处理,直接将数据进行连表式操作,通过字段关系映射的方式将数据同步到数据表B中对应的字段中,能够将多个数据库中的数据库表A或者一个数据库中的多张数据库表A中的数据经处理后合并至框架内的一张数据表B中。由于Kettel工具通过插件的方式集成在数据集市框架中,在后续过程中可以根据需要使用现有或在现有基础上更新的工具替换上述Kettel工具实现数据处理的功能,提高数据集市框架的多样性。

进一步的,本发明实施例通过Kettel工具和生产者-消费者模式相结合的方式,对数据进行合理高效的管理,维护成本低。

作为优选的实施方式,其中,数据集市框架提供一报表接口6,用以通过报表接口6接入不同的报表C。

具体的,在本实施例中,数据集市框架具有报表接口6,该报表接口6可以是一个,也可以是多个,以匹配不同的报表C,通过python程序更改报表接口6接入的报表C,即可实现不同的报表展示,上述不同的报表对应的类型、界面设计风格、格式、展示的数据内容均有可能不同,实现多样化、动态化的数据展示,提高报表展示效率,为管理人员的决策制定提供可靠的科学性依据。

作为优选的实施方式,其中,数据集市框架提供一数据资源接口2,用以通过数据资源接口2接入至少一数据平台1。

具体的,在本实施例中,数据集市框架还具有数据资源接口2,该数据资源接口2可以是一个,也可以是多个,以匹配不同的数据平台1,通过python程序更改数据资源接口2接入的数据平台1,即可实现不同的数据平台1的数据汇总展示。

优选的,数据集市框架接入的数据平台1可以是医疗数据平台,也可以是金融数据平台或者其他领域资源平台,通过接口接入的方式,使得本发明实施例数据集市框架的适用性较强,能够广泛应用于多样化的领域,实现不同领域的数据汇总,进而自动化进行报表的定期生成。

本发明实施例的数据集市框架,通过在python程序中手动分配好数据资源接口2与报表接口6,Kettel工具以插件的形式存储在框架中,后续过程中只需要修改框架中的数据库名称、数据表B名称与报表名称,或者增加数据资源接口2(生产者)与报表接口6,即可利用数据集市框架自动实现报表查询功能,通过。

采用上述技术方案的优点或有益效果在于:本发明通过python程序搭建数据集市框架,利用生产者-消费者模式对接入的数据平台中的数据进行实时监控,一旦发生变动就触发生产者,进而通过消费者实现数据整合、处理;并且在数据整合、处理过程中,将源数据拉取到数据表中,在出具报表时,直接通过数据表进行内容展示,数据表和报表一对一展示,以提供可靠的决策制定依据。

以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号