首页> 中国专利> 一种基于生命周期管理的一体化大数据管理平台

一种基于生命周期管理的一体化大数据管理平台

摘要

本发明公开了一种基于生命周期管理的一体化大数据管理平台,包括元数据管理子系统,用于对各类数据的元数据进行集中的存储、管理和维护;数据接入子系统,用于数据的接入;数据存储管理子系统,用于数据的持久化存储;数据检索子系统,用于数据的检索,根据用户所需查询的数据特征信息与所述元数据管理子系统交互,查找与数据特征信息一致的数据;运维管理子系统,用于数据的可视化管理,用于提供管理员所需的数据全貌及任务概况;消息层,用于消息中间件,用于提供数据传送的分布式环境;资源调度,用于各种资源进行合理有效的调节和测量及分析和使用;安全机制,用于数据的安全。有益效果:实现平台整体“高内聚、低耦合”的效果。

著录项

  • 公开/公告号CN113127462A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利权人 联洋国融(北京)科技有限公司;

    申请/专利号CN202010030011.X

  • 发明设计人 苏志坚;

    申请日2020-01-10

  • 分类号G06F16/215(20190101);G06F16/22(20190101);G06F16/2453(20190101);

  • 代理机构

  • 代理人

  • 地址 100032 北京市西城区北三环中路29号院3号楼4层507、509室

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明涉及大数据技术领域,具体来说,涉及一种基于生命周期管理的一体化大数据管理平台。

背景技术

大数据”是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性,大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据。

随着社会的高速发展,数据迅速膨胀,量级不断扩大,并呈现出数据种类繁多、数据量大、价值密度低、速度快、时效高等特点,既有的技术架构和路线,已经无法高效处理如此海量的数据。如何实现海量数据高效的接入、存储、管理、检索,成为企业或组织业务发展转型过程中的极大技术挑战。因此,亟需一套基于数据生命周期、具备高效地“接、存、管、用”能力的一体化大数据管理平台。

针对相关技术中的问题,目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供一种基于生命周期管理的一体化大数据管理平台,以解决上述背景技术中提出的问题。

本发明的技术方案是这样实现的:

根据本发明的一方面,提供了一种基于生命周期管理的一体化大数据管理平台。

该基于生命周期管理的一体化大数据管理平台包括:

元数据管理子系统,用于对各类数据的元数据进行集中的存储、管理和维护;

数据接入子系统,用于数据的接入,结合元数据,对数据进行自动分区计算;

数据存储管理子系统,用于数据的持久化存储,并在数据落地后,对存储进行优化;

数据检索子系统,用于数据的检索,根据用户所需查询的数据特征信息与所述元数据管理子系统交互,查找与数据特征信息一致的数据;

运维管理子系统,用于数据的可视化管理,用于提供管理员所需的数据全貌及任务概况;

消息层,用于消息中间件,用于提供数据传送的分布式环境;

资源调度,用于各种资源进行合理有效的调节和测量及分析和使用;

安全机制,用于数据的安全,对管理员进行认证和鉴别。

其中,所述数据接入子系统包括数据加载子模块、消息队列子模块、数据持久化子模块和数据存储子模块,其中,数据加载子模块,用于支持了HTTP、TCP、FTP在内的常用网络协议,也支持消息层的Kafka、RocketMQ等消息中间件,可启动Http Server、Tcp Server、Ftp Server等,用于从不同的客户端接入数据;消息队列子模块,用于数据的高速缓冲和多源汇聚;数据持久化子模块,用于从所述消息队列模块中指定主题消费数据,支持用户根据业务规则,将数据分拣入不同的通道中,还用于数据的最终落地;数据存储子模块,用于数据的存储。

其中,所述数据存储子模块包括分布式数据仓库、分布式KV库和分布式全文库。

其中,所述数据存储管理子系统包括小文件合并子模块、生命周期管理子模块和分级存储子模块,其中,小文件合并子模块,用于对小文件进行合并任务,使多个小文件合并产生大文件;生命周期管理子模块,用于对存储数据进行过期删除,支持对分布式数据仓库Hive和分布式全文库Elasticsearch进行数据自动删除;分级存储子模块,用于对数据进行分级存储。

其中,所述运维管理子系统包括部署子模块、配置子模块、管理子模块、监控子模块、数据全貌子模块和任务监控子模块,其中,部署子模块,用于服务部署;配置子模块,用于服务配置;管理子模块,用于对节点、服务进行管理,如在线添加、删除节点或服务,在线修改服务配置等;监控子模块,用于监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控,可对硬件服务器网络、内存、磁盘等进行实时监控,对服务的内存使用,活跃状态进行实时监控;数据全貌子模块,用于对数据全貌进行监控;任务监控子模块,用于对任务概况进行监控。

根据本发明的另一方面,提供了一种基于生命周期管理的一体化大数据管理方法,该基于生命周期管理的一体化大数据管理方法包括以下步骤:

数据接入子系统接受用户存储数据;

数据接入子系统对所述存储数据进行处理,确定所述存储数据的特征;

数据接入子系统依据所述存储数据特征落地存储;

根据预先设置的小文件阈值,数据存储管理子系统对处于阈值内的存储数据进行合并;

根据预先设置的存储数据的存储时间周期,数据管理子系统对过期的所述存储数据删除。

其中,在对数据接入子系统对所述存储数据进行处理,确定所述存储数据的特征时,可预先配置元数据的数据模式、分区规则、存储规则等信息,结合元数据,数据持久化子模块对存储数据进行自动分区计算知晓所述存储数据的目标分区。

其中,在根据预先设置的小文件阈值,数据存储管理子系统对处于阈值内的存储数据进行合并时,可设置小文件阈值,小文件合并子模块对所述存储数据进行判断,对低于阈值的所述存储数据进行合并任务,通过一个Spark作业完成存储数据的合并并最终会产生一个大文件,对原来所述存储数据进行延迟删除。

其中,在对根据预先设置的存储数据的存储时间周期,数据管理子系统对过期的所述存储数据删除时,在元数据中定义数据存储生命周期,对所述存储数据进行判断,对超出生命周期的所述存储数据,生命周期管理子模块进行自动删除操作。

与现有技术相比,本发明具有以下有益效果:

(1)以元数据管理子系统为中心,定义各类业务数据的元数据、分区规则以及存储规则,数据接入子系统、数据存储管理子系统、数据检索子系统均以此为依据,聚焦子系统内部逻辑,“接、存、管、用”各子系统相互之间没有交互关系,实现平台整体“高内聚、低耦合”的效果。

(2)、多路并行数据接入,实现分区自动计算,合理的文件关闭策略,兼顾文件大小控制及数据及时性,并极大提升了数据接入的效率;小文件合并,有效地降低随机IO,提高检索效率,同时降低文件系统元数据管理的压力;数据分级存储,使得冷热数据的存储更加合理,兼顾线上业务的查询效率及数据存储成本;过期数据自动删除,在信息迅速膨胀的场景下,可有效降低存储的压力,使得海量数据的管理更加从容;基于自定义分区规则的透明分区裁剪,在大量的基于隐含分区字段的条件过滤场景下,有效降低了整表扫描量,提高检索效率,降低查询响应时间;通过可视化部署、配置及监控,降低管理员在大规模数据集群管理上的技术门槛,极大地提高了工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于生命周期管理的一体化大数据管理平台的框图;

图2是根据本发明实施例的一种基于生命周期管理的一体化大数据管理平台的逻辑架构图;

图3是根据本发明实施例的一种基于生命周期管理的一体化大数据管理平台中数据接入子系统实现原理的逻辑架构图;

图4是根据本发明实施例的一种基于生命周期管理的一体化大数据管理平台中小文件合并与过期数据删除实现原理的逻辑架构图;

图5是根据本发明实施例的一种基于生命周期管理的一体化大数据管理方法的流程图

具体实施方式

下面,结合附图以及具体实施方式,对发明做出进一步的描述:

根据本发明的实施例,提供了一种基于生命周期管理的一体化大数据管理平台。

如图1-4所示,该基于生命周期管理的一体化大数据管理平台包括:

元数据管理子系统,用于对各类数据的元数据进行集中的存储、管理和维护;

数据接入子系统,用于数据的接入,结合元数据,对数据进行自动分区计算;

数据存储管理子系统,用于数据的持久化存储,并在数据落地后,对存储进行优化;

数据检索子系统,用于数据的检索,根据用户所需查询的数据特征信息与所述元数据管理子系统交互,查找与数据特征信息一致的数据;

运维管理子系统,用于数据的可视化管理,用于提供管理员所需的数据全貌及任务概况;

消息层,用于消息中间件,用于提供数据传送的分布式环境;

资源调度,用于各种资源进行合理有效的调节和测量及分析和使用;

安全机制,用于数据的安全,对管理员进行认证和鉴别。

如图2所示,在上述方案中,元数据管理子系统用于对各类数据的元数据进行集中的存储、管理和维护,需要说明的是,元数据包括数据模式、分区规则、存储规则等信息,且还需说明的是,分区规则是通过自定义的方式,包括等值分区、范围分区、哈希分区、时间分区等,可灵活地满足多种业务场景;

需要强调的是,元数据管理子系统是一个统一的元数据管理中心,对一体化大数据平台中管理的各类数据,进行元数据的统一存储、管理和维护。其它各个子系统,只需与元数据管理子系统进行交互,即可识别到数据的模式是什么,数据格式是什么,数据存储在哪里,数据如何分区,数据保存多长时间等,而不需要再与上下游的其它子系统之间进行交互,达到了解耦合的效果。

如图2-3所示,对应的,在上述方案中,所述数据接入子系统包括数据加载子模块、消息队列子模块、数据持久化子模块和数据存储子模块,其中,数据加载子模块,用于支持了HTTP、TCP、FTP在内的常用网络协议,也支持消息层的Kafka、RocketMQ等消息中间件,可启动Http Server、Tcp Server、Ftp Server等,用于从不同的客户端接入数据;消息队列子模块,用于数据的高速缓冲和多源汇聚;数据持久化子模块,用于从所述消息队列模块中指定主题消费数据,支持用户根据业务规则,将数据分拣入不同的通道中,还用于数据的最终落地;数据存储子模块,用于数据的存储。其中,所述数据存储子模块包括分布式数据仓库、分布式KV库和分布式全文库。

需要说明的是,数据接入子系统负责数据的接入,结合元数据,对数据进行自动分区计算,在实际应用时,可从元数据中识别分区规则,根据分区计算逻辑,将每条数据自动对应到实际的目标分区中,正确地计算分区并存储到目标分区,且数据接入子系统是进行过期数据删除和数据检索子系统进行透明分区裁剪的运作基础;

另外,为了满足高可用的场景,数据接入子系统针对HTTP服务,提供了负载均衡模块,具备故障检测和自动切换的能力,可保证重要数据的接入不会因单点故障而中断;

此外,数据加载子模块内部,具有用户认证、权限验证等功能,满足高安全性的应用场景,同时具有数据校验和数据合并的功能。单个实例内部可以开启多路并行加载,提高数据接入的效率;同时,内部根据用户自定义的规则,进行分拣,发送到不同的通道中,最终将数据汇入到消息队列的指定主题中;

此外,数据持久化子模块用于从所述消息队列模块中指定主题消费数据,支持用户根据业务规则,将数据分拣入不同的通道中,还用于数据的最终落地,具体包括数据反序列化、依据分区规则自动进行分区计算、挑选分区文件并写入文件等过程,可根据用户的配置,将数据落到地分布式数据仓库、分布式KV库、分布式全文库中为了保证数据接入的高效性,同一分区下会同时打开多个数据文件,数据持久化模块可根据文件大小及空闲等待时间,决定何时关闭文件,用户可根据线上业务的特点,适当调整这两个参数,既可合理地控制落地文件的大小,又可兼顾到数据可查询的时效性。

如图2和图4所示,对应的,在上述方案中,所述数据存储管理子系统包括小文件合并子模块、生命周期管理子模块和分级存储子模块,其中,小文件合并子模块,用于对小文件进行合并任务,使多个小文件合并产生大文件;生命周期管理子模块,用于对存储数据进行过期删除,支持对分布式数据仓库Hive和分布式全文库Elasticsearch进行数据自动删除;分级存储子模块,负责对数据进行分级存储;

小文件合并子模块依托Spark分布式计算引擎,基于元数据和文件系统,自动识别小文件(文件大小低于指定阈值的,称为小文件,用户可配置阈值),将若干个小文件组织成一个合并任务,任务下发后,将通过一个Spark作业完成文件的合并,每个合并任务,最终会产生一个大文件;同时,对应的小文件会自动移动到回收目录中;

通过小文件合并具有三个特点:一是文件合并策略通过元数据配置,灵活方便;二是合并后再更新元数据,避免数据重复读取;三是合并前的数据延时删除,避免运行任务读取异常,在本发明中,最短合并周期可到分钟级;

对于生命周期管理子模块,支持用户对分布式数据仓库Hive和分布式全文库Elasticsearch进行数据自动删除,即在大数据平台中保存最近一段时间的数据,过期的数据将被删除;支持对不同的表指定不同的存储周期,时间粒度可以达到天级。

如图2所示,在上述方案中,数据检索子系统提供了结构化检索的能力,基于标准的SQL语法和标准的JDBC接口,与客户端进行交互;具备即席查询和离线检索两种工作模式;从任务调度和任务执行两个角度进行了优化。不仅提升了查询效率,也在尽可能保证系统并发的情况下,保障系统的稳定运行;

基于自定义的分区规则,在检索过程中,自动识别隐含分区条件,自动转换为标准分区过滤,可有效降低单次查询的数据扫描量,数据检索子系统通过并发控制和优先级控制等机制,保证在高并发下系统的稳定运行以及实现任务的优先级调度;

数据检索子系统在透明分区裁剪上进行了重点优化,在SQL执行的规划阶段,子系统会自动识别SQL语句中的隐含分区条件,即用户查询时无需指定分区字段,子系统会基于元数据中的自定义分区规则,识别过滤条件中是否包含着衍生出表分区字段的过滤字段,如果包含这些字段,则根据分区规则将条件值和匹配符自动转换成标准的分区过滤,达到分区裁剪的目的且提供了5个优先级队列,实现任务的优先级调度。

如图2所示,对应的,在上述方案中,所述运维管理子系统包括部署子模块、配置子模块、管理子模块、监控子模块、数据全貌子模块和任务监控子模块,其中,部署子模块,用于服务部署;配置子模块,用于服务配置;管理子模块,用于对节点、服务进行管理,如在线添加、删除节点或服务,在线修改服务配置等;监控子模块,用于监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控,可对硬件服务器网络、内存、磁盘等进行实时监控,对服务的内存使用,活跃状态进行实时监控;数据全貌子模块,用于对数据全貌进行监控;任务监控子模块,用于对任务概况进行监控;

此外,运维管理子系统可监控平台的软硬件信息,包括集群服务的状态,集群各主机的状态,节点中CPU、磁盘、内存、网络的可用性及使用量等,同时可监控集群整体的磁盘IO、网络IO、数据存储等指标,运维管理子系统同时提供了数据全貌及任务概况的展示功能,为管理员了解平台数据及其组织方式、平台内运行的各类任务,提供了极大的方便。

根据本发明实施例的另一方面,提供了一种基于生命周期管理的一体化大数据管理方法。

如图5所示,该基于生命周期管理的一体化大数据管理平台包括以下步骤:

步骤S101,数据接入子系统接受用户存储数据;

步骤S103,数据接入子系统对所述存储数据进行处理,确定所述存储数据的特征;

步骤S105,数据接入子系统依据所述存储数据特征落地存储;

步骤S107,根据预先设置的小文件阈值,数据存储管理子系统对处于阈值内的存储数据进行合并;

步骤S109,根据预先设置的存储数据的存储时间周期,数据管理子系统对过期的所述存储数据删除。

其中,在对数据接入子系统对所述存储数据进行处理,确定所述存储数据的特征时,可预先配置元数据的数据模式、分区规则、存储规则等信息,结合元数据,数据持久化子模块对存储数据进行自动分区计算知晓所述存储数据的目标分区。

其中,在根据预先设置的小文件阈值,数据存储管理子系统对处于阈值内的存储数据进行合并时,可设置小文件阈值,小文件合并子模块对所述存储数据进行判断,对低于阈值的所述存储数据进行合并任务,通过一个Spark作业完成存储数据的合并并最终会产生一个大文件,对原来所述存储数据进行延迟删除。

其中,在对根据预先设置的存储数据的存储时间周期,数据管理子系统对过期的所述存储数据删除时,在元数据中定义数据存储生命周期,对所述存储数据进行判断,对超出生命周期的所述存储数据,生命周期管理子模块进行自动删除操作。

综上所述,借助于本发明的上述技术方案,以元数据管理子系统为中心,定义各类业务数据的元数据、分区规则以及存储规则,数据接入子系统、数据存储管理子系统、数据检索子系统均以此为依据,聚焦子系统内部逻辑,“接、存、管、用”各子系统相互之间没有交互关系,实现平台整体“高内聚、低耦合”的效果,多路并行数据接入,实现分区自动计算,合理的文件关闭策略,兼顾文件大小控制及数据及时性,并极大提升了数据接入的效率;小文件合并,有效地降低随机IO,提高检索效率,同时降低文件系统元数据管理的压力;数据分级存储,使得冷热数据的存储更加合理,兼顾线上业务的查询效率及数据存储成本;过期数据自动删除,在信息迅速膨胀的场景下,可有效降低存储的压力,使得海量数据的管理更加从容;基于自定义分区规则的透明分区裁剪,在大量的基于隐含分区字段的条件过滤场景下,有效降低了整表扫描量,提高检索效率,降低查询响应时间;通过可视化部署、配置及监控,降低管理员在大规模数据集群管理上的技术门槛,极大地提高了工作效率。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号