首页> 中文学位 >基于分区的分布式达梦数据交换平台(DMETL)的研究
【6h】

基于分区的分布式达梦数据交换平台(DMETL)的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 课题背景

1.2 国内外概况

1.3 课题主要研究工作

2 基于分区的DMETL总体结构

2.1 总体结构

2.2 主要模块介绍

2.3 小结

3 基于分区的DMETL执行引擎

3.1 相关定义描述

3.2 分区优化目标

3.3 活动分区策略

3.4 流程分区策略

3.5 与传统分区策略的对比

3.6 DMETL调度策略

3.7 活动节点缓冲区改进

3.8 小结

4 实验及结果分析

4.1 执行引擎缓冲区对比实验

4.2 DMETL分区策略实验

4.3 小结

5 总结与展望

5.1 全文总结

5.2 展望

致谢

参考文献

展开▼

摘要

当前数据的结构愈加复杂,分布更为广泛,促进了分布式ETL工具的发展。达梦数据交换平台(DMETL)是高性能的流式ETL工具,它的集群特性支持ETL流程的分布式执行。对于分布式ETL工具,对ETL活动节点分区是ETL并行优化策略的一种,可以提高并发度,但是容易产生较大的网络开销。而对ETL流程进行合理划分能够减小网络开销,提高资源利用率,因此基于分布式达梦数据交换平台对ETL流程的分区问题进行研究是很有意义的。
  首先,介绍了分布式达梦数据交换平台的总体结构,描述了ETL流程在流程执行引擎中的执行过程,并对其中的关键模块:执行引擎模块、元数据库模块、服务监听模块和集群管理模块进行了介绍。元数据模块可以获取ETL流程的活动信息,执行引擎中负责进行解析和分区,远程服务监听模块可用于远程执行子分区流程,集群模块为流程分布式执行提供可靠性保证。
  然后,研究DMETL活动节点的划分问题和ETL流程分区问题。对于活动节点分区,实现了多种节点分区策略;对于流程分区,将流程分区问题转化为树的分区问题,最后将活动节点分区和流程分区相结合,设计了DMETL对于分布式ETL流程的分区策略。此外,为了执行分区后的子分区流程,设计了执行引擎的多线程流水线式调度策略,并针对高并发场景,改进了ETL活动节点间缓冲区的实现。
  最后,通过实验表明,系统实现了设计的分区策略,在执行效率上相对于现有的任务划分策略有所提升,而且改进后的缓冲区在高并发的场景下,性能也得到了改善。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号