首页> 中文学位 >基于ETL的数据集成过程模型
【6h】

基于ETL的数据集成过程模型

代理获取

目录

文摘

英文文摘

论文说明:图表目录

第1章绪论

1.1课题背景

1.1.1课题研究现状

1.1.2本论文的研究贡献

1.2本章小结

第2章数据集成技术

2.1数据集成中系统交互技术

2.1.1文件方式交互

2.1.2中间件方式交互

2.1.3数据库方式交互

2.2系统的交互协议

2.2.1 SWIFT

2.2.2 XML

2.3数据集成中的传统驱动模式

2.3.1任务调度技术

2.3.2 Quartz

2.4点到点集成交互优缺点

2.5 ETL技术综述

2.6交互协议的统一

2.7本章小结

第3章异构数据源数据的抽取和转换

3.1传统异构数据集成抽取和转换过程

3.2基于ETL过程模型的总体设计

3.3中的异构数据抽取

3.3.1数据提供者的具体设计

3.3.2数据提供者的具体实现

3.3.3数据提供者的效果分析

3.4过程模型中的异构数据转换

3.4.1元数据映射

3.4.2元数据映射设计与实现

3.4.3元数据映射的效果分析

3.5本章总结

第4章可扩展的数据清洗转换方式

4.1传统的数据清洗方式

4.2基于简单规则引擎的数据清洗

4.2.1基于简单规则引擎的设计

4.2.2基于简单规则引擎的实现

4.3简单规则引擎的效果分析

4.4本章小结

第5章过程模型中的驱动模型

5.1传统的驱动模型

5.2过程模型中驱动模型的原理

5.3驱动模型的设计与实现

5.3.1事件的产生

5.3.2事件的处理

5.4驱动模型的效果分析

5.5本章小结

第6章总结与展望

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

随着全球化的发展,各行各业都将业务拓展到全球,全球信息化成为未来的发展趋势。为了满足当地的各项政策法律以及新市场的要求等,需要有新的信息系统提供支持。这就形成了各个信息系统之间的交互鸿沟,即所谓的“信息孤岛”。针对“信息孤岛”,有很多种方式让信息系统之间能够交互,与之相比,数据集成则是更棘手的问题。由于各信息系统是异构的分布式数据源系统,因此数据集成需要将分布在各地异构数据源的各种类型数据如类似于文本文件的非结构化数据,XML等半结构化数据,以及数据库的结构化数据等转换成统一的数据视图,供下游系统统一使用。目前这种数据集成需求随着业务全球化的发展而不断加强。然而,当今数据集成仍面临若干关键问题需要解决:1)如何从异构的分布式信息系统中读取数据,并且高效地将异构数据转换为统一的数据视图;2)如何进行数据清洗完成数据在业务层上的转换;3)如何拓展数据集成的驱动模式提高实时性。
   针对这种分布式异构数据源的集成需求,本文提出了一个基于ETL(Extract—Transform—Load)即数据抽取、转换和加载的集成过程模型。本过程模型采用数据提供者读取数据,通过元数据映射方式完成异构数据向统一数据视图的转换;针对转换之后的数据,通过简单规则引擎执行对客户系统定制的业务规则来完成数据在业务层面上的转换。同时将传统的数据集成的驱动模式——任务调度,拓展为同时支持任务调度和按需实时性事件的双驱动模式。本文在解决上述问题的过程中同时考虑了数据集成的性能,本过程模型通过增量式的数据集成和在数据库端运行的基于存储过程的规则引擎减少了数据传输的网络开销,提高了数据集成的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号