首页> 中文学位 >数据仓库中ETL工具的分析与实现
【6h】

数据仓库中ETL工具的分析与实现

代理获取

目录

文摘

英文文摘

声明

引 言

1 ETL的简介

1.1什么是ETL

1.2 ETL的功能

1.3 ETL在数据仓库系统中的重要性

1.4 ETL的产生与发展

2相关理论分析

2.1 ETL过程的特点

2.2数据转换

2.3数据清洗

2.4数据质量保证

2.5元数据

3 ETL工具分析及设计

3.1评价ETL工具的标准

3.2 ETL工具的分类

3.3各ETL工具功能与结构分析

3.3.1 Oracle Warehouse Builder

3.3.2 Informatica PowerCenter

3.3.3 Microsoft SQL Server DTS

3.4 ETL工具的设计

3.4.1设计思路

3.4.2系统架构

3.4.3主要技术难点及解决方案

3.5小结

4 ETL工具的实现

4.1数据对象化

4.2节点

4.2.1节点概述

4.2.2节点基类

4.2.3数据抽取节点

4.2.4数据转换节点

4.2.5数据加载节点

4.2.6节点对象的创建

4.3 边

4.4转换图

4.5系统测试及结果分析

4.6小结

结论

参考文献

致谢

展开▼

摘要

随着计算机的发展,信息系统中数据孤岛的增多,如何把这些数据利用起来,是每个企业所面临的问题。ETL是指数据抽取(Extract)、数据转换(Transform)以及数据加载(Loading),在数据仓库的应用中起着关键作用。ETL把这些数据孤岛利用起来,形成数据仓库,是构建数据仓库中极其重要的一环。因此,提供一种好的ETL工具是非常有益的工作。利用ETL工具可以对异构数据源中的业务数据抽取和转换,并将其装载到数据仓库中,其主要作用是对各类业务数据的清理、标准化和汇总,为基于数据仓库的决策分析应用提供高质量的数据。 本文首先分析了国内外ETL工具的研究现状,也对目前主流的ETL工具的结构可靠、及特点以及在ETL过程中比较重要的数据转换、数据清洗和元数据等相关问题和理论方法进行了详细分析,提出了一种较通用的ETL工具框架设计模型,在此基础上,使用Java语言实现了一个可根据不同的ETL过程进行灵活配置的ETL系统。 目前ETL工具的转换引擎多使用编写脚本语言的方式来应对复杂的ETL转换,操作复杂,专业性强且不易使用。本文引入了DirectShow的媒体文件处理思想,提出了ETL转换图的设计思路。ETL转换图由若干功能单一的数据处理单元组成,各处理单元根据不同ETL过程的需要进行组合和连接,形成数据处理的流水线,完成ETL过程。转换图可灵活处理复杂的ETL过程。在具体实现方面,充分运用面向对象语言的继承、多态的特性,将设计模式大量的应用于系统的实现当中,使系统架构清晰,具有良好的扩展性。 最后对系统进行了测试,系统运行平稳,表明使用转换图思想设计的ETL,工具可较好的完成数据仓库的ETL过程,具有易于使用,灵活性强的特点。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号