首页> 中文学位 >一种基于SCA的ETL架构的设计与实现
【6h】

一种基于SCA的ETL架构的设计与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 本文组织结构

第2章 相关技术研究概述

2.1 ETL相关技术概述

2.1.1 ETL的背景和意义

2.1.2 ETL的主要任务

2.2 SCA相关技术概述

2.2.1 SCA和SOA的关系

2.2.2 SCA核心技术

2.3 本章小结

第3章 基于SCA的ETL架构模型

3.1 模型的数据流程

3.2 模型整体架构

3.2.1 元数据组件(MetaData Component)

3.2.2 通用数据源组件(DataStore Component)

3.2.3 数据质量组件(Data Quality Component)

3.2.4 维度建模组件(Dimensional Modeling Component)

3.3 模型的重点和难点

3.3.1 多源异构

3.3.2 维度建模

3.3.3 组件装配及服务发布

3.4 本章小结

第4章 基于SCA的ETL架构模型应用和实现

4.1 应用背景及需求

4.1.1 IVR报表需求

4.1.2 CSR报表需求

4.1.3 CTI报表需求

4.2 需求分析及系统架构设计

4.3 基于SSIS的应用实现

4.3.1 数据抽取和加载方式

4.3.2 业务数据到缓存数据库

4.3.3 缓存数据库到数据仓库

4.3.4 数据仓库到数据集市

4.4 基于SCA的ETL架构实现

4.4.1 元数据读写组件实现

4.4.2 通用数据源组件实现

4.4.3 数据质量组件实现

4.4.4 维度建模组件实现

4.4.5 组件装配及相互访问

4.5 对比分析

4.6 本章小结

第5章 总结与展望

5.1 总结

5.2 展望

参考文献

攻读硕士学位期间的研究成果

致谢

展开▼

摘要

信息系统是现代化企业必不可少的业务系统,里面存储着企业的宝贵财富。激烈的市场竞争使得企业不得不由传统的联机事务处理业务系统和办公自动化系统转向联机分析处理和数据挖掘的商务智能系统,而数据仓库则是商务智能系统的数据基础。数据仓库建设中有60%~80%的开发周期和三分之一的项目成本是花费在ETL上的,使得ETL成为数据仓库项目的瓶颈。
  针对ETL开发周期瓶颈的问题,本文提出一种基于SCA的ETL架构。把ETL中要解决的主要问题进行更细粒度的划分,采用更细粒度的组件来实现,根据不同问题的特点选择适合的实现方式,然后采用SOA的架构设计思想和其SCA最佳实现方式,把这些细粒度组件实现通过SCA容器统一整合起来。在本架构中把ETL的实现分为四种粗粒度组件,即元数据组件、通用数据源组件、数据质量组件和维度建模组件。其中元数据组件和通用数据源组件属于基础组件,供数据质量组件和维度建模组件调用,各粗粒度组件又包括多个实现具体功能的细粒度组件。
  本文通过一个实际项目的应用开发,说明基于单一的ETL工具来实现ETL流程时所存在的问题,如数据源的变更,系统的升级,客户提出了更高的需求等,然后论证了基于SCA的ETL架构能够很好的解决这些问题,同时具有极大的灵活性,证明了基于SCA的ETL架构能够降低ETL的开发周期,具有实际的应用价值,最后分析了基于SCA的ETL架构的优缺点及其适用的场景。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号