首页> 中文学位 >基于Web的数据清洗及转换通用框架的研究及应用
【6h】

基于Web的数据清洗及转换通用框架的研究及应用

代理获取

目录

文摘

英文文摘

声明

第一章引言

1.1课题来源

1.2问题的提出

1.3本文所完成的工作

1.4本文结构

第二章数据仓库与ETL

2.1数据仓库

2.2数据仓库定义

2.2.1数据仓库的特征

2.2.2数据仓库的体系结构

2.3数据质量

2.3.1数据质量的定义

2.3.2数据质量的重要性

2.3.3数据质量的评价指标

2.4数据ETL

2.4.1数据抽取

2.4.2数据清洗

2.4.3数据转换

2.4.4数据集成

2.4.5数据加载

2.4.6评价标准

2.5元数据

2.5.1元数据分类

2.5.2元数据内容

2.5.3 ETL的元数据管理

2.6技术简介

2.6.1 Struts框架

2.6.2 XML技术

2.6.3 Java Applet

2.7本章小节

第三章系统设计与架构

3.1整体架构

3.2系统结构

3.2.1模型层

3.2.2视图层

3.2.3控制器层

3.3系统特点

3.3.1通用性和扩展性

3.3.2普及性和可维护性

3.4本章小结

第四章框架中关键问题的研究

4.1数据初始化

4.1.1问题描述

4.1.2设计与实现

4.2海量数据的处理

4.2.1海量数据的处理策略

4.2.2速率优化

4.2.3长事务用户进度提示模型

4.3元数据及扩展接口

4.3.1校验元数据

4.3.2清洗及转换元数据

4.4本章小结

第五章海洋环境数据清洗转换系统的实现

5.1海洋环境数据仓库和数据挖掘系统的系统结构

5.2 ETL系统的整体结构

5.3数据清洗及转换模块的实现

5.3.1清洗转换的设计

5.3.2开发实例

5.3.3系统的实现

5.4本章小结

第六章结束语

参考文献

致谢

攻硕期间参加的科研项目和发表的论文

展开▼

摘要

近年来,随着信息技术的不断发展和数据库技术的成熟应用,企业业务数据飞速增长,除去数据本身的信息,数据之间还蕴藏着大量的对企业管理决策有益的潜在因素。如何有效地将这种隐藏的信息查找出来并应用于决策分析,成为人们研究的一个重点,在此背景下,数据仓库技术应运而生。 在数据仓库构建过程中,良好的数据质量是整个系统进行正确决策分析的基础,而有效的数据清洗及转换是数据仓库中高质量数据的保证。但是由于数据清洗具有很强的领域性,大部分传统的ETL工具中数据清洗和转换模块耦合比较严重,通用性差,系统在引入新功能时扩展性和维护性不好,使得系统很难在大范围内可持续使用。 “基于Web的数据转换及清洗通用框架的研究及应用”正是基于此而提出的一个课题。该框架采用基于B/S模式的组件技术,在保证良好对外接口的前提下,将绝大部分的业务逻辑处理部署在服务器上,提供通用的网络服务,实现了数据清洗及转换的通用操作。 该框架支持多种源数据类型,支持海量数据的批量处理,并根据数据自身特点提供速率优化,长事务进度指示及各种日志记录等功能,不但可以直接作用于小规模系统,并且可以作为通用的底层框架针对特定领域进行二次开发,通过扩展自定义接口完成某一具体领域专有的数据清洗及转换功能。整个处理流程可以在任何需要进行数据清洗及转换的数据源端进行,而不是局限于某个指定的ETL服务器上,这样在减轻了ETL服务器负担的同时,有效地利用了闲置资源。当业务需求发生变动时,只需要更新服务器既可,客户端不需任何改变,从而提供良好的可扩展性和普及性。目前,该框架最终实现已经应用于由东北大学软件所和国家海洋信息中心合作开发的海洋数据仓库系统的ETL模块。本文将重点讨论该通用框架的研究、设计和实现。 在本文的最后给出了该框架在海洋环境数据仓库ETL系统中具体的应用。实践表明该框架在出色地完成数据清洗及转换功能的同时,缩短了项目周期,并提供了良好的扩展性和可维护性。

著录项

  • 作者

    闫庆宏;

  • 作者单位

    东北大学;

  • 授予单位 东北大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 鲍玉斌;
  • 年度 2007
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据仓库; 数据清洗; 数据转换; 通用框架;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号