首页> 中文学位 >基于区段查询的增量数据抽取器的设计与实现
【6h】

基于区段查询的增量数据抽取器的设计与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 论文的研究背景

1.1.1 研究背景

1.1.2 选题意义

1.2 国内外研究现状及发展趋势

1.3 研究内容

1.4 论文的章节组织

第2章 相关技术研究

2.1 数据仓库

2.1.1 数据仓库的特点

2.1.2 数据仓库与数据库

2.2 增量数据抽取方法

2.2.1 触发器方式

2.2.2 时间戳方式

2.2.3 全表对比方式

2.2.4 日志表达方式

2.2.5 同步CDC方式

2.2.6 分析对比

2.3 Java技术

2.3.1 Java语言

2.3.2 多线程

2.3.3 Swing

2.3.4 JDOM

2.4 MVC框架

2.5 本章小结

第3章 基于区段查询的增量抽取的设计

3.1 整体设计思路

3.2 源表设计

3.2.1 时间戳设计

3.2.2 关联标识设计

3.3 数据抽取

3.3.1 数据更新

3.3.2 数据抽取

3.4 数据处理

3.5 本章小结

第4章 基于区段查询的增量数据抽取器的实现

4.1 实验目标

4.2 实验环境

4.3 实验设计

4.3.1 主要功能模块

4.3.2 主要算法实现

4.4 仿真系统与分析

4.5 本章小结

第5章 基于区段查询的增量数据抽取器的验证

5.1 分析对比

5.2 问题解决

5.2.1 窗口切换

5.2.2 数据库连接

5.2.3 线程的使用

5.2.4 平台移植注意事项

5.2.5 LinkedList与HashMap的使用

5.3 本章小结

结论

参考文献

致谢

个人简历

展开▼

摘要

高速发展的信息时代,给我们带来了机遇也带来了挑战。信息量的爆炸式增长,给我们在数据的集成、数据仓库的更新、维护等方面带来了问题。因此从位于不同的数据源捕获数据的变化,把更新同步到其他地方(如数据仓库),是当前需解决的一大难题。ETL(Extraction Transformation Loading)是创建数据仓库的重要环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行处理,最后加载到数据仓库中。
  本文主要研究在不同数据库上实现统一的增量数据抽取,特别是目前存在的多种增量数据抽取方法。通过对几种常见的增量抽取机制,例如触发器方式、时间戳方式、表对比方式、日志方式以及CDC(Change Data Capture)方式进行对比,总结出各种机制的特性并分析它们的优劣,并且在深入分析时间戳方式执行过程的基础上,设计出一种解决方案:根据使用频率较高的传统型数据库,通过利用某些字段作为时间戳属性,对指定的数据表进行连续的区段查询,克服时间戳方式中需要破坏源表结构的缺陷,把数据源上的增量数据抽取出来。
  最后本文使用Java Swing、多线程、数据库等技术实现我们的增量数据抽取工具,同时通过本软件和SQL Server集成工具进行性能(准确率、查询时间等指标)比较,用来验证我们方案的可行性和高效性。

著录项

  • 作者

    温璐;

  • 作者单位

    河北科技大学;

  • 授予单位 河北科技大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 高鸿斌,程亚平;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.52;
  • 关键词

    数据增量抽取器; 软件设计; 区段查询; ETL理论;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号