文摘
英文文摘
第1章 绪论
1.1 研究背景与意义
1.2 地税系统现状
1.2.1 综合税务管理平台现状
1.2.2 物理摆渡装置应用背景
1.3 数据抽取的产生与发展
1.3.1 数据仓库的概念
1.3.2 数据仓库的体系结构
1.3.3 数据抽取的发展过程
1.3.4 数据抽取的概念
1.3.5 ETL重要性及地位
1.4 论文的主要研究内容
1.4.1 研究内容
1.4.2 论文的组织结构
第2章 数据抽取方法及技术研究
2.1 数据抽取的关键技术
2.1.1 数据抽取的基本环节
2.1.2 变更数据捕获的概念
2.1.3 增量捕获的方法
2.2 数据抽取工具的比较
2.2.1 按功能类型分类
2.2.2 数据抽取产品分类
2.2.3 数据抽取工具的选择
2.3 面向对象的数据抽取方法
2.3.1 面向服务的体系架构
2.3.2 借鉴Open Adaptor开源项目设计思想
2.3.3 面向对象的数据抽取思想
2.3.4 使用ORM完成数据持久化
2.4 统一的数据对象表示方法
2.4.1 定义外部传输接口
2.4.2 定义内部数据对象表示方法
2.5 文件传输处理方法
2.5.1 文件拆分命名规则
2.5.2 定义头文件
2.5.3 二进制文件的编解码
2.5.4 文本文件和二进制文件的判别方法
2.5.5 奇偶校验算法
第3章 系统设计方案
3.1 项目需求分析
3.1.1 系统定位
3.1.2 环境用例图
3.1.3 系统设计约束
3.1.4 物理摆渡装置介绍
3.1.5 基于物理摆渡装置的系统配置要求
3.2 系统总体设计
3.2.1 设计目标
3.2.2 设计原则
3.2.3 设计难点及解决方案
3.2.4 系统结构图
3.2.5 系统总体设计
3.3 子功能模块设计
3.3.1 主动获取推送数据源模块
3.3.2 应用服务接口模块
3.3.3 数据传输转换模块
3.3.4 安全与监控机制
3.3.5 内部数据对象存储
第4章 抽取系统方案实现
4.1 异构数据源
4.1.1 JDBC数据源
4.1.2 FTP文件
4.1.3 访问Java程序
4.1.4 读写Script脚本
4.2 数据传输转换处理
4.2.1 同步WebService服务
4.3 Socket通信实现
4.3.1 网间进程通信
4.3.2 Java Socket通信实现
4.4 多线程处理的实现
4.4.1 使用多线程技术处理并发问题
4.4.2 使用线程池处理并发问题
4.4.3 并发问题及需遵循的原则
4.5 模块性能及稳定
4.5.1 异常处理
4.5.2 模块性能与稳定性
4.5.3 模块的容错处理
4.5.4 ETL模块的测试方案
第5章 总结与展望
5.1 全文总结
5.1.1 本文的应用背景
5.1.2 本文的研究内容
5.2 展望
致谢
参考文献
附录
作者简介