首页> 中文学位 >数据抽取技术在税务管理系统中的应用
【6h】

数据抽取技术在税务管理系统中的应用

代理获取

目录

文摘

英文文摘

第1章 绪论

1.1 研究背景与意义

1.2 地税系统现状

1.2.1 综合税务管理平台现状

1.2.2 物理摆渡装置应用背景

1.3 数据抽取的产生与发展

1.3.1 数据仓库的概念

1.3.2 数据仓库的体系结构

1.3.3 数据抽取的发展过程

1.3.4 数据抽取的概念

1.3.5 ETL重要性及地位

1.4 论文的主要研究内容

1.4.1 研究内容

1.4.2 论文的组织结构

第2章 数据抽取方法及技术研究

2.1 数据抽取的关键技术

2.1.1 数据抽取的基本环节

2.1.2 变更数据捕获的概念

2.1.3 增量捕获的方法

2.2 数据抽取工具的比较

2.2.1 按功能类型分类

2.2.2 数据抽取产品分类

2.2.3 数据抽取工具的选择

2.3 面向对象的数据抽取方法

2.3.1 面向服务的体系架构

2.3.2 借鉴Open Adaptor开源项目设计思想

2.3.3 面向对象的数据抽取思想

2.3.4 使用ORM完成数据持久化

2.4 统一的数据对象表示方法

2.4.1 定义外部传输接口

2.4.2 定义内部数据对象表示方法

2.5 文件传输处理方法

2.5.1 文件拆分命名规则

2.5.2 定义头文件

2.5.3 二进制文件的编解码

2.5.4 文本文件和二进制文件的判别方法

2.5.5 奇偶校验算法

第3章 系统设计方案

3.1 项目需求分析

3.1.1 系统定位

3.1.2 环境用例图

3.1.3 系统设计约束

3.1.4 物理摆渡装置介绍

3.1.5 基于物理摆渡装置的系统配置要求

3.2 系统总体设计

3.2.1 设计目标

3.2.2 设计原则

3.2.3 设计难点及解决方案

3.2.4 系统结构图

3.2.5 系统总体设计

3.3 子功能模块设计

3.3.1 主动获取推送数据源模块

3.3.2 应用服务接口模块

3.3.3 数据传输转换模块

3.3.4 安全与监控机制

3.3.5 内部数据对象存储

第4章 抽取系统方案实现

4.1 异构数据源

4.1.1 JDBC数据源

4.1.2 FTP文件

4.1.3 访问Java程序

4.1.4 读写Script脚本

4.2 数据传输转换处理

4.2.1 同步WebService服务

4.3 Socket通信实现

4.3.1 网间进程通信

4.3.2 Java Socket通信实现

4.4 多线程处理的实现

4.4.1 使用多线程技术处理并发问题

4.4.2 使用线程池处理并发问题

4.4.3 并发问题及需遵循的原则

4.5 模块性能及稳定

4.5.1 异常处理

4.5.2 模块性能与稳定性

4.5.3 模块的容错处理

4.5.4 ETL模块的测试方案

第5章 总结与展望

5.1 全文总结

5.1.1 本文的应用背景

5.1.2 本文的研究内容

5.2 展望

致谢

参考文献

附录

作者简介

展开▼

摘要

为了提供科学的决策分析依据,税务系统内部构建了以数据仓库系统为核心的决策分析系统。然而随着税务系统信息安全要求的不断提高,税务系统的联网结构发生了重大调整;而此前由于需求的变化,系统也随时可能引入新的分析点;同时随着信息技术的发展,需要平台能够支持邮件、短信、WebServiee等服务,因此原有的数据抽取模块一度处于不断更改、错综复杂地实施各种抽取的状态之中。在税务网络物理摆渡装置隔断需求的契机下,迫切需要用新的抽取模块来解决目前的问题。
   本文研究了税务系统在物理摆渡装置隔离下的数据抽取模块,并尽量做到模块化、可扩展,同时为第三方应用开放了数据传输的接口,提供了更加全面的抽取支持。本文对数据抽取的研究体现在以下几个方面:
   1)系统在总体设计上,将不同的功能交给不同的容器去处理,再由spring框架来根据配置文件加载容器,使得容器与主程序之间,容器与其包含的各个子功能之间都有良好的松耦合性。
   2)系统集成了多种异构数据源访问接口,并且其针对接口的编程设计便于日后扩展更为广泛的数据源。
   3)系统暴露出多种不同类型的传输接口,不仅满足了原有系统的抽取需要,更提供了第三方应用程序数据传输的途径。
   4)详细研究了数据传输处理模块的各种文件缓存处理技术,包括文件的拆分与合并,文件的编码与解码,文件的校验,文件的同步处理等。

著录项

  • 作者

    陈思;

  • 作者单位

    东南大学;

  • 授予单位 东南大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 王茜,宋之毅;
  • 年度 2010
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据抽取; 摆渡系统; 文件传输; 异构数据源;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号