首页> 中文学位 >高并发异构数据预处理系统的设计与实现
【6h】

高并发异构数据预处理系统的设计与实现

代理获取

目录

声明

致谢

摘要

1 引言

1.1 项目背景及意义

1.2 国内外发展现状

1.3 设计目标

1.4 论文主要工作

1.5 论文结构

1.6 本章小结

2 系统关键技术

2.1 Quartz

2.2 MySQL

2.3 MongoDB

2.4 TRS Hybase

2.5 Redis

2.6 分布式文件系统

2.7 存储过程

2.8 本章小结

3 系统需求分析

3.1 专利数据整体说明

3.1.1 数据概况

3.1.2 专利数据结构体系

3.1.3 数据特点

3.2 系统功能性需求

3.2.1 数据加载与更新

3.2.2 数据质检

3.2.3 数据修复

3.2.4 数据监控

3.2.5 任务编排

3.3 系统非功能性需求

3.4 本章小结

4 系统概要设计

4.1 系统架构设计

4.1.1 高并发

4.1.2 异构数据库

4.1.3 数据库间的同步

4.2 应用部署架构设计

4.3 系统功能结构设计

4.3.1 数据加载与更新模块

4.3.3 数据修复模块

4.3.4 数据监控模块

4.3.5 任务编排工具模块

4.4 数据加载流程设计

4.5 本章小结

5 数据详细设计

5.1 索引数据设计

5.2 数据流转过程设计

5.3 数据传输对象设计

5.4 数据库设计

5.4.1 MySQL数据库设计

5.4.2 MongoDB数据库库设计

5.4.3 Hybase数据库设计

5.4.4 分布式文件系统设计

5.5 本章小结

6 系统的详细设计与实现

6.1 数据加载与更新模块

6.1.1 核心类

6.1.2 加载控制文件

6.1.3 加载索引文件

6.1.4 同步数据

6.2 数据质检模块

6.2.1 异常

6.2.2 日志

6.2.3 统计分析集合

6.3 数据修复模块

6.3.1 数据值的错误

6.3.2 数据数量的错误

6.4 监控模块

6.4.1 pc监控模块

6.4.2 微信监控模块

6.5 任务编排工具模块

6.6.1 存储过程

6.6.2 引证数据的加载

6.6.3 幂等性

6.6.4 断点恢复

6.6.5 Redis

6.7 本章小结

7 测试

7.1 测试环境

7.2 功能测试

7.2.1 测试用例

7.2.2 数据加载的测试结果

7.3 非功能测试

7.4 本章小结

8 结论与展望

8.1 总结

8.2 展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

如今是一个数据的时代,随着大数据技术的发展,越来越多的行业需要使用这些新技术重新挖掘曾经积累的数据的价值,使其发挥出更大的作用,更好的为用户和企业服务。而这些数据大都是不完整、不一致的脏数据,无法直接进行数据挖掘,或者挖掘结果差强人意,故需要对数据进行预处理。本人有幸参与了某专利检索分析平台项目的开发,负责该平台中的底层异构数据预处理系统的设计与实现工作。
  本文从系统的项目背景及意义、国内外发展现状、系统需求分析、系统技术架构、系统功能结构、数据详细设计、系统详细设计与实现以及测试等方面对本系统进行了详细阐述。本系统为该平台提供专利数据预处理与存储服务。由于专利数据具有文件数量巨大且散碎、数据格式多样、数据语言多样、数据来源不一致等特点,而且需要在短时间内将专利数据加载入库,故而本文设计了索引数据的概念,将专利数据进行了封装,并基于Quartz框架设计并实现了多任务并行方式加载专利数据入库的功能,同时采用了五种不同的数据库满足数据存储功能。这五种数据库分别为检索数据库Hybase存储需要检索的数据;NoSql数据库MongoDB存储供前台展示的半结构化数据;分布式文件系统存储海量的非结构化数据;缓存数据库Redis存储需要缓存的业务数据;关系型数据库MySQL存储数据流转过程中的控制、运维数据。并且这五种数据库均采用分布式方式进行部署,同时采用主从、双机热备、ZooKeeper等方式保证数据库的高可用性。本系统共有五个模块,分别是数据加载与更新模块、数据质检模块、数据修复模块、数据监控模块以及任务编排工具模块。其中数据加载与更新模块是重中之重,在加载数据入库时,将一个索引数据文件作为一个批次,采用批次的方式对数据进行分批加载入库;同时利用索引数据文件对专利数据文件的封装,从而可以使用多任务并行方式处理数据入库;并且将数据加载入库分为多个阶段进行,每个阶段都可以对数据进行校验、回滚。数据质检模块和数据监控模块协同工作,可以及时发现错误数据。数据修复模块负责对数据进行修复。任务编排工具模块负责自动拷贝索引数据文件。
  本系统已经交付使用并如期上线,而且已将积累的专利数据全部加载入库,提供用户使用。目前系统运行情况良好,同时为了提高该产品的竞争力,公司也在积极推广,相信会有更多的用户使用本产品。

著录项

  • 作者

    李俊;

  • 作者单位

    北京交通大学;

  • 授予单位 北京交通大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 卢苇;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    异构数据; 预处理系统; 框架设计; 存储功能;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号