首页> 中文学位 >大数据平台数据采集系统的设计与实现
【6h】

大数据平台数据采集系统的设计与实现

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 课题背景与意义

1.2 国内外现状分析

1.2.1 国外发展现状

1.2.2 国内发展现状

1.3 研究目标与内容

1.3.1 研究目标

1.3.2 研究内容

1.4 论文章节安排

1.5 本章小结

2 系统需求分析

2.1 系统需求分析概述

2.2 业务需求分析

2.3 功能需求分析

2.3.1 采集多种数据类型功能需求

2.3.2 一键部署处理组件功能需求

2.3.3 便捷配置采集组件功能需求

2.3.4 可视化采集工作流功能需求

2.3.5 监控采集流程功能需求

2.4 非功能性需求分析

2.5 本章小结

3 系统总体设计

3.1 系统总体设计概述

3.2 系统模块设计

3.3 系统网络拓扑结构设计

3.4 系统架构设计

3.5 技术选型

3.6 数据库设计

3.6.1 实体关系

3.6.2 数据库表设计

3.7 关键技术方案

3.8 本章小结

4 系统详细设计与实现

4.1 扩展flume模块详细设计与实现

4.1.1 自定义关系型数据库采集

4.1.2 自定义本地文件、hdfs、ftp、sftp采集

4.1.3 自定义hbase数据采集

4.1.4 自定义kafka采集

4.2 处理组件部署模块详细设计与实现

4.2.1 配置flume集群的信息

4.2.2 部署flume集群

4.2.3 实现成果展示

4.3 配置采集组件模块详细设计与实现

4.3.1 源组件配置

4.3.2 处理组件配置

4.3.3 终端组件配置

4.3.4 具体实现设计

4.3.5 实现成果展示

4.4 采集工作流模块详细设计与实现

4.4.1 flume工作流的设计

4.4.2 storm工作流的设计

4.4.3 实现成果展示

4.5 采集监控模块详细设计与实现

4.5.1 监控方案选择

4.5.2 具体实现设计

4.5.3 实现成果展示

4.6 本章小结

5 系统评估与验证

5.1 系统测试环境

5.1.1 硬件测试环境

5.1.2 软件测试环境

5.2 系统功能测试

5.2.1 处理组件部署测试

5.2.2 配置采集组件测试

5.2.3 采集工作流测试

5.2.4 采集监控测试

5.3 系统可用性测试

5.4 测试结论

5.5 本章小结

6 总结与展望

6.1 总结

6.2 展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

在我国政策的大力扶持下,大数据技术在政企项目中得到了广泛的应用,但随着大数据所涉及的领域越来越广泛,所处理的业务越来越深入,所要采集与处理的数据类型也变得越来越复杂和多样。近年来,政企客户的数据类型已经由传统的关系型数据向非关系型数据转变,且有高速度、大容量、多样性、高价值的特点,这就给大数据采集提出了新的挑战,但现阶段数据采集并不能满足新的采集需求,数据采集还面临诸如采集数据的数据类型较为单一,采集过程较为复杂,不能提供友好的用户体验,不能将数据采集过程进行良好的封装,对采集流程的监控也较为缺乏,不能给用户提供较为详细的采集状态信息等问题。针对以上问题本论文将要设计和开发一款数据采集系统,本采集系统将作为电信天翼飞龙大数据平台的一个子系统,其有针对性的解决了目前业内对于数据采集的相关问题,本采集系统可对结构化数据,半结构化数据以及非结构化数据进行采集,用户还可以对采集的处理组件进行一键部署,并可以便捷的对各采集组件进行配置,本系统还为用户实现了可视化搭建采集流程的功能,并提供了便捷的监控管理,为大数据采集提供了新的解决方案。
  目前该项目已完成了对国内外大数据采集发展现状的研究,以及对主流大数据采集产品的优缺点分析,并完成了对本采集系统的功能性需求与非功能性需求分析,明确了本采集系统需要实现的功能点和非功能要求;其次完成了对本采集系统的总体设计和详细设计,明确了系统架构并对系统进行了详细的模块划分,完成了对flume的自定义开发,以及用户交互模块的设计开发,使得用户可以在不接触Linux底层操作的前提下便捷的完成处理组件的部署以及各采集组件的配置任务,完成了可视化的采集工作流模块的设计与开发,并为用户提供了完善的监控功能。本人的具体工作内容如下:完成了对国内外大数据采集的调研工作,明确了本采集系统的需求;并对此系统进行了总体设计和详细设计;完成了自定义flume模块、部署处理组件模块、配置采集组件模块、可视化采集工作流模块以及监控模块的代码开发任务;最后还对本采集系统进行了详细的测试,并对测试中可能出现的问题进行了分析,给出了相应的解决方案。
  该数据采集系统目前已完成了全部的设计和开发工作,并通过了详细的测试环节,本采集系统作为电信天翼飞龙大数据平台的一个子系统已成功部署于多个政企客户的生产环境中,承担着TB/PB级的数据采集任务,实践证明该采集系统能够满足政企客户对于数据采集的各项要求。

著录项

  • 作者

    逯衍;

  • 作者单位

    北京交通大学;

  • 授予单位 北京交通大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 包尔固德;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    大数据; 采集系统; 功能模块; 可视化设计;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号