首页> 中文学位 >基于Spark的大数据分析系统设计与实现
【6h】

基于Spark的大数据分析系统设计与实现

代理获取

目录

1 绪论

1.1 课题的背景与意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 论文结构介绍

2 相关技术分析

2.1 Hadoop介绍

2.1.1 HDFS

2.1.2 MapReduce

2.1.3 YARN

2.2 Spark介绍

2.2.1 SparkSQL

2.2.2 Spark Streaming

2.2.3 MLLib

2.2.4 Spark GraphX

2.3 本章小结

3 系统功能需求分析与框架设计

3.1 系统功能需求分析

3.2 系统设计原则

3.3.1 硬件环境搭建和软件选择

3.3.2 Hadoop集群搭建

3.3.3 Spark环境部署

3.4 历史数据导入

3.5 系统框架结构设计

3.6 系统工作流程

3.7 本章小结

4 功能测试及性能分析

4.1 功能测试

4.2 性能测试

4.3 功能及效果展示

4.4 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

作者简历

致谢

学位论文数据集

展开▼

摘要

由于近几年信息技术的发展,各个行业领域的数据量与日俱增。而且随着移动互联网和物联网的发展,获得数据的渠道也越来越多,包括软件记录、相机、麦克风、无线射频识别等。在许多行业,由于数据量过于庞大,使用传统数据分析方法时出现了效率低下、扩展性弱、维护成本高的问题。在监狱业务中面临着同样的问题,为了应对现在的状况,司法行政执法管理平台一期建设项目组借助大数据技术设计实现了一种基于Spark的大数据分析系统,满足监狱系统的数据分析需求,研究内容与结论如下:  首先,参与基于Spark的大数据分析系统的框架设计。系统分为基础层、计算与存储层、服务层、应用层。搭建基础层服务器并安装服务器操作系统,系统均采用CentOS6.4。安装并配置计算与存储层的软件,包括大数据集群环境中用到的Hadoop、Spark、Hive、Sqoop等软件,这些软件均采用CDH5.14.2版本,避免了各软件的不兼容情况。参与应用层接口代码的编写,借助开源的Spark-jobserver框架将编写的业务代码封装成包,方便后期维护和扩展。  其次,进行数据转移。由于以往的数据都是存放在传统的关系型数据库中,我们需要将这些数据转移到大数据平台的分布式系统。因此我们编写Sqoop脚本,使用Sqoop工具将数据从关系型数据库MySQL和SQLServer转移到分布式系统HDFS中。  最后,进行系统功能测试和性能测试。功能测试方面,编写WordCount测试用例,测试服务层JobManager能否将Jobjar发送到集群并进行计算,通过SparkWEB页面观察测试运行情况,通过HDFSWEB页面观察运行结果。测试结果证明系统能够顺利完成任务。性能测试方面,加入MapReduce作为对照,把国家司法部大数据平台JBXX_ziranxinxi表中的43527586条数据作为查询对象,分别使用Spark和MapReduce进行查询操作,验证本系统的性能。结果显示Spark比MapReduce快5到8倍。通过功能测试以及性能测试验证了本系统的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号