基于Spark的大数据分析系统设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

由于近几年信息技术的发展，各个行业领域的数据量与日俱增。而且随着移动互联网和物联网的发展，获得数据的渠道也越来越多，包括软件记录、相机、麦克风、无线射频识别等。在许多行业，由于数据量过于庞大，使用传统数据分析方法时出现了效率低下、扩展性弱、维护成本高的问题。在监狱业务中面临着同样的问题，为了应对现在的状况，司法行政执法管理平台一期建设项目组借助大数据技术设计实现了一种基于Spark的大数据分析系统，满足监狱系统的数据分析需求，研究内容与结论如下：　　首先，参与基于Spark的大数据分析系统的框架设计。系统分为基础层、计算与存储层、服务层、应用层。搭建基础层服务器并安装服务器操作系统，系统均采用CentOS6.4。安装并配置计算与存储层的软件，包括大数据集群环境中用到的Hadoop、Spark、Hive、Sqoop等软件，这些软件均采用CDH5.14.2版本，避免了各软件的不兼容情况。参与应用层接口代码的编写，借助开源的Spark-jobserver框架将编写的业务代码封装成包，方便后期维护和扩展。　　其次，进行数据转移。由于以往的数据都是存放在传统的关系型数据库中，我们需要将这些数据转移到大数据平台的分布式系统。因此我们编写Sqoop脚本，使用Sqoop工具将数据从关系型数据库MySQL和SQLServer转移到分布式系统HDFS中。　　最后，进行系统功能测试和性能测试。功能测试方面，编写WordCount测试用例，测试服务层JobManager能否将Jobjar发送到集群并进行计算，通过SparkWEB页面观察测试运行情况，通过HDFSWEB页面观察运行结果。测试结果证明系统能够顺利完成任务。性能测试方面，加入MapReduce作为对照，把国家司法部大数据平台JBXX_ziranxinxi表中的43527586条数据作为查询对象，分别使用Spark和MapReduce进行查询操作，验证本系统的性能。结果显示Spark比MapReduce快5到8倍。通过功能测试以及性能测试验证了本系统的可行性。

著录项

作者
杨东东;
展开▼
作者单位

山东科技大学;

展开▼
授予单位山东科技大学;
学科电子与通信工程
授予学位硕士
导师姓名张鲁殷,贾伟光;
年度 2019
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
大数据分析系统,关系型数据库,应用层接口代码,Spark技术;

相似文献

中文文献
外文文献
专利

1. 基于Spark的分布式健康大数据分析系统设计与实现 [J] . 吴磊 ,欧阳赫明 . 软件导刊 . 2020,第007期
2. 基于Hadoop和Spark的可扩展性化工类大数据分析系统设计 [J] . 尹旭熙 . 粘接 . 2021,第006期
3. 基于Spark的分布式大数据分析建模系统的设计与实现 [J] . 徐时芳 ,罗晓宾 ,陈阳华 . 现代电子技术 . 2018,第020期
4. 基于Spark和微服务架构的电影推荐系统设计与实现 [J] . 史爱武 ,李险贵 . 电脑知识与技术 . 2021,第005期
5. 基于Spark大数据处理的电影推荐系统设计与实现 [J] . 朱炳旭 ,叶传奇 ,王君洋 . 无线互联科技 . 2021,第011期
6. 基于Spark技术的网络大数据分析平台搭建与应用 [C] . 詹义 ,方媛 ,陈彦名 . 中国移动通信集团设计院第20届新技术论坛 . 2014
7. 基于Spark的大数据分析与挖掘平台的设计与实现 [A] . 郝嘉伟 . 2018

基于Spark的大数据分析系统设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅