首页> 中文学位 >基于Spark的大数据应用开发支持环境研究开发
【6h】

基于Spark的大数据应用开发支持环境研究开发

代理获取

目录

声明

1 绪论

1.1 课题背景和意义

1.2 Spark大数据并行计算框架研究与应用情况

1.3 论文研究内容及工作

1.4 论文组织结构

2 相关技术概述

2.1 大数据定义

2.2 HDFS技术

2.3 CGI技术

2.4 Gnuplot技术

2.5 本章小结

3 并行计算框架SPARK

3.1 Spark简述

3.2 Spark生态系统

3.3 Spark运行原理

3.4 基于Spark的大数据应用开发支持环境架构

3.5 本章小结

4 基于Spark的大数据应用开发支持环境集群配置与部署

4.1 基于Spark的大数据支持环境集群的部署模式

4.2 Spark物理集群的配置

4.3 Spark集群的Standalone部署模式

4.4 Spark集群Spark on Yarn部署模式

4.5 Spark集群在亚马逊AWS EC2云平台的部署

4.6 本章小结

5 基于Spark的大数据应用开发支持环境门户网站设计与实现

5.1 门户网站需求概述

5.2 门户网站系统分析

5.3 门户网站总体设计

5.4门户网站典型界面展示

6总结与展望

6.1工作总结

6.2 工作展望

致谢

参考文献

展开▼

摘要

随着大数据技术的快速发展,大数据在各领域的应用日益增多,规模不断扩大。大数据应用支持系统开发的需求日益强烈。
  为了满足这个需求,我们进行了基于Spark的大数据应用开发支持环境的研究开发,其宗旨是以Spark生态环境为基础,提供相关大数据应用软件开发工具,支持用户便捷、高效的使用Spark大数据环境计算资源进行各种大数据应用运行,并方便地管理用户计算程序和各种文档。
  在研究开发工作中,我们研究了Spark并行计算引擎的运行原理、Spark生态系统的核心技术,提出了基于Spark的大数据应用开发支持环境体系结构、软件架构和网络架构。基于IBM服务器、UbuntuLinux操作系统、Spark1.5.2软件,进行了物理集群搭建、Spark及其开发工具部署,搭建了基于Spark的大数据平台。在此基础上,依托Linux/Eclipse/Tomcat/Mysq1平台,综合运用Java、Javascript、HTML、Ajax、CSS语言,开发了一套基于Spark的大数据应用开发支持环境。该环境包括门户网站、Spark集群的封装和调用、基于Spark的并行程序开发、部署、运行监视、结果存储、分析和图形化展示、用户反馈等模块;集成了Spark生态系统,包括常用的大数据处理软件。
  为了实现用户应用程序部署至Spark集群,我们提出了一种基于负载权值的动态权值随机算法,根据Spark集群各节点的CPU、内存等资源和实际负载量等因素,确定用户程序的部署方式,使得用户程序任务在Spark集群服务器的分配平衡、高效,集群的各种资源得以充分利用。
  目前,基于Spark的大数据应用开发支持环境已经完成测试,并在陕西省网络计算与安全技术重点实验室实际运行。
  本文详细介绍了上述研究开发工作,包括理论研究、系统分析、设计、编码、测试、部署过程。最后给出了基于Spark的大数据应用开发支持环境的典型运行界面。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号