首页> 中文学位 >基于Hadoop平台的网络数据并行处理系统设计与实现
【6h】

基于Hadoop平台的网络数据并行处理系统设计与实现

代理获取

目录

声明

摘要

例图目录

列表目录

缩略语

第一章 绪论

1.1 引言

1.2 研究背景与选题意义

1.3 国内外研究现状

1.4 论文的研究内容及章节安排

第二章 网络数据并行处理系统相关技术综述

2.1 引言

2.2 聚类算法相关技术

2.2.1 相似度度量

2.2.2 k-means聚类算法

2.2.4 k-means++聚类算法

2.3 聚类算法评价指标

2.3.1 内部评价指标

2.3.2 外部评价指标

2.4 Hadoop分布式平台

2.4.1 HDFS分布式文件系统

2.4.2 MapReduce分布式计算框架

2.4.3 资源管理系统YARN

2.4.4 Spark分布式计算框架

2.5 本章小结

第三章 Spark相关性能优化研究

3.1 引言

3.2 开发过程中相关性能优化研究

3.2.1 尽量避免使用shuffle类算子

3.2.2 对多次使用的RDD进行持久化

3.3 shuffle性能优化研究

3.3.1 MapReduce shuffle

3.3.2 Spark shuffle

3.4 本章小结

第四章 基于Spark平台的k-means算法研究

4.1 引言

4.2 克洛斯卡尔算法

4.3 基于克洛斯卡尔算法改进的k-means算法

4.4 基于克洛斯卡尔算法和谷本距离改进的k-means算法

4.5 本章小结

第五章 基于Hadoop平台的网络数据并行处理系统设计与实现

5.2.1 硬件环境

5.2.2 软件环境

5.2.3 Hadoop平台的搭建

5.3 网络数据处理系统的实现

5.3.1 网络数据获取模块

5.3.2 聚类模型模块

5.3.3 聚类模型应用模块

5.4 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

附录

展开▼

摘要

随着移动互联网时代的到来,给人们的生活带来各种各样的便利,同时也意味着会产生越来越多的数据,如何从这海量的数据中挖掘价值将是一个非常有价值的课题。聚类算法就是其中一种从海量数据中挖掘价值的工具,它有着非常广泛的使用场景,包括对一些未知的物品进行分类,同时可以进行相应应用。随着数据量的剧增,聚类算法在单机环境下开始越来越吃力,越来越面临瓶颈。因此,海量数据对聚类算法以及相应的处理系统提出了新的要求。
  本文是基于Hadoop平台的网络数据并行处理系统设计与实现。本文首先对Spark相关性能进行优化研究,主要包括两部分:开发过程中相关性能优化研究,shuffle性能优化研究。开发过程中相关性能优化研究主要研究了避免使用shuffle算子以及对多次使用的RDD进行持久化这两个方面。shuffle性能优化主要研究了sort shuffle和hash shuffle各自的适用场景以及相应的优化,并通过实验来验证。聚类算法面临海量数据处理遇到的瓶颈越来越大,为了开发并行化聚类算法来应对海量数据处理难的问题,本文引入Hadoop平台并在该平台上搭建Spark平台。针对k-m eans算法存在随机选取初始中心导致迭代次数过多的问题,本文提出了一种基于Spark平台的由克洛斯卡尔算法改进的k-means算法来解决初始中心选择问题,通过迭代次数和迭代时间这两个指标来评价实际效果。为了更好展示实验结果,本文将Spark的k-means++算法作为比较对象,实验结果显示,基于Spark平台的由克洛斯卡尔算法改进的k-means算法比Spark的k-means++算法有更少的运行时间以及更少的迭代次数。针对k-means算法没有考虑向量之间相似性的问题,本文提出了一种基于Spark平台的由克洛斯卡尔算法和谷本距离改进的k-means算法,使用误差平方函数作为评价指标,与Spark的k-means++算法以及基于Spark平台的由克洛斯卡尔算法改进的k-means算法相比,具有更少的误差平方函数值,也就得到更好的聚类结果。
  本文最后搭建了一个完整的基于Hadoop平台的网络数据并行处理系统,该网络数据并行处理系统的架构设计使得系统本身具有大数据、高复杂度数据计算的能力。Hadoop计算平台的引入使得系统可以依赖廉价硬件资源,提供高计算能力与存储能力,同时也使系统具备很好的横向扩展能力,面对数据规模的上升,只需要通过简单添加机器来增强集群处理能力。此外,该网络数据并行处理系统具有普遍适用性,不仅仅适用于电影推荐,网络异常检测,也适用于任何使用聚类算法进行数据处理的场景。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号