基于Hadoop平台的网络数据并行处理系统设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着移动互联网时代的到来，给人们的生活带来各种各样的便利，同时也意味着会产生越来越多的数据，如何从这海量的数据中挖掘价值将是一个非常有价值的课题。聚类算法就是其中一种从海量数据中挖掘价值的工具，它有着非常广泛的使用场景，包括对一些未知的物品进行分类，同时可以进行相应应用。随着数据量的剧增，聚类算法在单机环境下开始越来越吃力，越来越面临瓶颈。因此，海量数据对聚类算法以及相应的处理系统提出了新的要求。
　　本文是基于Hadoop平台的网络数据并行处理系统设计与实现。本文首先对Spark相关性能进行优化研究，主要包括两部分:开发过程中相关性能优化研究，shuffle性能优化研究。开发过程中相关性能优化研究主要研究了避免使用shuffle算子以及对多次使用的RDD进行持久化这两个方面。shuffle性能优化主要研究了sort shuffle和hash shuffle各自的适用场景以及相应的优化，并通过实验来验证。聚类算法面临海量数据处理遇到的瓶颈越来越大，为了开发并行化聚类算法来应对海量数据处理难的问题，本文引入Hadoop平台并在该平台上搭建Spark平台。针对k-m eans算法存在随机选取初始中心导致迭代次数过多的问题，本文提出了一种基于Spark平台的由克洛斯卡尔算法改进的k-means算法来解决初始中心选择问题，通过迭代次数和迭代时间这两个指标来评价实际效果。为了更好展示实验结果，本文将Spark的k-means++算法作为比较对象，实验结果显示，基于Spark平台的由克洛斯卡尔算法改进的k-means算法比Spark的k-means++算法有更少的运行时间以及更少的迭代次数。针对k-means算法没有考虑向量之间相似性的问题，本文提出了一种基于Spark平台的由克洛斯卡尔算法和谷本距离改进的k-means算法，使用误差平方函数作为评价指标，与Spark的k-means++算法以及基于Spark平台的由克洛斯卡尔算法改进的k-means算法相比，具有更少的误差平方函数值，也就得到更好的聚类结果。
　　本文最后搭建了一个完整的基于Hadoop平台的网络数据并行处理系统，该网络数据并行处理系统的架构设计使得系统本身具有大数据、高复杂度数据计算的能力。Hadoop计算平台的引入使得系统可以依赖廉价硬件资源，提供高计算能力与存储能力，同时也使系统具备很好的横向扩展能力，面对数据规模的上升，只需要通过简单添加机器来增强集群处理能力。此外，该网络数据并行处理系统具有普遍适用性，不仅仅适用于电影推荐，网络异常检测，也适用于任何使用聚类算法进行数据处理的场景。

著录项

作者
纪小展;
展开▼
作者单位

东南大学;

展开▼
授予单位东南大学;
学科电子与通信工程
授予学位硕士
导师姓名徐平平,邢涛;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
网络数据; 并行处理系统; Hadoop平台; 聚类算法;

相似文献

中文文献
外文文献
专利

1. 基于分布式存储的高性能嵌入式并行处理系统的设计与实现 [J] . 安长俊 ,周家婕 ,魏斌 . 电子世界 . 2017,第018期
2. 基于软件无线电的短波多路并行处理系统的设计与实现 [J] . 李国振 ,葛临东 ,欧阳喜 . 电子技术应用 . 2009,第002期
3. 基于VME总线SHARC并行处理系统的设计与实现 [J] . 王宏伟 ,高梅国 ,韩月秋 . 北京理工大学学报 . 2000,第4期
4. 基于Hadoop平台的数码配件交易平台的设计与实现 [J] . 韩景东 . 数码设计．CG WORLD . 2021,第007期
5. 基于Hadoop平台的相关性权重算法设计与实现 [J] . 高军 ,黄献策 . 计算机工程 . 2019,第003期
6. 基于MVB网络数据流的调试流程设计与实现 [C] . 吕思宇 ,白伟光 ,孙洁 . 第二十四届测试与故障诊断技术研讨会 . 2015
7. 基于GPU的视频信息并行处理系统设计与实现 [A] . 袁赢 . 2014

基于Hadoop平台的网络数据并行处理系统设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅