基于Spark的大数据并行聚类算法研究与改进

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机与互联网技术的不断发展，数据的爆炸式增长推动了大数据时代的来临。利用数据挖掘技术来发现数据中的有用价值受到了越来越多的关注，而聚类分析则是数据挖掘技术中的一个重要分支。传统的聚类算法大多在单机上串行运行，由于受到内存大小、存储空间、计算能力等问题所限，已经无法满足处理海量数据的需求，而分布式计算技术的发展为解决这一问题提供了方向。本文结合 Spark 分布式计算框架，对聚类分析中的 Canopy-Kmeans 算法及CFSFDP算法进行了研究与改进，主要工作包括以下几个方面：（1）针对 Canopy-Kmeans 算法的初值选取仍具有一定的随机性，并且聚类结果较为受参数影响的问题。分别利用密度峰值和最大最小化准则的思想对算法进行了改进，在解决以上问题的同时，降低了噪声点对算法的干扰，最后用Spark框架实现了改进算法的并行化。（2）CFSFDP算法需要利用决策图人为选取初始中心点，这一步骤在可能产生人为主观误差同时，还使得算法无法实现自动的并行化计算。针对这一问题，本文利用斜率变化率的思想，找出聚类中心点与非聚类中心点间的分界点，从而使得算法可以通过计算自动确定聚类中心点，最后将算法使用Spark框架进行并行化实现。利用Spark on Yarn的集群进行验证后表明，基于密度峰值的改进Canopy-Kmeans算法与自动选取中心点的CFSFDP算法在集群中均具有良好的聚类效果与并行化性能。

著录项

作者
李琪;
展开▼
作者单位

贵州大学;

展开▼
授予单位贵州大学;
学科信息与通信工程
授予学位硕士
导师姓名张欣;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类汽车工程;
关键词
Spark; 大数据; 并行聚类; 算法研究;

相似文献

中文文献
外文文献
专利

1. 基于Spark的分布式大数据并行化聚类方法研究 [J] . 陶婧 . 湖北第二师范学院学报 . 2019,第008期
2. 基于Spark Streaming的并行K-means改进算法研究 [J] . 宋国兴 ,张清伟 ,郑明钊 . 现代计算机（专业版） . 2021,第018期
3. 基于Spark框架的改进并行K-means算法研究 [J] . 邓青 ,杨宁 . 智能计算机与应用 . 2018,第001期
4. 基于Spark框架的改进并行K-means算法研究 [J] . 邓青1 ,杨宁2 . 智能计算机与应用 . 2018,第001期
5. 基于Hadoop MapReduce和粗粒度并行遗传算法的大数据聚类方法改进 [J] . 郭晨晨 ,朱红康 . 黑龙江大学工程学报 . 2016,第003期
6. 基于Spark的大规模并行协同过滤算法研究 [C] . 佟强 ,张煦渤 ,张蓓赟 . 2017“互联网+、大数据与商业创新国际会议” . 2017
7. 基于Spark平台的大数据聚类算法研究及其应用 [A] . 刘磊 . 2018

基于Spark的大数据并行聚类算法研究与改进

目录

摘要

著录项

相似文献

相关主题

期刊订阅