首页> 中文学位 >基于Spark的大数据并行聚类算法研究与改进
【6h】

基于Spark的大数据并行聚类算法研究与改进

代理获取

目录

第一个书签之前

展开▼

摘要

随着计算机与互联网技术的不断发展,数据的爆炸式增长推动了大数据时代的来临。利用数据挖掘技术来发现数据中的有用价值受到了越来越多的关注,而聚类分析则是数据挖掘技术中的一个重要分支。传统的聚类算法大多在单机上串行运行,由于受到内存大小、存储空间、计算能力等问题所限,已经无法满足处理海量数据的需求,而分布式计算技术的发展为解决这一问题提供了方向。 本文结合 Spark 分布式计算框架,对聚类分析中的 Canopy-Kmeans 算法及CFSFDP算法进行了研究与改进,主要工作包括以下几个方面: (1)针对 Canopy-Kmeans 算法的初值选取仍具有一定的随机性,并且聚类结果较为受参数影响的问题。分别利用密度峰值和最大最小化准则的思想对算法进行了改进,在解决以上问题的同时,降低了噪声点对算法的干扰,最后用Spark框架实现了改进算法的并行化。 (2)CFSFDP算法需要利用决策图人为选取初始中心点,这一步骤在可能产生人为主观误差同时,还使得算法无法实现自动的并行化计算。针对这一问题,本文利用斜率变化率的思想,找出聚类中心点与非聚类中心点间的分界点,从而使得算法可以通过计算自动确定聚类中心点,最后将算法使用Spark框架进行并行化实现。 利用Spark on Yarn的集群进行验证后表明,基于密度峰值的改进Canopy-Kmeans算法与自动选取中心点的CFSFDP算法在集群中均具有良好的聚类效果与并行化性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号