首页> 中文期刊> 《智能计算机与应用》 >基于Spark框架的改进并行K-means算法研究

基于Spark框架的改进并行K-means算法研究

             

摘要

传统的K-means算法由于随机选择初始聚类中心,使得聚类结果不精确.随着网络数据量的激增,传统的串行算法运算时间明显太长,有研究者利用Hadoop并行框架进行K-means并行化研究,虽然提高了算法的运行时间,但K-means算法在聚类判定时需要反复迭代,反复进行磁盘的读写操作,很大一部分时间花费在磁盘操作上,并行算法的效率大打折扣.为此,本文提出基于Spark框架的改进并行K-means算法,通过对RDD的操作有效解决了频繁的磁盘读写.在标准数据集下,进行对比实验,通过聚类效果和算法并行的加速比,验证了改进算法的有效性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号