首页> 中文期刊>计算机应用研究 >改进的CK-means优化及并行策略

改进的CK-means优化及并行策略

     

摘要

针对大数据背景下K-means存在选取质心导致的局部最优解、聚类速度慢的问题,提出一种Flink平台下的CK-means聚类优化及并行策略.从算法优化层面,采用Canopy算法确定聚类数目k并选取初始质心;从并行化加速层面,基于Flink平台设计了一种面向CK-means的并行加速策略,并分析不同并行度对计算耗时的影响.经实验,相较于K-means算法,CK-means算法的准确率与迭代次数间的比值更高,算法性能更优,在iris数据集中性能比提升44.79%,在wine数据集中性能比提升32.03%;同时证明了不同并行度下CK-means算法的聚类耗时呈现先下降后上升的趋势,其聚类耗时的最小值与数据集的大小相关.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号