首页> 中文期刊> 《通信技术》 >基于密度峰值优化的Canopy-Kmeans并行算法

基于密度峰值优化的Canopy-Kmeans并行算法

         

摘要

Along with the explosive growth of data scale, how to explore the potential values of big data with clustering algorithm, such as K-means, now becomes a significant research topic. In combination of Canopy with K-means, the selection problem of center points, may be solved, and for the randomness of initial center point selection in canopy-K-means algorithm and the influence of noise on algorithm, a modified M-Canopy-Kmeans algorithm, improved by density peaks, is proposed, and with spark framework, parallel processing of the algorithm is realized. The experiments show that the algorithm exhibits great improvements in accuracy and noise immunity by effectively avoiding the blindness of Cannopy and noise point in samples. In addition, it shows great speed-up ratio and extensibility in Spark parallel framework.%随着数据规模的爆炸式增长,利用K-means等聚类算法挖掘大数据的潜在价值,已成为一个当前较为重要的研究方向.将Canopy算法与K-means算法结合,可解决K个中心点的选取问题.而针对Canopy-Kmeans算法中初始中心点选取随机、算法受噪声点影响等问题,提出了一种利用密度峰值改进的M-Canopy-Kmeans算法,并采用Spark框架实现算法的并行化.实验结果表明,改进后的算法避免了Canopy中心点选取的盲目性,且有效排除了样本中的噪声点,准确性、抗噪性都有明显提高,且在Spark并行框架中具有良好的加速比和扩展性.

著录项

  • 来源
    《通信技术》 |2018年第2期|312-317|共6页
  • 作者

    李琪; 张欣; 张平康; 张航;

  • 作者单位

    贵州大学 大数据与信息工程学院,贵州 贵阳 550025;

    贵州大学 大数据与信息工程学院,贵州 贵阳 550025;

    贵州大学 大数据与信息工程学院,贵州 贵阳 550025;

    贵州大学 大数据与信息工程学院,贵州 贵阳 550025;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 算法理论;
  • 关键词

    密度峰值; Spark; Canopy-Kmeans; 聚类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号