首页> 中文期刊> 《南京邮电大学学报:自然科学版》 >分布式实时流数据聚类算法及其基于Storm的实现

分布式实时流数据聚类算法及其基于Storm的实现

         

摘要

为了提高流数据聚类效率,文中基于经典流聚类算法Clu Stream的思想和Storm的计算架构,设计了一种分布式实时流聚类算法(distributed real time clustering algorithm for stream data,DRClu Stream)。该算法运用滑动时间窗口机制实现多粒度的数据存储;将流数据的在线微聚类部分拆分成局部和全局两个部分做分布式计算,第一部分由多个线程并行进行微簇的局部增量更新,第二部分合并微簇的局部增量结果来更新全局微簇。还设计了DRClu Stream算法基于Storm的实现方案,通过使用消息中间件Kafka和合理部署Storm的拓扑对DRClu Stream算法进行实现。性能分析及实验结果表明:DRClu Stream算法的聚类精度与K-Means相近,且随着local节点(local bolt线程)的增加聚类精度保持稳定,而计算效率呈近线性提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号