首页> 中文会议>第19届全国信息存储技术学术会议 >基于Hadoop MapReduce的分布式数据流聚类算法研究

基于Hadoop MapReduce的分布式数据流聚类算法研究

摘要

随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时的发现任意形状的簇,也不能及时删除数据流中的噪声点.本文提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析以实时的发现数据流中任意形状的簇,定义检测周期和密度阈值函数以及时删除数据流中的噪声点.算法基于网格密度对数据流初始聚类后,随着新的数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,并使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇.实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号