首页> 中文学位 >Hadoop平台下基于密度的K-Medoids聚类算法的研究与实现
【6h】

Hadoop平台下基于密度的K-Medoids聚类算法的研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景及意义

1.2 K-Medoids聚类研究现状

1.3 Hadoop发展现状

1.4 论文主要研究内容

1.5 论文组织结构

1.6 本章小结

第2章 云计算平台介绍

2.1 云计算概述

2.2 Hadoop平台

2.3 Hadoop分布式文件系统

2.4 MapReduce编程模型

2.5 Hadoop数据类型

2.6 本章小结

第3章 基于密度的K-Medoids算法

3.1 相关概念介绍

3.2 传统的K-Medoids算法

3.3 基于密度的K-Medoids算法的改进

3.4 本章小结

第4章 基于密度的K-Medoids算法MapReduce化

4.1算法的并行化分析

4.2 算法的MapReduce化策略

4.3 算法的MapReduce化过程

4.4本章小结

第5章 算法对比实验及结果分析

5.1 实验环境的搭建

5.2 改进算法的对比测试与结果分析

5.3 本章小结

第6章 结论与展望

致谢

参考文献

攻读学位期间的研究成果

展开▼

摘要

随着互联网技术的高速发展,人们所面临的数据几乎呈爆炸性的增长,而传统的数据挖掘算法在处理大数据时已不能满足人们对时间性能的要求,那么如何能快速的从大量数据中提取有效的信息呢?针对这一问题,本文基于一种经典的聚类算法——K-Medoids,结合目前较为流行的Hadoop平台,提出了一种基于密度的K-Medoids并行算法。
  本文的主要工作主要有以下两点:
  1.针对传统的K-Medoids聚类算法存在的不足之处——聚类结果会随随机选择的k个初始聚类中心的不同波动较大,本文提出了一种基于密度的K-Medoids算法。算法首先对初始数据进行一次基于密度的聚类,然后选择k个密度较大的类簇的中心作为K-Medoids聚类的初始聚类中心。实验证明,本文算法要比传统的K-Medoids算法的聚类精度要高。
  2.为了解决算法在处理海量数据时产生的延时问题,结合了目前较为流行的Hadoop平台,将提出的算法MapReduce化。该过程的关键工作主要有两点:其一是将算法分解为多个Job并确定每个Job的Map阶段和Reduce阶段的任务;其二是根据需要设计key值和value值。通过实验证明,Hadoop集群节点越多且数据量越大,Hadoop集群的处理时间差也就越大。
  最后对全文的研究工作进行了总结和概述,阐述了研究内容的不足之处,进而确定下一步待研究的工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号