首页> 中文学位 >聚类分析算法研究及其在数据密集型计算环境下的实现
【6h】

聚类分析算法研究及其在数据密集型计算环境下的实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪 论

1.1 研究背景

1.2 课题主要研究内容

1.3 论文组织结构

1.4 本章小结

第2章 聚类及其相关领域理论研究

2.1数据挖掘

2.2聚类分析算法

2.3数据密集型计算(DIC)

2.4 Hadoop项目

2.5本章小结

第3章 改进的基于熵的中心聚类算法

3.1 基于熵的模糊聚类算法

3.2 中心点聚类算法

3.3改进的基于熵的中心聚类算法的提出

3.4 本章小结

第4章 改进的聚类算法在数据密集型计算(DIC)

4.1 DIC环境下进行数据挖掘需满足的要求

4.2 改进的算法在DIC环境下的实现

4.3 IECC算法在Hadoop上的实现

4.4 本章小结

第5章 实验与结果分析

5.1 IECC算法实验验证

5.2 IECC算法在MapReduce上的实验

5.3 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读硕士期间公开发表论文及科研情况

致谢

展开▼

摘要

当前,在聚类分析中仍然存在准确性和完备性方面的不足,也没有哪种算法能够同时适用于应用的各个方面且都是有效的。在高性能计算方面,主要面临着由于大数据集(数据密集型计算环境下的数据)而带来的挑战。这些大数据集一般具有海量、高速变化、分布、异构、半结构化或非结构化的特点。对于这样的数据,传统的数据挖掘算法已经不能满足其处理要求,逐渐成为数据处理技术中的瓶颈问题。
  本文通过对基于熵的模糊聚类算法(EFC)和中心点聚类算法的研究,提出了一种改进的基于熵的中心聚类算法(Improved Entropy-based Central Clustering Algorithm,IECC算法)。该算法首先通过EFC算法得到差异性十分明显的原始数据集的簇心,再以得到的簇心为中心再次进行聚类分析,通过各点到各中心的距离将各点重新分配到以各中心所代表的集合中。改进的算法不仅可以得到紧凑且差异明显的聚类结果,还可以使聚类结果的准确率得到有效提高。为了适应数据密集型计算环境下的数据处理要求,本文又提出一种将改进的基于熵的中心聚类算法(IECC算法)在 Hadoop分布式平台上实现的可行性方案。具体的实现主要分为三个阶段即 Map、Combine和Reduce阶段,在分节点上主要是Map的过程,该过程只需要得到差异性十分明显的原始数据集的簇心以及相应的离群点,将其看作是该节点上的代表点;再经过Combine阶段,把分节点上得到的簇心和离群点相关信息传到主节点上,通过Combine合并相同簇心;最后,在主节点上执行IECC算法,即对Combine过程处理过的数据执行IECC算法,得出最终聚类结果。由于数据密集型计算的发展和其数据的独特特点,将新提出的算法在数据密集型计算环境下实现,有利于其解决数据密集型计算环境下数据分析和挖掘的问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号