Hadoop平台下基于密度的K-Medoids聚类算法的研究与实现

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着互联网技术的高速发展，人们所面临的数据几乎呈爆炸性的增长，而传统的数据挖掘算法在处理大数据时已不能满足人们对时间性能的要求，那么如何能快速的从大量数据中提取有效的信息呢？针对这一问题，本文基于一种经典的聚类算法——K-Medoids，结合目前较为流行的Hadoop平台，提出了一种基于密度的K-Medoids并行算法。
　　本文的主要工作主要有以下两点：
　　1.针对传统的K-Medoids聚类算法存在的不足之处——聚类结果会随随机选择的k个初始聚类中心的不同波动较大，本文提出了一种基于密度的K-Medoids算法。算法首先对初始数据进行一次基于密度的聚类，然后选择k个密度较大的类簇的中心作为K-Medoids聚类的初始聚类中心。实验证明，本文算法要比传统的K-Medoids算法的聚类精度要高。
　　2.为了解决算法在处理海量数据时产生的延时问题，结合了目前较为流行的Hadoop平台，将提出的算法MapReduce化。该过程的关键工作主要有两点：其一是将算法分解为多个Job并确定每个Job的Map阶段和Reduce阶段的任务；其二是根据需要设计key值和value值。通过实验证明，Hadoop集群节点越多且数据量越大，Hadoop集群的处理时间差也就越大。
　　最后对全文的研究工作进行了总结和概述，阐述了研究内容的不足之处，进而确定下一步待研究的工作。

著录项

作者
周浩;
展开▼
作者单位

南昌大学;

展开▼
授予单位南昌大学;
学科计算机应用技术
授予学位硕士
导师姓名白小明;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
Hadoop平台; K-Medoids聚类算法; 数据挖掘; 延时处理; 集群节点;

相似文献

中文文献
外文文献
专利

1. Hadoop平台下基于快速搜索与密度峰值查找的聚类算法 [J] . 郭友雄 ,黄添强 ,林玲鹏 . 福建师大福清分校学报 . 2018,第002期
2. 密度峰值优化初始中心的K-medoids聚类算法 [J] . 谢娟英 ,屈亚楠 . 计算机科学与探索 . 2016,第002期
3. 基于密度的聚类算法DBSCAN的研究与实现 [J] . 曾泽林 ,段明秀 . 科技信息 . 2012,第030期
4. 基于网格和密度的CLIQUE聚类算法的研究与实现 [J] . 邓庚盛 ,刘承启 ,熊艳 . 计算机与现代化 . 2008,第012期
5. 基于密度复杂簇聚类算法研究与实现 [J] . 宋宇辰 ,宋飞燕 ,孟海东 . 计算机工程与应用 . 2007,第035期
6. 一种MapReduce架构下基于遗传算法的K-Medoids聚类 [C] . Han Laiming ,韩来明 ,Gong Xiujun . 2015全国高性能计算学术年会 . 2015
7. 基于Hadoop平台的K-Medoids聚类算法的研究与优化 [A] . 张程飞 . 2015

Hadoop平台下基于密度的K-Medoids聚类算法的研究与实现

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅