基于云计算平台Hadoop的HKM聚类算法设计研究

张淑芬; 董岩岩; 陈学斌

首页> 中文期刊> 《应用科学学报》 >基于云计算平台Hadoop的HKM聚类算法设计研究

基于云计算平台Hadoop的HKM聚类算法设计研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为有效解决传统K-means聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means聚类算法.该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K个初始中心,使初始聚簇中心点最优化,最后用Hadoop云计算平台的MapReduce编程模型实现算法的并行化.实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题.%In order to solve the problem of traditional K-means clustering algorithm in dealing with large-scale data set,a Hadoop K-means (HKM) clustering algorithm is proposed.Firstly,based on the of sample density,the algorithm excludes the effect of data set point or noise.Secondly the optimization of the initial cluster centers is carried out by selecting K initial centers guided by the thought of maximizing the minimum distance.In the end,the MapReduce programming model of Hadoop cloud computing platform is used to realize the parallelization of the algorithm.Experimental results show that the proposed algorithm not only has high accuracy and stability in clustering results,but also can solve the problems of scalability encountered by traditional clustering algorithms in dealing with large scale data.

著录项

来源
《应用科学学报》 |2018年第3期|524-534|共11页
作者
张淑芬; 董岩岩; 陈学斌;
展开▼
作者单位

华北理工大学理学院;

河北唐山063009;

华北理工大学理学院;

河北唐山063009;

华北理工大学理学院;

河北唐山063009;

河北省数据科学与应用重点实验室;

河北唐山063009;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
K-means算法; 样本密度; 最大化最小距离; Hadoop平台; 并行化计算;

相似文献

中文文献
外文文献
专利

1. 基于云计算平台Hadoop的并行k-means聚类算法设计研究 [J] . 赵卫中 ,马慧芳 ,傅燕翔 . 计算机科学 . 2011,第010期
2. 基于云计算平台Hadoop的并行k-means聚类算法设计研究 [J] . 赵卫中 ,马慧芳 ,傅燕翔 . 计算机科学与探索 . 2011,第010期
3. 一种基于Hadoop云计算平台大数据聚类算法设计 [J] . 司福明 ,卜天然 . 通化师范学院学报 . 2016,第004期
4. 一种基于 Hadoop云计算平台大数据聚类算法设计 [J] . 司福明 ,卜天然 . 楚雄师范学院学报 . 2016,第003期
5. 一种基于Hadoop云计算平台的聚类算法优化的研究 [J] . 张石磊 ,武装 . 计算机科学 . 2012,第0z1期
6. 一种基于Hadoop云计算平台的聚类算法优化的研究 [C] . ZHANG Shi-lei ,张石磊 ,WU Zhuang . 中国计算机用户协会网络应用分会2012年第十六届网络新技术与应用年会 . 2012
7. 基于Hadoop云计算平台的K-Means聚类算法研究 [A] . 刘洋 . 2017

基于云计算平台Hadoop的HKM聚类算法设计研究

摘要

著录项

相似文献

相关主题

期刊订阅