基于MapReduce的并行子空间聚类算法

董家鸣; 潘懋; 张驰

首页> 中文期刊> 《科学技术与工程》 >基于MapReduce的并行子空间聚类算法

基于MapReduce的并行子空间聚类算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

文献数据库（团队版） >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

With the data volume we create growing fast,the problem of subspace clustering of very large scale moderate-to-high dimensional dataset becomes highly important.But most subspace clustering methods can't efficiently solve this problem due to serial processing on single machine.Thus,Sample-Ignore Subspace Clustering using MapReduce(SISCMR) was proposed that can effectively solve this question.SISCMR has a great adaptability as it can use most serial clustering methods as a plugged-in clustering subroutine.Through many experiments on real and synthetic data with billions of points,it's proved with good clustering quality,near-linear scalability and high efficiency.Using 128 cores,it only took 10 minutes to cluster one of our biggest experiment dataset with 0.2 TB volume,which proves the feasibility of parallel clustering using MapReduce.%随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低.讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapRe-duce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR).该算法将串行聚类算法用作插件,具有很好的通用性.在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性.

著录项

来源
《科学技术与工程》 |2017年第15期|104-110|共7页
作者
董家鸣; 潘懋; 张驰;
展开▼
作者单位

北京大学地球与空间科学学院信息地质研究实验室,北京100871;

北京大学地球与空间科学学院信息地质研究实验室,北京100871;

北京大学地球与空间科学学院信息地质研究实验室,北京100871;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计;
关键词
子空间聚类; 并行聚类; MapReduce; 高维数据;

相似文献

中文文献
外文文献
专利

1. 基于MapReduce和改进人工蜂群算法的并行划分聚类算法 [J] . 陶涛 ,毛伊敏 . 科学技术与工程 . 2021,第021期
2. 基于MapReduce和IFOA的并行密度聚类算法 [J] . 胡健 ,徐锴滨 ,毛伊敏 . 计算机应用研究 . 2021,第005期
3. 基于MapReduce的并行频繁项集挖掘算法研究 [J] . 刘卫明 ,张弛 ,毛伊敏 . 计算机应用研究 . 2021,第003期
4. 基于MapReduce模型的并行粒子群分簇算法研究 [J] . 赵彦 ,孙俊 . 现代电子技术 . 2021,第007期
5. 基于MapReduce框架的一种并行大数据算法的研究 [J] . 冯占伟 . 现代信息科技 . 2021,第018期
6. 基于MapReduce的并行AES加密算法 [C] . FU Yadan ,付雅丹 ,YANG Geng . 2015年全国开放式分布与并行计算学术年会 . 2015
7. 基于MapReduce的频繁模式挖掘算法并行化及负载均衡的研究 [A] . 晏依 . 2019

基于MapReduce的并行子空间聚类算法

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅