SCoS:基于Spark的并行谱聚类算法设计与实现

朱光辉; 黄圣彬; 袁春风; 黄宜华

首页> 中文期刊> 《计算机学报》 >SCoS:基于Spark的并行谱聚类算法设计与实现

SCoS:基于Spark的并行谱聚类算法设计与实现

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

谱聚类是一种比传统聚类算法更为高效的算法,其建立在谱图理论基础上,并将聚类问题转化为图的最优划分问题.与传统k-means算法不同的是,谱聚类算法不仅能够在任意形状的样本空间上实现聚类,而且可以收敛至全局最优解.然而,谱聚类算法的计算开销较大,不仅需要计算任意两个样本之间的相似性,而且还需要计算Laplacian矩阵的特征向量.因此,在大规模数据场景下,谱聚类算法存在计算耗时过长甚至无法完成计算的问题.为了解决谱聚类算法在大规模数据场景下的计算性能问题,使得谱聚类算法能够应用在大数据集上,文中基于Apache Spark分布式并行计算框架研究并实现了大规模并行谱聚类算法SCoS,对算法流程中的每个计算步骤进行了并行化.具体的,SCoS主要实现了相似度矩阵构建与稀疏化过程的并行化、Laplacian矩阵构建与正规化过程的并行化、正规化Laplacian矩阵特征向量计算的并行化以及k-means聚类的并行化.为了降低谱聚类算法中大规模样本相似性计算的开销,SCoS采用了基于多轮迭代的并行计算方式实现大规模样本之间的相似性计算.针对大规模谱聚类算法中耗时较长的Laplacian矩阵特征向量求解问题,SCoS基于ScaLAPACK实现了特征向量的并行化求解,同时文中也实现了近似特征向量计算算法,并且对比分析了精确特征向量计算与近似特征向量计算对于谱聚类算法的性能影响.为了进一步提升大规模谱聚类算法的性能,SCoS采取了矩阵稀疏化表示与存储、Laplacian矩阵乘法优化以及k-means聚类中距离计算放缩剪枝等多种优化手段,尽可能地减少计算开销、存储空间开销以及数据传输开销.实验表明,SCoS不仅在聚类效果上要优于传统的聚类算法,而且具有较高的运行效率,特别是在大规模数据集下,仍具有较高的计算性能,并表现出了良好的数据可扩展性和系统可扩展性.

著录项

来源
《计算机学报》 |2018年第4期|868-885|共18页
作者
朱光辉; 黄圣彬; 袁春风; 黄宜华;
展开▼
作者单位

南京大学计算机软件新技术国家重点实验室南京210046;

江苏省软件新技术与产业化协同创新中心南京 210046;

中国计算机学会;

中国计算机学会;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
谱聚类; 并行化; 相似性度量; 分布式计算; Apache Spark;

相似文献

中文文献
外文文献
专利

1. Spark框架优化的大规模谱聚类并行算法 [J] . 崔艺馨 ,陈晓东 . 计算机应用 . 2020,第001期
2. 基于Hadoop云平台的并行谱聚类算法的设计与实现 [J] . 牛科 ,贾郭军 . 山西师范大学学报（自然科学版） . 2014,第001期
3. 基于Spark平台并行化Slope One算法的设计与实现 [J] . HUANG Jie ,LIU Changsheng ,LIU Chengli . 湖南工业大学学报 . 2019,第004期
4. 基于Spark的BIRCH算法并行化的设计与实现 [J] . 李帅 ,吴斌 ,杜修明 . 计算机工程与科学 . 2017,第001期
5. 基于Spark的并行DBSCAN算法的设计与实现 [J] . 黄明吉 ,张倩 . 计算机科学 . 2017,第0z2期
6. 一种基于MPI的稀疏化局部尺度并行谱聚类算法的研究与实现 [C] . Li Ruilin ,李瑞琳 ,Zhao Yonghua . 2015全国高性能计算学术年会 . 2015
7. 基于Spark的文本谱聚类算法并行化研究 [A] . 吴浩 . 2016

SCoS:基于Spark的并行谱聚类算法设计与实现

摘要

著录项

相似文献

相关主题

期刊订阅