Spark框架优化的大规模谱聚类并行算法

崔艺馨; 陈晓东

首页> 中文期刊> 《计算机应用》 >Spark框架优化的大规模谱聚类并行算法

Spark框架优化的大规模谱聚类并行算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

cqvip:为解决谱聚类在大规模数据集上存在的计算耗时和无法聚类等性能瓶颈制约,提出了基于Spark技术的大规模数据集谱聚类的并行化算法。首先,通过单向循环迭代优化相似矩阵的构建,避免重复计算;然后,通过位置变换和标量乘法替换来优化Laplacian矩阵的构建与正规化,降低存储需求;最后,采用近似特征向量计算来进一步减少计算量。不同测试数据集上的实验结果表明:随着测试数据集的规模增加,所提算法的单向循环迭代和近似特征值计算的运行时间呈线性增长,增长缓慢,其近似特征向量计算与精确特征向量计算取得相近的聚类效果,并且算法在大规模数据集上表现出良好的可扩展性。在获得较好的谱聚类性能的基础上,改进算法提高了运行效率,有效缓解了谱聚类的计算耗时及无法聚类问题。

著录项

来源
《计算机应用》 |2020年第1期|168-172|共5页
作者
崔艺馨; 陈晓东;
展开▼
作者单位

太原工业学院网络与信息中心太原030008;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
大规模谱聚类; 相似矩阵稀疏化; 单向循环迭代; 近似特征向量; 分布式Spark并行计算;

相似文献

中文文献
外文文献
专利

1. 一种适用于大规模数据的约束谱聚类框架 [J] . 叶茂 ,刘文芬 . 信息工程大学学报 . 2018,第004期
2. 基于Spark的PFP-Growth并行算法优化实现 [J] . 方向 ,张功萱 . 现代电子技术 . 2016,第008期
3. 基于Spark的Apriori并行算法优化实现 [J] . 王青 ,谭良 ,杨显华 . 郑州大学学报（理学版） . 2016,第004期
4. 基于Spark的大规模软件完整性校验行为识别框架 [J] . 邱景 ,李宜卓 . 软件导刊 . 2019,第004期
5. 基于Spark的大规模软件完整性校验行为识别框架 [J] . 邱景1 ,李宜卓1 . 软件导刊 . 2019,第004期
6. 大规模定制模式下客户需求优化的概念框架研究 [C] . 吴清烈 ,罗小利 ,杨惠 . 第五届中国管理学年会(MAM2010) . 2010
7. 大规模数据集下一种增量谱聚类算法与框架的研究 [A] . 孔滕滕 . 2012

Spark框架优化的大规模谱聚类并行算法

摘要

著录项

相似文献

相关主题

期刊订阅