基于Spark的大规模文本k-means并行聚类算法

刘鹏; 滕家雨; 丁恩杰; 孟磊

首页> 中文期刊>中文信息学报 >基于Spark的大规模文本k-means并行聚类算法

基于Spark的大规模文本k-means并行聚类算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意.该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了k-means频繁迭代运算的需求.实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的k-means文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求.%Due to sharp increase of internet texts ,the processing of k-means on such data is incredibly lengthened . Some classic parallel architectures ,such as Hadoop ,have not improved the execution efficiency of K-means ,because the frequent iteration in such algorithms is hard to be efficiently handled .This paper proposed a parallelization algo-rithm of k-means based on Spark .It makes full use of in-memory-computing RDD model of Spark so as to well meet the frequent iteration requirement of k-means .Experimental results show that k-means executes much more effi-ciently in Spark than in Hadoop on the same datasets and the same computing environments .

著录项

来源
《中文信息学报》|2017年第4期|145-153|共9页
作者
刘鹏; 滕家雨; 丁恩杰; 孟磊;
展开▼
作者单位

中国矿业大学物联网(感知矿山)研究中心,江苏徐州 221008;

矿山互联网应用技术国家地方联合工程实验室,江苏徐州 221008;

中国矿业大学物联网(感知矿山)研究中心,江苏徐州 221008;

中国矿业大学信息与电气工程学院,江苏徐州 221116;

中国矿业大学物联网(感知矿山)研究中心,江苏徐州 221008;

矿山互联网应用技术国家地方联合工程实验室,江苏徐州 221008;

中国矿业大学物联网(感知矿山)研究中心,江苏徐州 221008;

矿山互联网应用技术国家地方联合工程实验室,江苏徐州 221008;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
k-means; 并行化; 文本聚类; Spark; RDD; Hadoop; MapReduce;

相似文献

中文文献
外文文献
专利

1. 面向大规模中文文本分类的朴素贝叶斯并行Spark算法 [J] . 刘鹏12 ,赵慧含3 ,滕家雨4 . 中南大学学报 . 2019,第001期
2. 基于Spark的主动重叠K-means聚类算法 [J] . 柴变芳 ,李有熠 . 微电子学与计算机 . 2021,第1期
3. 基于Spark的改进K-means快速聚类算法 [J] . 徐健锐 ,詹永照 . 江苏大学学报（自然科学版） . 2018,第003期
4. 基于Spark Streaming的并行K-means改进算法研究 [J] . 宋国兴 ,张清伟 ,郑明钊 . 现代计算机（专业版） . 2021,第018期
5. 基于Hadoop的k-means聚类算法并行实现 [C] . 顾嘉伟 ,尚俊娜 . 浙江省信号处理学会2015学术年会 . 2015
6. 基于Spark的文本谱聚类算法并行化研究 [A] . 吴浩 . 2016

基于Spark的大规模文本k-means并行聚类算法

摘要

著录项

相似文献

相关主题

期刊订阅