大规模数据集聚类算法的研究进展

何玉林; 黄哲学

首页> 中文期刊>深圳大学学报（理工版） >大规模数据集聚类算法的研究进展

大规模数据集聚类算法的研究进展

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

聚类是机器学习领域的一个重要研究方向, 在过去几十年间, 针对不同类型中小规模数据集聚类算法的研究取得了很大的进展, 许多行之有效的算法先后问世.然而, 这些算法在处理大规模数据集时, 计算复杂度较高, 处理高维数据的能力较弱, 难以获得令人满意的效果.随着大数据时代的到来, 数据的采集和存储变得相对容易和便捷, 但数据量也与日俱增, 因此, 针对各种实际应用的聚类问题应运而生, 使得专门针对大规模数据集的聚类算法研究成为当前机器学习领域的重要任务之一.本文以大规模数据集的可计算性为切入点, 对目前串行和并行计算环境下专门用于处理大规模数据集的聚类算法进行综述和分析, 重点评述了串行计算环境下基于样例选择、增量学习、特征子集和特征转换的聚类算法以及并行计算环境下基于MapReduce、Spark和Storm框架的聚类算法, 给出了有关未来大规模数据集聚类算法设计思路与应用前景的思考和讨论, 包括基于数据并行和训练过程自动化的聚类算法设计策略及关于社交网络大数据聚类算法的若干理解.%Clustering is an important research branch of machine learning.In the past decades, many well-known clustering algorithms have been designed to handle the clustering problems of small-scale and medium-scale data sets.Although these algorithms have obtained the good clustering performances, they are usually inefficient when dealing with the clustering tasks of large-scale data sets due to the high computation complexity and weak capability of handling the high-dimensional data.In the age of big data, the collection and storage of data become easier and more convenient.The clustering technologies are desperately needed to satisfy the requirements of real applications which generate a great deal of large-scale data sets.Thus, the clustering for large-scale data sets becomes an important research direction in the field of machine learning.In this paper, the current clustering algorithms are reviewed

著录项

来源
《深圳大学学报（理工版）》|2019年第1期|4-17|共14页
作者
何玉林; 黄哲学;
展开▼
作者单位

深圳大学计算机与软件学院, 广东深圳 518060;

深圳大学大数据系统计算技术国家工程实验室, 广东深圳 518060;

深圳大学计算机与软件学院, 广东深圳 518060;

深圳大学大数据系统计算技术国家工程实验室, 广东深圳 518060;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;自动推理、机器学习;
关键词
人工智能; 大规模数据; 聚类; 串行计算; 并行计算; 数据挖掘; 综述;

相似文献

中文文献
外文文献
专利

1. 大规模数据集聚类算法的研究进展分析 [J] . 邢春燕 . 花炮科技与市场 . 2020,第002期
2. 适合大规模数据集的增量式模糊聚类算法 [J] . 李滔 ,王士同 . 智能系统学报 . 2016,第002期
3. 大规模数据集下谱聚类算法的求解 [J] . 史卫亚 ,郭跃飞 . 计算机科学 . 2012,第B06期
4. 一种基于半监督的大规模数据集聚类算法 [J] . 申彦 ,宋顺林 ,朱玉全 . 南京大学学报：自然科学版 . 2011,第4期
5. 大规模数据集的多层聚类算法 [J] . 金慧珍 ,赵辽英 . 杭州电子科技大学学报 . 2008,第003期
6. 基于图像的大规模数据集交互可视化 [C] . Wang Hongkun ,王弘堃 ,Cao Yi . 2015全国高性能计算学术年会 . 2015
7. 面向大规模数据集的自适应聚类算法并行化研究 [A] . 肖雪平 . 2016

大规模数据集聚类算法的研究进展

摘要

著录项

相似文献

相关主题

期刊订阅