K均值聚类算法初始聚类中心的选取与改进

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

进入二十一世纪以来，科学技术的不断发展，使得数据挖掘技术得到了学者越来越多的关注。数据挖掘是指从数据库中发现隐含在大量数据中的新颖的、潜在的有用信息和规则的过程，是一种处理数据库数据的知识发现(KnowledgeDiscovery in Database)。数据挖掘一种新兴的交叉的学科技术，涉及了模式识别、数据库、统计学、机器学习和人工智能等多个领域。分类、聚类、关联规则是数据挖掘技术三个主要的研究领域。在数据挖掘的三个主要研究领域中，聚类是其中一个重要研究领域，对它进行深入研究不仅有着重要的理论意义，而且有着重要的应用价值。聚类分析是基于物以类聚的思想，将数据划分成不同的类，同一个类中的数据对象彼此相似，而不同类中的数据对象的相似度较低，彼此相异。目前，聚类分析已经广泛地应用于模式识别、数据分析、图像处理以及市场研究等。
　　聚类算法是聚类分析的重点研究内容，目前主要有五种聚类算法:基于划分的聚类算法、基于网格的聚类算法、基于密度的聚类算法、基于层次的聚类算法、基于模型的聚类算法。传统的K均值聚类算法(K-Means)是一种典型的基于划分的聚类算法，该聚类算法的最大的优点就是操作简单，并且K均值聚类算法的可伸缩性较好，可以适用于大规模的数据集。但是K均值聚类算法一个最主要的缺陷就是:算法随机选取初始聚类中心，聚类结果往往会陷入局部最优解。论文针对此缺点提出了两种改进的聚类算法。
　　论文在对现有聚类算法进行详细的分析和总结基础上，针对K均值聚类算法随机选取初始聚类中心的不足之处，提出了基于密度的划分聚类算法与基于网格的赫夫曼树聚类算法。对初始聚类中心进行选取，然后根据初始聚类中心不断迭代聚类。两种改进的聚类算法都根据一定的原则选择初始聚类中心，都避免了K均值聚类算法随机选取聚类中心的缺点，从而避免了聚类陷入局部最小解，实验表明，基于密度的划分聚类算法与基于网格的赫夫曼树聚类算法能够提高聚类的稳定性与准确率，相比较于其他聚类算法，基于网格的赫夫曼树聚类算法应用在大数据集上能够大幅地提高聚类的执行效率。

著录项

作者
王龙强;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机应用技术
授予学位硕士
导师姓名马宗民;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据挖掘; K均值聚类算法; 初始中心值; 算法优化;

相似文献

中文文献
外文文献
专利

1. 一种改进的k-means初始聚类中心选取算法 [J] . 韩凌波 ,王强 ,蒋正锋 . 计算机工程与应用 . 2010,第017期
2. 基于初始聚类中心选取的改进FCM聚类算法 [J] . 张慧哲 ,王坚 . 计算机科学 . 2009,第006期
3. 一种新的选取K-means初始聚类中心算法 [J] . 张嘉龙 . 现代计算机（专业版） . 2021,第018期
4. 一种新的选取初始聚类中心的K-means算法 [J] . 董秋仙 ,朱赞生 . 统计与决策 . 2020,第16期
5. k_means算法初始聚类中心点选取方法研究 [J] . 杨文君 . 科学技术创新 . 2019,第033期
6. 基于改进的K均值聚类算法的网络入侵检测技术研究 [C] . LI Tian ,李天 . 第20届全国计算机新科技与计算机教育学术大会 . 2009
7. K均值算法初始聚类中心选取相关问题研究 [A] . 李宇泊 . 2012

K均值聚类算法初始聚类中心的选取与改进

目录

摘要

著录项

相似文献

相关主题

期刊订阅