K均值算法中初始聚类中心的确定问题研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

聚类方法是最重要的数据挖掘方法之一，K-means更是因其简洁有效的特点成为用途最广的聚类算法之一。然而，该算法的表现高度依赖于初始聚类中心的选取。而如果初始聚类中心选取不当，则很容易陷入局部最优解而造成聚类效果不佳。基于此，国内外许多学者提出了诸多改进方法，但其中大多数方法都不能动态适应不同特点的数据集。事实上，现实中的数据集具有各自不同的特点。因此，提出一种具有自适应性的初始聚类中心选取方法具有很重要的意义。本文根据目前的研究现状，主要进行了以下工作： (1)以往较多的初始聚类中心选取方法中都对数据点密度给出了定义，但其定义方法使得数据点密度具有较小的区分度。针对此问题，本文提出了一种基于邻域模型的密度定义方法，该方法可以有效地增加数据点密度的区分度。 (2)初始聚类中心的选取对于K-means算法最终的聚类效果起着决定性作用。为此，大量文献都提出了针对此问题的解决方法，但这些方法往往只在部分数据集上取得良好的效果，而不具有动态适应性。真实世界中的数据集特点各异，提出一种能够动态适应不同特点数据集的初始聚类中心选取方法具有很重要的意义。为此，本文提出了一种新的距离度量——混合距离，并基于混合距离模型提出了一种带有参数λ的初始聚类中心选取方法。实验结果表明，该方法较以往的初始聚类中心选取方法更能有效地提高K-means聚类精度。 (3)在参数λ的调整下，聚类结果具有若干种，但在正确类标未知的情况下去确定哪种为最佳聚类结果值得进一步探讨。为此，本文提出了一种新的基于邻点模型的内部聚类评价指标CVN。我们运用聚类指标CVN去确定最佳的聚类结果，其有效性优于应用较为广泛的其他几种内部聚类评价指标。

著录项

作者
杨杰;
展开▼
作者单位

上海师范大学;

展开▼
授予单位上海师范大学;
学科软件工程
授予学位硕士
导师姓名马燕;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动化技术及设备;
关键词
均值算法; 初始聚类中心;

相似文献

中文文献
外文文献
专利

1. 一种可选初始聚类中心的改进k均值算法 [J] . 孟子健 ,马江洪 . 统计与决策 . 2014,第12期
2. 采用万有引力定律自动确定类数的K均值算法 [J] . 杜辉 ,王宇平 ,董晓盼 . 西安交通大学学报 . 2014,第010期
3. 优化初始聚类中心及确定K值的K-means算法 [J] . 蒋丽 ,薛善良 . 计算机与数字工程 . 2018,第001期
4. 基于网格和图论的初始聚类中心确定算法 [J] . 黄红伟 ,黄天民 . 计算机应用与软件 . 2015,第002期
5. 一种新的确定K-均值算法初始聚类中心的方法 [J] . 王汉芝 ,刘振全 . 天津科技大学学报 . 2005,第004期
6. ISODATA和模糊K均值算法在图像分割中的应用 [C] . 严新革 ,张淳民 . 中国光学学会2004年学术大会 . 2004
7. K均值算法初始聚类中心选取相关问题研究 [A] . 李宇泊 . 2012

K均值算法中初始聚类中心的确定问题研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅