首页> 中文学位 >基于初始点选择的K-均值聚类改进算法及应用研究
【6h】

基于初始点选择的K-均值聚类改进算法及应用研究

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 本文研究背景和意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 论文结构

第2章 数据挖掘及聚类相关技术研究

2.1 数据挖掘相关知识介绍

2.1.1 数据挖掘概述

2.1.2 数据挖掘功能及过程

2.1.3 数据挖掘算法

2.1.4 数据挖掘应用

2.2 聚类的概念

2.2.1 聚类的定义

2.2.2 聚类中相关数据类型

2.3 聚类算法的总类

2.3.1 划分聚类算法

2.3.2 层次聚类算法

2.3.3 基于密度的聚类

2.3.4 基于网格的聚类

2.3.5 基于模型的聚类

2.4 K-均值聚类算法

2.4.1 K-均值聚类算法的思想

2.4.2 K-均值聚类算法流程

2.4.3 K-均值聚类算法的优缺点

2.5 聚类性能评价标准

2.6 小结

第3章 基于初始点选择的DNC值K-均值算法

3.1 算法的相关定义

3.2 算法思想

3.3 算法基本步骤

3.4 算法实现及分析

3.4.1 数据集的选取

3.4.2 实验设计

3.4.3 实验结果及分析

3.5 小结

第4章 基于初始点选择的加权K-均值算法

4.1 算法基本思想

4.1.1 初始聚类中心的选择

4.1.2 权重设置

4.2 算法步骤

4.3 实验结果及分析

4.3.1 原始的K-均值聚类算法实验结果

4.3.2 改进的K-均值聚类算法结果

4.3.3 实验结果分析

4.4 改进算法在基因表达谱数据中的应用

4.4.1 基因表达谱数据

4.4.2 实验数据

4.4.3 实验设计及结果分析

4.5 小结

结论

参考文献

致谢

展开▼

摘要

数据挖掘是从海量的数据中发现有用的信息或知识,它已在许多领域得到广泛运用。聚类分析是数据挖掘领域最重要的技术手段之一,聚类分析算法有很多,其中以K-均值算法最为经典。
  K-均值算法的优点是思想简单,算法简洁,收敛性好,对大规模数据进行聚类时效率较高。但该算法也有很多不足,如对初始中心敏感,K值需要预先给定等。
  本文主要深入研究与分析K-均值算法,总结其优点与不足,针对K-均值聚类算法对初始点依赖提出两种新的改进算法并将第二种算法应用在基因表达数据中。
  本文主要研究内容及成果如下:
  (1)提出了一种基于初始点选择的DNC值K-均值聚类算法。该算法有效剔除了孤立点并改善了K-均值聚类算法初始中心随机选择而导致的聚类结果不稳定。本文通过大量对比实验,证明该改进算法的有效性。
  (2)提出一种基于初始点选择的改进加权欧氏距离K-均值聚类算法。该算法对初始聚类中心的选择进行了改进,使得选出的中心点能在一定程度上代表不同簇,克服了K-均值算法中随机选择的初始点可能过于邻近的不好情况。另外根据不同特征对聚类贡献大小不同,采用加权欧氏距离将数据对象分配到相应的聚类中心,提高聚类效率。通过UCI数据集进行试验及对比,分析并证明改进算法的有效性。最后本文将该算法应用在两种基因表达数据中,取得一定效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号