首页> 中文学位 >高维数据投影聚类算法的研究
【6h】

高维数据投影聚类算法的研究

代理获取

目录

文摘

英文文摘

第1章绪论

1.1数据挖掘概述

1.2聚类分析概述

1.3本文章节安排

第2章高维数据聚类分析的研究

2.1高维数据的特点及其影响

2.2高维数据的聚类方法

2.3维规约

2.4 Bicluster方法

2.5基于网格的子空间聚类算法

2.6投影子空间聚类算法

第3章类均值的鲁棒性计算方法

3.1均值和方差的计算

3.2噪声的影响

3.3鲁棒性的均值计算

第4章基于假设检验的投影子空间聚类算法

4.1基于假设检验的投影子空间聚类算法

4.2正态分布假设检验的可行性

4.3基于正态分布假设检验的投影子空间聚类算法

4.4算法实验结果

4.5实验总结

第5章结束语

5.1本文总结

5.2未来工作

参考文献

原创性声明

展开▼

摘要

聚类分析作为数据挖掘的一种方法,占有重要的地位。所谓聚类是一个将数据集划分为若干类(cluster)的过程,是否相似的度量是基于数据对象描述的取值来确定的。目前,传统的聚类算法只是在低维数据上取得了较好的效果,随着海量数据特别是高维数据的出现,这些聚类算法变得异常困难。因此,如何对高维数据进行有效聚类已成为数据挖掘研究中的热点。  本文针对高维数据聚类展开研究,首先从理论上说明了随着维数的增加数据无法在全维空间中密集,揭示了高维数据中的稀疏性和维灾的存在以及它们所带来的影响,并且把基于距离的高维数据聚类方法分为维规约、基于网格的子空间聚类算法、Bicluster方法和投影子空间聚类算法,同时对它们的算法思想作了描述。  本文主要对现有的投影子空间聚类算法做了研究,在投影子空间聚类算法的基础上做了三方面的改进:(1)对于每类在其相关空间中每维上对数据聚合程度进行评价,采用密度直方图的方法判别类中的每维是否为候选相关维。(2)对候选相关维提出了一种对异常噪声具有较好鲁棒性的均值(聚合中心)计算方法,可以有效的反映类中大部分数据的聚合特性,并且经过实验验证这种均值计算方法可以有效的消除噪声的影响。(3)把数理统计中假设检验的思想引入了候选相关维方差(聚合程度)的计算,并且给出了正态分布的假设条件下候选相关维方差的计算公式。  实验数据表明,本论文提出的方法可以有效地消除噪声的影响,取得了较好的聚类效果。关键字:聚类分析高维数据假设检验投影聚类子空间聚类

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号