首页> 中文学位 >基于全信息熵的高维分类型数据子空间算法
【6h】

基于全信息熵的高维分类型数据子空间算法

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章绪论

1.1背景和意义

1.2研究现状

1.3本文工作

1.4论文结构

第二章高维分类型子空间聚类分析

2.1聚类分析

2.2高维分类型数据聚类分析

2.3子空间据聚类分析

2.4聚类算法的选择分析

2.5小结

第三章信息熵和全信息熵

3.1信息熵理论

3.2全信息熵理论

3.3小结

第四章分类型层次投影聚类算法

4.1初始化

4.2子空间搜索

4.3属性权重分配

4 .4类内紧凑度计算

4 .5小结

第五章仿真实验与结果

5.1实验数据

5.2性能评价指标

5.3聚类准确率分析

5.4特征相关性分析

5.5小结

第六章总结与展望

6.1总结

6.2展望

参考文献

致谢

攻读学位期间所发表的学术论文

展开▼

摘要

高维数据聚类是数据挖掘领域的重点、难点,特别是高维分类型数据的聚类。数据的稀疏性以及“维度灾难”等因素,使得传统的相似度度量方法在分类型数据之间的相似度都趋于无穷而无法计算,以至于无法对数据进行聚类。大多数分类型数据聚类算法通常是在全空间上来进行传统的相似度的度量,在实际应用中,这对高维分类型数据来说几乎是不可能完成的任务,而利用软子空间聚类方法来对高维数据聚类是最高效的、最实用的方式。高维分类型聚类分析是聚类分析的一个重要的研究分支,已在多个领域得到了很好的应用,诸如文本挖掘,mb挖掘和基因表达等
  为了解决高维分类型数据的聚类问题,本文结合软子空间聚类的方式,根据高维分类型数据的特征以及特性。本文采用软子空间聚类方法,深入研究分析了信息熵及全信息熵在聚类分析中的应用,提出了一种基于全信息熵的高维分类型数据聚类算法HPCCD。该算法主要分为四个步骤:首先,根据传统的相似度将数据集划分若干子簇,即初始化步骤;接着,搜索特征子空间。由于不同子簇有着不同的特征子空间,所以子空间搜索也是高维数据挖掘领域中的一个挑战性难题。在这一步骤中,我们基于全信息熵理论提出了一种新型的特征子空间的搜索方法:先利用信息熵对属性的重要性进行评估,再利用全信息熵的特性来搜索对于子簇有意义的特征属性,从而达到特征子空间搜索的目的;然后,计算紧凑度及子簇的全并。再次利用全信息熵能够反应子簇的内部特性的性质,并结合权重的分配方法计算两合并子簇的紧凑度。搜索紧凑度最小的子簇的进行子簇合并,从而达到层次聚类的效果。最后,在Zoo, soybean等9个数据集上对提出HPCCD算法仿真实验进行分析,证实了该算法在预测准确率和性能上都有显著提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号