首页> 中文学位 >高维分类型数据子空间聚类算法研究
【6h】

高维分类型数据子空间聚类算法研究

代理获取

目录

声明

摘要

Abstract

第一章绪论

1.1研究背景及选题意义

1.2研究现状

1.3主要工作

1.4论文结构

第二章高维分类型数据聚类综述

2.1聚类

2.1.1聚类的概念

2.1.2聚类的相似性度量

2.1.3主要聚类方法的分类

2.1.4常用的几种聚类算法概述

2.1.5聚类分析的应用

2.2高维数据聚类

2.2.1高维数据的特点

2.2.2高维数据对传统聚类算法的影响

2.2.3高维数据聚类算法

2.3分类型数据分析

2.3.1分类型数据概述

2.3.2分类型数据的特点

2.3.3分类型数据算法现状

第三章信息熵与粗糙集

3.1信息熵

3.1.1信息熵概述

3.1.2信息熵与聚类标准的关系

3.2粗糙集

3.2.1知识表达系统

3.2.2上近似集、下近似集

第四章ERSC算法设计

4.1基于信息熵的特征选取

4.1.1信息熵的计算

4.1.2改进的信息熵的计算

4.2增长子空间方法聚类

4.2.1相关概念定义

4.2.2子空间聚类调整过程

4.3算法描述

4.4算法伪代码

4.4实验仿真和结果分析

第五章总结与展望

5.1总结

5.2展望

参考文献

致谢

攻读硕士学位期间作者参与的科研项目及成果

展开▼

摘要

随着大规模数据存储技术、信息技术和网络技术的发展,人们正陷入数据泛滥、知识贫乏的境地。为满足日益增长的信息需求,聚类分析作为一种主要的数据挖掘技术已经应用到各种领域之中。现有的算法大多是处理低维的数据,其中不乏各种优秀的聚类算法,并且已经得到很好的应用。然而现有的技术虽然已经成功的解决了较低维数据的聚类问题,但是对高维数据,特别是高维分类型数据,由于其分布特性与低维情况相比有很大的差异,以及分类型数据的特殊性,使得现有聚类算法无法满足处理高维分类型数据的要求。
  为解决高维分类型数据聚类问题,本文提出了一种基于信息熵和粗糙集的高维分类型数据子空间聚类算法(ERSC:An algorithm based on entropy and rough set for high dimensional categorical clustering),采用基于信息熵的特征选取实现了高维空间的有效降维,从而显著的提高了聚类效率,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想。最后通过了人工数据和真实数据soybean、zoo和mushroom数据集上的实验,得到了很好的实验结果。结果表明了本文算法不仅可行,而且精度高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号