首页> 中文学位 >基于信息熵的聚类个数确定方法研究
【6h】

基于信息熵的聚类个数确定方法研究

代理获取

目录

摘要

第一章 绪论

1.1 论文研究背景及意义

1.2 聚类分析基本步骤

1.3 聚类分析中的数据类型

1.4 聚类算法的主要类别

1.4.1 层次聚类

1.4.2 划分聚类

1.5 聚类分析的应用领域

1.6 聚类个数确定方法研究现状

1.6.1 数值型数据聚类个数确定方法研究现状

1.6.2 分类型数据聚类个数确定方法研究现状

1.7 论文的研究内容与组织结构

第二章 分类型数据聚类个数确定算法

2.1 分类型数据初始聚类中心选取算法

2.2 分类型数据聚类个数确定算法

2.2.1 相异性度量

2.2.2 算法描述

2.3 实验结果及分析

2.4 小结

第三章 混合型数据聚类个数确定算法

3.1 混合型数据相似性测度

3.1.1 数值型数据相似性测度

3.1.2 分类型数据相似性测度

3.2 混合型数据聚类有效性指标

3.3 混合型数据聚类个数确定算法

3.3.1 改进的K-Prototypes算法

3.3.2 混合型数据聚类个数确定算法

3.4 实验结果及分析

3.5 小结

第四章 聚类分析数据挖掘系统的设计与实现

4.1 常用数据挖掘系统研究现状

4.2 聚类分析数据挖掘系统

4.2.1 系统功能

4.2.2 系统特点

4.2.3 系统运行实例

4.3 小结

第五章 总结与展望

参考文献

攻读硕士学位期间取得的研究成果

致谢

个人简况及联系方式

声明

展开▼

摘要

聚类分析作为一种无监督学习方法,是数据粒化以及信息压缩的一个基本工具,同时也是机器学习研究和数据挖掘应用中的一个重要内容。迄今,针对不同的应用领域,研究者已经提出了多种聚类算法,并在信息检索、图像处理、金融欺诈、医疗诊断和生物信息学等领域得到了广泛的应用。然而提出的算法大多需要在算法运行前指定聚类个数,而在大部分实际应用中,聚类个数是不可能事先知道的,而且也很难预先指定聚类个数。因此,确定聚类算法中的聚类个数在聚类分析中具有非常重要的意义。
  本文针对聚类分析中聚类个数确定问题进行了较为深入的研究,主要内容如下:
  (1)针对分类型数据,运用信息熵给出了类与类之间的相异性度量,结合划分和层次聚类的思想,提出了一种分类型数据聚类个数的确定算法,并在UCI数据集上通过实验验证了该算法的有效性。
  (2)针对混合型数据,运用信息熵把数值型数据和分类型数据中类与类之间的相似性度量有效地统一起来,通过扩展分类效用函数给出了一个混合型数据聚类结果的有效性评价指标,提出了一种混合型数据的聚类个数确定算法,并在UCI数据集上通过实验验证了该算法的有效性。
  (3)基于B/S架构技术,设计并实现了一个聚类分析数据挖掘系统。该系统的主要功能包括数据预处理、聚类个数确定、初始聚类中心选择、聚类算法和聚类结果可视化和系统管理等。系统采用了组件式开发技术,提供了友好的图形界面和开放的编程接口,保证了系统的通用性和可扩展性。
  本文的研究成果为分类型或混合型数据的聚类算法中类个数的选择提供参考,进一步丰富了数据挖掘中聚类分析的研究。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号