基于信息熵的聚类个数确定方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

聚类分析作为一种无监督学习方法，是数据粒化以及信息压缩的一个基本工具，同时也是机器学习研究和数据挖掘应用中的一个重要内容。迄今，针对不同的应用领域，研究者已经提出了多种聚类算法，并在信息检索、图像处理、金融欺诈、医疗诊断和生物信息学等领域得到了广泛的应用。然而提出的算法大多需要在算法运行前指定聚类个数，而在大部分实际应用中，聚类个数是不可能事先知道的，而且也很难预先指定聚类个数。因此，确定聚类算法中的聚类个数在聚类分析中具有非常重要的意义。
　　本文针对聚类分析中聚类个数确定问题进行了较为深入的研究，主要内容如下:
　　(1)针对分类型数据，运用信息熵给出了类与类之间的相异性度量，结合划分和层次聚类的思想，提出了一种分类型数据聚类个数的确定算法，并在UCI数据集上通过实验验证了该算法的有效性。
　　(2)针对混合型数据，运用信息熵把数值型数据和分类型数据中类与类之间的相似性度量有效地统一起来，通过扩展分类效用函数给出了一个混合型数据聚类结果的有效性评价指标，提出了一种混合型数据的聚类个数确定算法，并在UCI数据集上通过实验验证了该算法的有效性。
　　(3)基于B/S架构技术，设计并实现了一个聚类分析数据挖掘系统。该系统的主要功能包括数据预处理、聚类个数确定、初始聚类中心选择、聚类算法和聚类结果可视化和系统管理等。系统采用了组件式开发技术，提供了友好的图形界面和开放的编程接口，保证了系统的通用性和可扩展性。
　　本文的研究成果为分类型或混合型数据的聚类算法中类个数的选择提供参考，进一步丰富了数据挖掘中聚类分析的研究。

著录项

作者
赵兴旺;
展开▼
作者单位

山西大学;

展开▼
授予单位山西大学;
学科计算机应用技术
授予学位硕士
导师姓名梁吉兴;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
聚类分析; 聚类个数确定; 信息熵; 无监督学习; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 基于划分的聚类个数与初始中心的确定方法 [J] . 征原 ,谢云 . 计算机技术与发展 . 2017,第007期
2. 一种基于先验信息的混合数据聚类个数确定算法 [J] . 庞天杰 ,赵兴旺 . 计算机科学 . 2016,第002期
3. 基于局部密度估计的聚类个数确定研究 [J] . 龙章勇 . 河南科技 . 2016,第009期
4. 基于信息熵的食品安全事件聚类方法研究 [J] . 辜萍萍 . 智能计算机与应用 . 2021,第005期
5. 基于信息熵的食品安全事件聚类方法研究 [J] . 辜萍萍 . 智能计算机与应用 . 2021,第005期
6. 光纤接近觉传感信息不确定性的信息熵分析方法研究 [C] . 刘桂雄 . 全国现代误差理论及应用学术交流研讨会 . 1997
7. 基于深度学习的聚类个数确定及聚类方法的研究 [A] . 王怡琦 . 2018

基于信息熵的聚类个数确定方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅