首页> 中文学位 >聚类算法及基于簇模式聚类集成研究
【6h】

聚类算法及基于簇模式聚类集成研究

代理获取

摘要

计算机技术的普及使得各行各业积累了大量的数据信息,人工处理这些大规模的数据已变得不现实。因此,数据挖掘技术应运而生了。在数据挖掘领域中聚类技术是其中的一个热点,聚类是以某种相似性度量方法对数据集中的对象进行度量,依据某种聚类策略把相似性大的对象划分到同一簇中,把相似性小的对象划分到不同的簇中,从而使同一个簇中对象的相似性最大,不同簇间对象相似性最小。不同的单一聚类算法都有一定的适应范围和适应于不同分布的数据集结构。有些聚类算法在数据量较小时表现出较好的性能,但是无法胜任在大规模数据集上聚类;有些聚类算法比较倾向发现均匀分布的凸状簇;有些聚类算法要求数据集的数据分布要比较紧凑;有些聚类算法对离群点比较敏感。单个聚类算法都有一定的局限性,而对多个聚类算法进行融合可以解决上述问题。对多个聚类算法进行融合能够提高系统的泛化能力和稳定性,而且对有差异的聚类算法进行集成还能提高聚类的准确率。
   本文对聚类技术和聚类集成技术进行了研究。简单介绍了聚类算法的种类及其代表算法。简述了聚类过程中的主要步骤,聚类分析中常见的数据类型及各种类型数据对象的相似性度量方法。对层次聚类算法进行了较深入的研究,并提出了一种基于代表点的改进的快速聚类算法(REPBFC,REpresentative-Points Based Fast Clustering)。该算法是一种凝聚型层次聚类算法,在簇的合并过程中,选用一定数量的代表点代表一个簇,从而能识别非凸状不规则的簇;根据90_10规则的特性,分两个阶段完成聚类操作,与传统的聚类算法相比降低了算法的时间复杂度。介绍了聚类集成的研究热点,如何生成有差异的聚类集体和基于互信息的聚类集体差异性度量方法;介绍了常见的共识函数的设计方法。本文中给出了由多个聚类结果所组成的簇模式的概念,并提出了两种基于簇模式的聚类集成共识函数设计方法ECBCMP(Ensemble Clustering algorithm Based on Cluster-Mode and Partitioning methods)和ECCCM(Ensemble Clustering with Combining Cluster-Mode),并用C++程序设计语言对这两个算法进行了实现,在UCI数据集中的Iris、Wine和人工模拟的聚类结果数据集上进行了实验,均取得了不错的聚类集成结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号