首页> 中文学位 >密度簇类中心约束的层次聚类方法的研究
【6h】

密度簇类中心约束的层次聚类方法的研究

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 课题的研究背景及意义

1.2 研究现状

1.3 研究内容

1.4 论文结构

1.5 本章小结

第2章 聚类分析的方法相关理论基础介绍

2.1 聚类分析的问题描述

2.2 相似度的度量

2.2.1 相异性的度量

2.2.2 相似性的度量

2.3 相关聚类算法的介绍

2.3.1 K均值聚类算法

2.3.2 凝聚的层次聚类算法

2.3.3 基于快速搜索查找密度峰值的聚类算法

2.4 本章小结

第3章 冗余信息簇中心约束的层次聚类

3.1 基于合并冗余信息的密度的定义

3.1.1 合并的冗余信息

3.1.2 密度计算流程

3.2 簇类中心约束的层次聚类算法

3.2.1 簇类中心约束的层次聚类流程

3.2.2 冗余信息簇中心约束的两阶段聚类

3.3 实验结果与分析

3.3.1 人工数据集数据介绍

3.3.2 人工数据集实验结果及其分析

3.3.3 真实数据集数据介绍

3.3.4 真实数据集实验结果及其分析

3.4 本章小结

第4章 本地密度簇中心约束的层次聚类

4.1 CNHC的缺陷分析

4.2 基于本地密度的簇类中心约束的层次聚类

4.3 方法的基本流程

4.4 实验结果与分析

4.5 本章小结

结论

参考文献

致谢

展开▼

摘要

聚类分析是指对于给定的数据集,在没有其他先验知识的情况,将其通过聚类算法进行分割,进而得到子集的过程。这些由聚类分析而获得的子集被称作簇类,对于得到的各个簇类,每个簇类内部的数据,数据之间具有较高的相似度,而对于这些簇类间的数据,数据之间具有较低的相似度。因为聚类分析不需要任何其他先验知识,只需要数据本身就可以进行,因此它比需要先验知识的分类算法有着更为广泛的应用。目前已有相关研究者对此提出了一些聚类算法,但是这些算法仍然存在着无法发现任意形状的簇类,需要的参数过多而且意义不明,对于数据量较少的数据集效果不佳等问题。针对这些存在的问题,基于现存的聚类算法,本文提出了根据这些算法改进的聚类算法,本文的主要研究工作如下:
  首先,提出了一种由数据密度所确定的簇类中心来约束的最近邻层次聚类算法。算法分为两个阶段,第一阶段被称作预合并阶段,通过对于数据进行预合并,利用合并过程中的冗余信息,来计算得到基于冗余信息的密度值,这样的密度值因为不需要设定其他额外参数,因此不会存在参数初始化敏感的问题,同时由于密度计算过程中,对于单一数据点的密度的计算,并非考虑的只是该点局部的情况,因此对于数据量较少的数据集,不会出现由此引发的统计误差。在获得数据密度值后可以计算数据的最小距离值,然后通过数据的这两个参数,可以找到数据集中的簇类中心;第二阶段称为簇类中心约束的最近邻层次聚类,利用第一阶段找到的簇类中心,在层次聚类的合并过程中区别对待具有簇类中心的簇类和没有簇类中心的簇类,来进行有簇类中心约束的层次聚类算法来得到最终的聚类分析结果。
  然后,提出了一种基于数据本地密度的簇类中心约束的最近邻层次聚类算法。针对提出的合并冗余信息度量数据密度发生的不鲁棒的缺点,采用了一种新的基于高斯函数密度度量的方法,并在实验中证明了该密度方法对于簇类中心发现的鲁棒性。方法被用于聚类第一阶段中,能更为鲁棒的寻找到数据集中的簇类中心,提高了第二阶段中最后获得的聚类分析结果的精准度。
  最后,为了验证本文提出的方法的有效性,我们使用了人工数据集和真实数据集分别对于提出的聚类算法与其他方法进行了比较实验。实验结果表明,在输入较少的参数的情况下,本文提出的两种方法都能高效的完成聚类分析,并且在分类准确率上比其他方法具有一定优势。

著录项

  • 作者

    李骁;

  • 作者单位

    湖南大学;

  • 授予单位 湖南大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 廖波,陈敏;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    数据集; 层次聚类算法; 数据密度; 簇类中心;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号