密度簇类中心约束的层次聚类方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

聚类分析是指对于给定的数据集，在没有其他先验知识的情况，将其通过聚类算法进行分割，进而得到子集的过程。这些由聚类分析而获得的子集被称作簇类，对于得到的各个簇类，每个簇类内部的数据，数据之间具有较高的相似度，而对于这些簇类间的数据，数据之间具有较低的相似度。因为聚类分析不需要任何其他先验知识，只需要数据本身就可以进行，因此它比需要先验知识的分类算法有着更为广泛的应用。目前已有相关研究者对此提出了一些聚类算法，但是这些算法仍然存在着无法发现任意形状的簇类，需要的参数过多而且意义不明，对于数据量较少的数据集效果不佳等问题。针对这些存在的问题，基于现存的聚类算法，本文提出了根据这些算法改进的聚类算法，本文的主要研究工作如下:
　　首先，提出了一种由数据密度所确定的簇类中心来约束的最近邻层次聚类算法。算法分为两个阶段，第一阶段被称作预合并阶段，通过对于数据进行预合并，利用合并过程中的冗余信息，来计算得到基于冗余信息的密度值，这样的密度值因为不需要设定其他额外参数，因此不会存在参数初始化敏感的问题，同时由于密度计算过程中，对于单一数据点的密度的计算，并非考虑的只是该点局部的情况，因此对于数据量较少的数据集，不会出现由此引发的统计误差。在获得数据密度值后可以计算数据的最小距离值，然后通过数据的这两个参数，可以找到数据集中的簇类中心;第二阶段称为簇类中心约束的最近邻层次聚类，利用第一阶段找到的簇类中心，在层次聚类的合并过程中区别对待具有簇类中心的簇类和没有簇类中心的簇类，来进行有簇类中心约束的层次聚类算法来得到最终的聚类分析结果。
　　然后，提出了一种基于数据本地密度的簇类中心约束的最近邻层次聚类算法。针对提出的合并冗余信息度量数据密度发生的不鲁棒的缺点，采用了一种新的基于高斯函数密度度量的方法，并在实验中证明了该密度方法对于簇类中心发现的鲁棒性。方法被用于聚类第一阶段中，能更为鲁棒的寻找到数据集中的簇类中心，提高了第二阶段中最后获得的聚类分析结果的精准度。
　　最后，为了验证本文提出的方法的有效性，我们使用了人工数据集和真实数据集分别对于提出的聚类算法与其他方法进行了比较实验。实验结果表明，在输入较少的参数的情况下，本文提出的两种方法都能高效的完成聚类分析，并且在分类准确率上比其他方法具有一定优势。

著录项

作者
李骁;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科计算机技术
授予学位硕士
导师姓名廖波,陈敏;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
数据集; 层次聚类算法; 数据密度; 簇类中心;

相似文献

中文文献
外文文献
专利

1. 针对簇类中心自适应的密度峰值聚类算法 [J] . 王慧玲 ,宋威 ,谢国伟 . 传感器与微系统 . 2020,第012期
2. 基于类轮廓层次聚类方法的研究 [J] . 孟海东 ,唐旋 . 计算机应用与软件 . 2011,第011期
3. 密度泛函理论对一类团簇结构和电子性质的研究 [J] . 杨永 ,张巧 ,田付阳 . 科技信息 . 2009,第016期
4. 奇数类富勒烯团簇结构的遗传算法和密度泛函理论研究(英文) [J] . 李郁芬 ,庄军 ,孔庆宇 . 复旦学报：自然科学版 . 2003,第6期
5. 5d过渡金属原子中心镶嵌Ag团簇M@Ag12(M=Hf～Hg)Ih和Oh构型的密度泛函理论研究 [J] . 龙娟 ,仇毅翔 ,王曙光 . 化学学报 . 2008,第015期
6. 基于中心定位算子遗传算法的动态层次聚类方法 [C] . LIU Yuanyuan ,刘园园 ,WANG Wuyang . 第20届全国计算机新科技与计算机教育学术大会 . 2009
7. 数据流聚类方法的研究——基于概率密度和应用摘要层次的算法研究 [A] . 陈春燕 . 2008

密度簇类中心约束的层次聚类方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅