一种基于层次聚类的遗传K均值算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在信息化高度发达的今天，从数据海洋中提取出知识宝藏具有深远的意义。聚类作为数据挖掘的重要方面，被广泛应用于零售业、金融业和生物科学等领域。聚类算法，更是整个聚类分析的核心。聚类算法的各方面性能，将决定整个聚类分析结果的质量，及其对现实生活的指导作用。在保持聚类算法结果稳定性和有效性的前提下，如何减轻用户负担和降低准入门槛，是一个十分有意义的研究课题。本文对数据挖掘进行了介绍，阐述了数据挖掘中的聚类分析。目前大部分聚类算法都要求预先指定诸如聚类数目、距离阈值或密度阙值等参数，但是这些参数都是和领域知识密切相关的，即使是领域专家也很难直接给出最佳的参数值，更不必说一般的用户了。为了减轻用户的负担和降低聚类分析的准入门槛，本文在深入研究相关算法的基础上，提出了凝聚遗传K均值聚类算法（AGKA）。作为本文的创新点，AGKA算法提供了一种零输入参数、多阶段、自适应确定聚类数和效果较好的聚类算法。本文详细介绍了AGKA算法的总体架构及其流程的四个阶段，即初始化阶段、Extended Ward阶段、最近邻凝聚聚类阶段和遗传K—Means阶段，并且对其进行了细致的分析。AGKA算法有如下几个突出的优点：①AGKA算法是一种零参数聚类算法，完全不需要用户预先输入任何参数，大大地减轻了用户的负担，即使是没有深厚领域知识的普通用户也可以轻松使用此算法；②AGKA算法采用改进的Ward凝聚层次聚类算法来自动确定给定数据集的最佳聚类数目，而且还能给出不同分辨率下的最佳聚类数目，解决了目前大部分聚类算法只能得到唯一聚类数目的问题；③AGKA结合了层次聚类算法和划分聚类算法的优点，并且综合运用遗传算法的全局寻优能力和K—Means算法的局部快速优化能力来对前面层次聚类阶段的结果进行精细化和全局优化，从而使得最终的聚类结果具有更好的稳定性和有效性，进而提高AGKA算法的普适性。本文在Visual C++6.0平台上实现了AGKA算法，并且使用了7个人工数据集和3个标准数据集进行实验；从准确率、类内内聚度和类间相异度三个角度分析实验结果，将AGKA算法与其他算法作比较，从而在实践中检验AGKA算法的稳定性和有效性。

著录项

作者
余庆鑫;
展开▼
作者单位

中山大学;

展开▼
授予单位中山大学;
学科信息计算科学
授予学位硕士
导师姓名吴红;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
信息检索; 数据挖掘; 聚类算法; 遗传K均值;

相似文献

中文文献
外文文献
专利

1. 一种基于层次聚类的k均值算法研究 [J] . 张红云 ,李萍萍 . 微计算机信息 . 2010,第012期
2. 基于层次聚类的k均值算法研究 [J] . 黄志红 . 电脑开发与应用 . 2009,第007期
3. 一种基于遗传优化的k均值聚类算法研究 [J] . 张敏 . 科技视界 . 2015,第003期
4. 一种基于改进的层次聚类的协同过滤用户推荐算法研究 [J] . 张峻玮 ,杨洲 . 计算机科学 . 2014,第012期
5. 一种基于K均值的移动客户投诉数据处理算法研究 [J] . 周慧珺 ,龙涛 ,陈景航 . 电信工程技术与标准化 . 2018,第007期
6. 基于遗传算子和粒子群混合的K均值聚类方法 [C] . 陈彪 ,徐捷 . 2009年中国智能自动化会议 . 2009
7. 一种基于变长编码的遗传K均值算法研究 [A] . 范光平 . 2007

一种基于层次聚类的遗传K均值算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅