首页> 中文学位 >基于加权的增量式多中心点大数据聚类算法研究
【6h】

基于加权的增量式多中心点大数据聚类算法研究

代理获取

目录

声明

第1章 绪 论

1.1 研究背景

1.2 国内外研究现状

1.3 本文的主要工作

1.4 本文结构安排

第2章 聚类研究与分析

2.1聚类的基本概念

2.2 常用的标准化方法

2.3 距离度量方法

2.4 评价标准

2.5 聚类算法分类

2.6小结

第3章 大数据下的聚类分析与研究

3.1 硬聚类算法

3.2模糊聚类算法

3.3 小结

第4章 基于加权的IMMFC算法

4.1 算法概述

4.2 初始化

4.3 更新中心点和模糊矩阵

4.4 基于加权的IMMFC算法

4.5 算法复杂度

4.6 小结

第5章 实验评估

5.1数据集

5.2 评估策略

5.3实验

5.4结果评估

5.4 参数分析

5.5小结

结论

参考文献

致谢

展开▼

摘要

作为数据分析中一门重要的技术,聚类在发现没有标签的数据集中潜在的数据结构模式上发挥着重要作用。传统的聚类方法需要把整个数据集加载进入内存。在当今,与互联网相关的公司高速发展,它们时刻都在产生大量的数据。这些公司的数据量动辄达到 PB或TB级别,把这么庞大的数据加载进入内存是几乎不可能的。
  为了处理如此大规模的数据,选择采样的方法很容易会被想到。采样虽然能解决数据加载进入内存的问题,但是同时它也会导致数据部分信息的丢失。并且,传统的聚类方法不能处理非球形的、不平衡的数据集。因此,本文提出了一种基于加权的增量式的多中心点处理大数据的聚类方法(wIMMFC)来处理非球形的、不平衡的数据集,这种方法是从原本的 IMMFC扩展得到的。wIMMFC算法采用了4个基本策略:1)把整个数据集划分成多个数据块;2)在每个数据块中为每个类别找寻多个中心点;3)使用每个数据块的中心点之间的相关关系指导最终的聚类;4)对所有的候选中心点进行加权。与原本的 IMMFC算法相比,wIMMFC有两点不同:1)改进后的最小距离最大化算法被用来进行初始中心点的选择来避免可能出现局部最优解的问题;2)对候选中心点集合加权的方法来充分利用中间聚类结果的信息使聚类结果更加准确。我们的实验是把本文的算法与其他相关3种算法在5个数据集(包括2个真实数据集)上进行对比实验。实验结果显示本文提出的wIMMFC算法确实具有较好的性能。

著录项

  • 作者

    高大学;

  • 作者单位

    湖南大学;

  • 授予单位 湖南大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 曹智,陈敏;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    多中心; 大数据; 聚类算法;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号