首页> 中文学位 >软投票聚类集成的研究及其并行化实现
【6h】

软投票聚类集成的研究及其并行化实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 软聚类研究现状

1.2.2 聚类集成研究现状

1.2.3 云计算研究现状

1.3 本文主要内容与结构安排

第2章 相关理论

2.1 聚类

2.2 聚类集成

2.2.1 生成多个聚类结果

2.2.2 共识函数

2.3 云计算平台(SPARK)

2.4 本章小结

第3章 权重软投票聚类集成算法

3.1 软聚类

3.2 多数投票法

3.3 软投票聚类集成算法(SVCE)

3.4 权重软投票聚类集成算法原理

3.4.1 标签对齐

3.4.2 权重计算

3.5 WSVCE算法的并行化实现

3.6 本章小结

第4章 软聚类投票法

4.1 软聚类投票法(VMSC)原理

4.2 VMSC算法并行化设计

4.3 本章小结

第5章 实验与结果分析

5.1 一般性实验

5.1.1 实验数据集

5.1.2 评价指标

5.1.3 WSVCE算法实验结果

5.1.4 VMSC实验结果

5.2 并行化实验

5.2.1 实验数据集

5.2.2 评价指标

5.2.3 WSVCE算法并行化实验结果

5.2.3 VMSC算法并行化实验结果

5.3 本章小结

结论与展望

致谢

参考文献

攻读硕士学位期间发表的论文及科研成果

展开▼

摘要

随着人类社会的发展,数据已经渗入人类生活的方方面面,成为重要的生产因素。数据所包含的知识往往是竞争中至关重要的信息。数据挖掘是从大量数据中挖掘知识的一类方法,而聚类分析是数据挖掘中一个重要组成部分。聚类分析的定义是基于某种或多种相似度量原则,将相似的数据分为同一类,不相似的数据区分开。聚类分析按照聚类划分的隶属度取值范围可分为硬聚类和软聚类。硬聚类是指划分的结果为某数据对象要么属于某一类,要么完全不属于某一类。软聚类则是数据对象以一定的概率属于某类。现实世界中很多数据集的实际结构是模糊的,若被按照硬聚类的方式划分,则不可避免的会损失一些有价值的信息,而软聚类处理这类数据具有更重要的意义。现在是大数据时代,特别是数据挖掘,往往针对的是大数据。云计算平台是一种快速处理大数据的工具。
  由于相似性度量及模型选择的原因,不可能存在一种聚类算法能够完美的适用于所有数据集。针对这种情况,学者们提出了聚类集成算法,聚类集成算法即是通过某种方法将多个聚类结果融合,得出一个更好、更稳定的聚类结果。聚类集成与单个聚类相比,具有更好的鲁棒性、稳定性、准确性和可扩展性。但是现存的聚类集成算法大多数是针对硬聚类的,若要对软聚类结果进行集成,则需要先将软聚类结果进行硬化,这样,会造成信息的损失。针对这一问题,本文做了两方面的工作:第一,改进软投票聚类集成算法(SVCE),提出权重软投票聚类集成算法(WSVCE),第二,提出一种新的软投票聚类集成算法——VMSC算法,该算法首先对多个隶属度矩阵求均值,然后对结果进行优化。
  为了能够高效的处理大数据,对WSVCE和VMSC实现其并行化。由于Spark云计算平台在数据处理上相对于Hadoop云计算平台有不可比拟的优势,因此在本文的实验中,并行化采用的是Spark云计算平台。实验证明两种算法的并行化实现具有良好的性能。

著录项

  • 作者

    张静静;

  • 作者单位

    西南交通大学;

  • 授予单位 西南交通大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 杨燕;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据挖掘; 聚类分析; VMSC算法;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号