首页> 中文学位 >多视图子空间聚类集成方法研究及分布式实现
【6h】

多视图子空间聚类集成方法研究及分布式实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 多视图聚类算法研究现状

1.2.2 聚类集成算法研究现状

1.2.3 分布式聚类算法研究现状

1.3 论文主要研究内容和结构安排

第2章 基本原理简述

2.1 聚类分析基本原理

2.1.1 聚类的定义和方法

2.1.2 软子空间聚类

2.2 多视图聚类基本原理

2.2.1 多视图聚类算法概述

2.2.2 多视图子空间聚类算法概述

2.3 聚类集成原理

2.3.1 聚类集成基本原理

2.3.2 基于链接聚类集成方法

2.3.3 多视图聚类集成

2.4 Apache Spark平台简述

2.5 本章小结

第3章 基于属性加权的多视图软子空间聚类算法

3.1 LAC算法介绍

3.2 MVLAC算法

3.2.1 目标函数

3.2.2 算法描述

3.3 分布式多视图软子空间聚类算法

3.3.1 分布式MVLAC算法设计

3.3.2 分布式MVLAC算法实现

3.4 本章小结

第4章 多视图聚类集成算法

4.1 改进的多视图聚类集成算法

4.2 分布式多视图聚类集成算法

4.2.1 分布式IMVCE算法设计

4.2.2 分布式IMVCE算法实现

4.3 本章小结

第5章 实验与分析

5.1 实验数据集介绍

5.2 聚类评价指标

5.2.1 NMI评价指标

5.2.2 F-measure评价指标

5.2.3 RI评价指标

5.3 分布式算法评价指标

5.3.1 Speedup性能指标

5.3.2 Sizeup性能指标

5.3.3 Scaleup性能指标

5.4 多视图软子空间聚类实验结果及分析

5.4.1 MVLAC算法实验结果及分析

5.4.2 分布式MVLAC算法实验结果及分析

5.5 多视图聚类集成实验结果及分析

5.5.1 IMVCE算法实验结果及分析

5.5.2 分布式IMVCE算法实验结果及分析

5.6 本章小结

结论与展望

致谢

参考文献

攻读硕士学位期间发表的论文及科研成果

展开▼

摘要

在现实社会中,许多纷繁复杂的数据都是有价值的,人们总是希望能够从中获取有价值的信息。而且随着云计算、大数据等技术的深入发展,数据扮演了越来越重要的角色。面对看似杂乱的数据,通过聚类分析可以有效的将数据划分为若干个类别,每一个类别可能真实的反映了原数据中一种类型的对象。聚类分析是机器学习领域一种重要的无监督学习方法,在数据标签未知的情况下,将数据分类,每一个类别称为一个簇。随着聚类技术应用范围的扩展,出现了针对多视图数据聚类的需求。多视图聚类成为聚类分析的一个分支,受到许多研究者的关注。多视图数据是一种有多个侧面、多个视角的数据集,例如,不同的图像特征可以作为图像数据不同视图,不同传感器可以获得同一数据源的不同视角数据。多视图聚类考虑视图间的差异性和互补性,最终获得一致性划分。
  子空间聚类是解决高维聚类的一种方法,传统子空间聚类可以分为硬子空间聚类和软子空间聚类。在硬子空间聚类中,每个簇对应原数据集的一个属性子集;在软子空间聚类中,每个簇对应一个属性加权后的数据集。本文以软子空间聚类算法思想为基础,提出了一种基于局部自适应属性加权的多视图软子空间聚类算法。该算法是对已有LAC软子空间聚类算法的改进,引入了新的视图权重向量,同时考虑到视图属性的差异性,为每个视图引入了一个平衡因子,克服了高维聚类中的维度灾难。该算法具有时间复杂度低、收敛速度快的优点。实验结果表明,本文提出的算法比其他多视图聚类算法有更好的聚类质量。
  聚类集成是一种有效提高聚类鲁棒性、稳定性和聚类精度的方法。本文将聚类集成应用于多视图聚类中,同时使用单视图聚类算法和多视图聚类算法产生差异性的聚类分量,使用基于链接的聚类集成方法进行集成,提出了一种改进的多视图聚类集成算法。实验结果表明,该算法要优于其它对比算法。
  目前,大规模数据集越来越普遍,聚类算法的大数据处理能力也成为了衡量聚类算法性能的指标之一。文本基于大数据处理平台Spark,实现了分布式多视图软子空间聚类算法和分布式多视图聚类集成算法。并在Spark集群上进行实验,证明了分布式算法可以并行的对大规模数据进行处理,提高了聚类的效率,可以对Gb级的多视图数据进行处理。

著录项

  • 作者

    邓强;

  • 作者单位

    西南交通大学;

  • 授予单位 西南交通大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 杨燕;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    多视图数据; 软子空间; 聚类算法; 分布式算法;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号