基于不完整视图的多核谱聚类算法及分布式实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在这个信息爆炸的时代，数据量也在不断增加。为了挖掘这些数据中的有效信息，聚类分析技术被广泛应用。聚类分析作为数据挖掘和机器学习的一种重要手段，可以在不知道数据标签的情况下，将数据进行分类。随着数据结构变得越来越复杂，数据来源越来越多样化，传统的聚类方法无法处理来自多个角度的数据，因此多视图聚类算法成为了许多研究者关注的重点。多视图数据是一种描述同一个事物不同特征的多个侧面的数据集。通过研究视图内和视图间的关系，利用多视图聚类方法能更好的分析数据内部的特征，挖掘出其中隐藏的重要信息。针对越来越大的数据维度，普通的聚类方法无法进行有效的划分，核函数作为一种高维数据的处理方法，可以通过非线性映射处理线性不可分的数据，在高维空间进行聚类分析，得到了良好的聚类效果。然而在多视图数据中，单核函数不能灵敏的处理其中的异构数据，所以引入了多核学习的方法，其原理是采用不同的核函数去处理不同特征的数据，并将这些核函数进行有效的线性组合，从而挖掘出数据内部更多的潜在信息。实际应用中，多视图数据大多存在缺失，因此研究不完整视图数据成为了当下的热点。在不完整视图聚类中，重点在如何对数据进行估计和提高不完整视图的聚类效果。本文首先把均值估计作为数据的初始化结果；然后根据谱聚类算法具有处理更多不同类型数据的优势，把谱聚类算法和不完整多核矩阵估计结合成一个整体进行迭代更新；实验表明，不完整视图的聚类效果得以提高，并且在不同完整率的情况下，聚类效果更加稳定。目前，随着数据的爆发性增长，只是在单机上对这些大规模数据进行聚类显得越来越吃力。而云计算技术能有效地处理此类数据，因此本文基于 Spark 分布式平台，提出了分布式不完整视图的多核谱聚类算法。并在 Spark 集群上实现了该算法，证明了并行化算法可以高效地处理大规模数据，提高聚类算法的效率。

著录项

作者
张薇;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科计算机科学与技术
授予学位硕士
导师姓名杨燕;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类飞机构造与设计;水利工程基础科学;
关键词
不完整; 视图; 多核; 谱聚类算法;

相似文献

中文文献
外文文献
专利

1. 基于谱聚类和L2,1范数的多视图聚类算法 [J] . 贺娜 ,马盈仓 ,张丹 . 计算机与数字工程 . 2021,第011期
2. 基于核典型相关分析的多视图谱聚类算法 [J] . 王春杰 ,石延新 ,何进荣 . 延安大学学报（自然科学版） . 2021,第004期
3. 基于邻域多核学习的后融合多视图聚类算法 [J] . 夏冬雪 ,杨燕 ,王浩 . 计算机研究与发展 . 2020,第008期
4. 分布式环境下基于混合蛙跳算法的物化视图选择问题 [J] . 陈于思 ,孙林夫 . 计算机集成制造系统 . 2019,第002期
5. 基于NoC分布式多核系统中任务迁移的实现 [J] . 王良 ,付方发 ,刘钊池 . 计算机工程 . 2014,第005期
6. 一种基于MPI的稀疏化局部尺度并行谱聚类算法的研究与实现 [C] . Li Ruilin ,李瑞琳 ,Zhao Yonghua . 2015全国高性能计算学术年会 . 2015
7. 基于数据流的分布式并行谱聚类算法的研究 [A] . 程铭忠 . 2016

基于不完整视图的多核谱聚类算法及分布式实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅