软投票聚类集成的研究及其并行化实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着人类社会的发展，数据已经渗入人类生活的方方面面，成为重要的生产因素。数据所包含的知识往往是竞争中至关重要的信息。数据挖掘是从大量数据中挖掘知识的一类方法，而聚类分析是数据挖掘中一个重要组成部分。聚类分析的定义是基于某种或多种相似度量原则，将相似的数据分为同一类，不相似的数据区分开。聚类分析按照聚类划分的隶属度取值范围可分为硬聚类和软聚类。硬聚类是指划分的结果为某数据对象要么属于某一类，要么完全不属于某一类。软聚类则是数据对象以一定的概率属于某类。现实世界中很多数据集的实际结构是模糊的，若被按照硬聚类的方式划分，则不可避免的会损失一些有价值的信息，而软聚类处理这类数据具有更重要的意义。现在是大数据时代，特别是数据挖掘，往往针对的是大数据。云计算平台是一种快速处理大数据的工具。
　　由于相似性度量及模型选择的原因，不可能存在一种聚类算法能够完美的适用于所有数据集。针对这种情况，学者们提出了聚类集成算法，聚类集成算法即是通过某种方法将多个聚类结果融合，得出一个更好、更稳定的聚类结果。聚类集成与单个聚类相比，具有更好的鲁棒性、稳定性、准确性和可扩展性。但是现存的聚类集成算法大多数是针对硬聚类的，若要对软聚类结果进行集成，则需要先将软聚类结果进行硬化，这样，会造成信息的损失。针对这一问题，本文做了两方面的工作:第一，改进软投票聚类集成算法(SVCE)，提出权重软投票聚类集成算法(WSVCE)，第二，提出一种新的软投票聚类集成算法——VMSC算法，该算法首先对多个隶属度矩阵求均值，然后对结果进行优化。
　　为了能够高效的处理大数据，对WSVCE和VMSC实现其并行化。由于Spark云计算平台在数据处理上相对于Hadoop云计算平台有不可比拟的优势，因此在本文的实验中，并行化采用的是Spark云计算平台。实验证明两种算法的并行化实现具有良好的性能。

著录项

作者
张静静;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科计算机技术
授予学位硕士
导师姓名杨燕;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据挖掘; 聚类分析; VMSC算法;

相似文献

中文文献
外文文献
专利

1. 一种新的软聚类投票法及其并行化实现 [J] . 张静静 ,杨燕 ,王红军 . 中国科学技术大学学报 . 2016,第003期
2. 基于特征关系的加权投票聚类集成研究 [J] . 江志良 ,侯远 ,吴敏 . 计算机工程与应用 . 2018,第003期
3. 基于软投票融合模型的消费信贷违约风险评估研究 [J] . 任师攀 ,彭一宁 . 金融理论与实践 . 2020,第004期
4. 孤立森林算法研究及并行化实现 [J] . 王诚 ,狄萱 . 计算机技术与发展 . 2021,第006期
5. 基于Hadoop平台FP-Growth算法并行化研究与实现 [J] . 戴伟敏 . 宁夏大学学报（自然科学版） . 2020,第001期
6. 股东投票、投票权征集与因特网——扩大股东参与投票的可能性与降低信息成本的一种方式及路径 [C] . 马更新 . 首届中国法学博士后论坛 . 2006
7. 基于软投票的半监督聚类集成研究 [A] . 王海琛 . 2014

软投票聚类集成的研究及其并行化实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅