云计算环境下海量数据的并行聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

聚类是数据分析和管理最基础的算法之一，它已经被广泛应用于计算机科学及其相关领域。然而海量数据的出现使得传统的聚类算法受到了极大的挑战，例如聚类算法的可扩展性差、效率低等。目前，以MapReduce为代表的云计算技术越来越受到商业界和学术界的关注，并且MapReduce已经发展成为最流行的海量数据处理模型之一。本文研究云计算环境下海量数据的并行聚类算法，重点是在MapReduce处理模型中对k-means、k-means++和scalable k-means++聚类算法的研究，目的是提高这些聚类算法的可扩展性和效率。论文完成的工作和主要的研究成果如下:
　　在MapReduce并行处理框架下，针对k-means++初始化方法序列化特性导致其可扩展性差并且需要大量MapReduce作业迭代的问题，本文提出了并行可扩展的k-means++聚类算法，它的初始化方法仅需要一次MapReduce作业迭代就可以选出k个中心点，在Map阶段运行标准的k-means++初始化算法，而在Reduce阶段运行加权的k-means++初始化算法。这种方法不仅提高了 k-means++聚类算法在处理海量数据时的效率，而且它被证明是k-means最优聚类结果的O(α2)近似，其中α=8(2+ lnk)。
　　考虑到MapReduce并行处理框架下scalable k-means++聚类算法的初始化方法每次迭代仍然需要启动两个MapReduce作业的缺点，通过Map阶段的过采样技术以及Reduce阶段的修正技术，提出了快速的scalable k-means++聚类算法。它的每次迭代仅需要一个MapReduce作业，节省了大量的I/O成本和时间，提高了scalablek-means++聚类算法的效率。
　　MapReduce环境下的k-means聚类算法在处理海量的倾斜数据时会导致Reduce任务的负载不均衡，使得Reduce任务的运行时间差异较大，整个聚类算法的运行时间变长，严重降低了云计算平台的资源利用率。针对此问题本文提出了基于抽样估计的数据划分方法。该方法采用抽样估计理论对原始数据进行分析处理，并根据提出的C2和CSC划分方法得到较好的数据划分方案，最后把该方案应用于MapReduce k-means聚类算法中，实验结果表明此方法平衡了Reduce任务的负载，缩短了聚类算法的运行时间。

著录项

作者
许玉杰;
展开▼
作者单位

大连海事大学;

展开▼
授予单位大连海事大学;
学科计算机应用技术
授予学位博士
导师姓名曲雯毓;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
云计算; 海量数据; 聚类算法; 数据倾斜;

相似文献

中文文献
外文文献
专利

1. 云计算环境下基于模糊聚类的并行调度策略研究 [J] . 张千 ,梁鸿 ,邢永山 . 计算机科学 . 2014 ,第008期
2. 基于云计算环境下无人机航迹并行算法研究 [J] . 洪增 ,杨奇 ,李晓庆 . 电子设计工程 . 2013 ,第024期
3. 云计算环境下的容错并行Skyline查询算法研究 [J] . 王媛 ,王意洁 ,邓瑞鹏 . 计算机科学与探索 . 2011 ,第009期
4. 云环境下并行DBSCAN聚类算法研究 [J] . 邓青 ,杨宁 . 山西电子技术 . 2017 ,第006期
5. 云计算环境下高复杂度动态数据的增量密度快速聚类算法研究 [J] . 陈赣浪 ,颜飞龙 ,潘家辉 . 计算机科学 . 2018 ,第002期
6. 云计算环境下基于模糊聚类的并行调度策略研究 [C] . ZHANG Qian ,张千 ,LIANG Hong . 2013年全国理论计算机科学学术年会 . 2013
7. 云计算环境下的并行SVM算法研究 [A] . 郭丽娜 . 2014

云计算环境下海量数据的并行聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅