基于Hadoop云计算平台的K-Means聚类算法研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

聚类分析作为数据挖掘技术最热门的研究方向之一，一直倍受广大研究学者与开发人员的青睐。聚类可以将用户输入的原始数据对象分成数个类簇，算法的目标就是相同类簇内的数据对象间相似程度较高，不同类簇内的数据对象间相似程度较低。随着移动互联网、物联网以及人工智能的发展，Web端产生的信息量越来越庞大，如何高效稳定地对超大规模数据进行聚类分析成为了一个全新的研究课题。Hadoop分布式云计算平台的兴起，使利用多个计算节点进行并行计算去解决传统串行算法的性能问题成为可能。
　　本文深入研究Hadoop分布式云计算平台和聚类算法等相关技术。设计并实现一套基于Hadoop平台的聚类分析系统。系统共分为二层架构，分别为底层驱动层、中间逻辑层以及对外服务层。文中详细阐述系统的设计思想及具体实现过程，旨在将聚类分析具体操作在内部进行高度封装，并对外暴露简单操作接口，使具体算法实现对用户透明，稳定高效地执行聚类分析。通过深入分析K-Means算法中存在的问题，设计基于Hadoop分布式平台的改进方案。使用本文实现的聚类分析系统配置实验环境，分别从并行随机采样、样本距离计算并行化以及数据对象聚类过程并行化三个方向优化算法执行过程，同时对改进的K-Means并行算法流程进行了详细描述。
　　最后分别从收敛速度、正确率、初始化采样速率和集群环境下加速比四个方向对改进的K-Means并行算法进行实验测试。实验结果表明本文设计的基于Hadoop分布式云计算平台的聚类分析系统能够提供高效、稳定、可配置的聚类分析服务。改进的K-Means并行聚类算法能够快速处理大规模的聚类分析计算。

著录项

作者
刘洋;
展开▼
作者单位

哈尔滨理工大学;

展开▼
授予单位哈尔滨理工大学;
学科电子与通信工程
授予学位硕士
导师姓名董静薇;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.13;
关键词
云计算平台; K-Means聚类; 并行算法; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop云计算平台的聚类K-means算法的研究与实现 [J] . 汪一百 . 信息与电脑 . 2017,第011期
2. 基于云计算平台Hadoop的并行k-means聚类算法设计研究 [J] . 赵卫中 ,马慧芳 ,傅燕翔 . 计算机科学 . 2011,第010期
3. 基于云计算平台Hadoop的并行k-means聚类算法设计研究 [J] . 赵卫中 ,马慧芳 ,傅燕翔 . 计算机科学与探索 . 2011,第010期
4. 基于Hadoop云计算平台的新浪微博数据聚类分析算法研究 [J] . 段庆伟 ,铁木巴干 . 辽宁科技学院学报 . 2017,第004期
5. 基于云计算平台Hadoop的HKM聚类算法设计研究 [J] . 张淑芬 ,董岩岩 ,陈学斌 . 应用科学学报 . 2018,第003期
6. 一种基于Hadoop云计算平台的聚类算法优化的研究 [C] . ZHANG Shi-lei ,张石磊 ,WU Zhuang . 中国计算机用户协会网络应用分会2012年第十六届网络新技术与应用年会 . 2012
7. 基于云计算平台Hadoop的聚类神经网络算法的研究与实现 [A] . 刘珊珊 . 2016

基于Hadoop云计算平台的K-Means聚类算法研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅