首页> 中文学位 >基于Hadoop云计算平台的K-Means聚类算法研究
【6h】

基于Hadoop云计算平台的K-Means聚类算法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究目的及意义

1.2 国内外发展现状

1.3 本文研究的主要内容

第2章 相关技术研究与分析

2.1 Hadoop云计算平台

2.1.1 系统架构概述

2.1.2 分布式文件系统HDFS

2.1.3 分布式计算框架MapReduce

2.2 数据挖掘及聚类分析

2.2.1 数据挖掘技术

2.2.2 聚类分析定义及改进方向

2.2.3 聚类分析方法

2.3 本章小结

第3章 聚类分析系统的设计与实现

3.1 系统简介

3.1.1 开发环境介绍

3.1.2 总体架构概述

3.2 底层环境搭建

3.2.1 Hadoop集群部署

3.2.2 环境配置与服务搭建

3.3 中间逻辑层实现

3.3.1 数据管理模块

3.3.2 算法管理模块

3.3.3 资源监控模块

3.3.4 日志分析模块

3.4 对外服务层实现

3.5 本章小结

第4章 K-Means并行算法的改进

4.1 传统K-Means算法

4.1.1 算法概念

4.1.2 算法公式

4.1.3 算法执行流程

4.1.4 算法存在的问题

4.2 K-Means算法改进方案

4.2.1 并行随机采样

4.2.2 样本距离计算并行化

4.2.3 数据对象聚类并行化

4.3 改进的K-Means并行算法实现

4.4 聚类分析系统环境下的算法实验

4.4.1 聚类分析系统实验环境介绍

4.4.2 收敛速度比较

4.4.3 正确率比较

4.4.4 初始化采样速率比较

4.4.5 集群环境加速比验证

4.5 本章小结

结论

参考文献

攻读硕士学位期间发表的学术论文

致谢

展开▼

摘要

聚类分析作为数据挖掘技术最热门的研究方向之一,一直倍受广大研究学者与开发人员的青睐。聚类可以将用户输入的原始数据对象分成数个类簇,算法的目标就是相同类簇内的数据对象间相似程度较高,不同类簇内的数据对象间相似程度较低。随着移动互联网、物联网以及人工智能的发展,Web端产生的信息量越来越庞大,如何高效稳定地对超大规模数据进行聚类分析成为了一个全新的研究课题。Hadoop分布式云计算平台的兴起,使利用多个计算节点进行并行计算去解决传统串行算法的性能问题成为可能。
  本文深入研究Hadoop分布式云计算平台和聚类算法等相关技术。设计并实现一套基于Hadoop平台的聚类分析系统。系统共分为二层架构,分别为底层驱动层、中间逻辑层以及对外服务层。文中详细阐述系统的设计思想及具体实现过程,旨在将聚类分析具体操作在内部进行高度封装,并对外暴露简单操作接口,使具体算法实现对用户透明,稳定高效地执行聚类分析。通过深入分析K-Means算法中存在的问题,设计基于Hadoop分布式平台的改进方案。使用本文实现的聚类分析系统配置实验环境,分别从并行随机采样、样本距离计算并行化以及数据对象聚类过程并行化三个方向优化算法执行过程,同时对改进的K-Means并行算法流程进行了详细描述。
  最后分别从收敛速度、正确率、初始化采样速率和集群环境下加速比四个方向对改进的K-Means并行算法进行实验测试。实验结果表明本文设计的基于Hadoop分布式云计算平台的聚类分析系统能够提供高效、稳定、可配置的聚类分析服务。改进的K-Means并行聚类算法能够快速处理大规模的聚类分析计算。

著录项

  • 作者

    刘洋;

  • 作者单位

    哈尔滨理工大学;

  • 授予单位 哈尔滨理工大学;
  • 学科 电子与通信工程
  • 授予学位 硕士
  • 导师姓名 董静薇;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.13;
  • 关键词

    云计算平台; K-Means聚类; 并行算法; 数据挖掘;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号