首页> 中文学位 >基于云平台的数据挖掘并行算法研究与应用
【6h】

基于云平台的数据挖掘并行算法研究与应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1课题背景

1.2 国内外研究现状

1.3 论文研究目标及内容

1.4 论文内容结构

1.5 本章小节

第二章 相关知识介绍

2.1现有云平台概述

2.2并行计算模型概述

2.3聚类算法概述

2.4 回归算法概述

2.5本章小节

第三章 基于密度的聚类算法DBSCAN并行化改进

3.1 DBSCAN算法思想

3.2现有的并行DBSCAN算法

3.3 改进的并行DBSCAN算法S_DBSCAN

3.4改进的S_DBSCAN算法在Spark上实现

3.5实验及结果

3.6本章小节

第四章 局部加权回归LWLR算法的并行化改进

4.1 LWLR算法流程

4.2现有的并行LWLR算法

4.3改进的并行LWLR算法

4.4改进的LWLR算法在Spark上实现

4.5实验及结果

4.6本章小节

第五章 基于云平台的数据挖掘分析系统的设计与实现

5.1平台简介

5.2系统架构与功能模块

5.3应用案例

5.4本章小节

第六章 总结与展望

6.1总结

6.2展望

致谢

参考文献

攻硕期间取得的成果

展开▼

摘要

随着信息技术的不断创新,数据已然呈现出爆炸式增长的态势,互联网产业正面临着从IT到DT的巨大转变。如何提高挖掘海量数据背后所隐藏知识的能力,成为现阶段的一个难题。分布式计算架构的出现为海量数据挖掘提供了新的解决方案,将传统的数据挖掘算法迁移到云平台进行并行化改进,可使得处理数据的效率大大提高。
  本文从传统的数据挖掘算法无法应对海量数据挖掘的缺陷出发,研究了现阶段较为热门的开源分布式并行计算框架如Hadoop、Spark等,然后将传统的数据挖掘算法进行并行化改进,并将其移植到云平台上,利用云平台提升数据挖掘算法的计算能力,使之具有良好的可扩展性。主要工作有以下几个方面:
  (1)基于密度的聚类算法DBSCAN并行化改进。现有的并行DBSCAN算法在进行数据分区时,通常是将原始数据库划分为若干个互不相交的子空间,随着数据维度的增加,对高维空间的切分与合并将消耗大量的时间。针对这一问题,本文提出了改进的并行基于密度的聚类算法(S_DBSCAN),并在Spark上具体实现。经实验表明,改进的S_DBSCAN算法在保证一定正确聚类结果的同时,具有更好的运行效率与可扩展性。
  (2)局部加权回归LWLR算法并行化改进。现有的并行L_WLR算法,在进行近邻搜索时,采取的是遍历数据集中所有对象的方法,使得算法的效率较低。针对这一问题,本文提出了一种基于改进近邻搜索策略的TLWLR算法,经实验表明,改进的T_LWLR算法具有良好的可扩展性,同现有的并行KNN-LWLR算法相比,T_LWLR算法具有更短的运行时间,算法的运行效率得到了提升。
  (3)基于云平台的数据挖掘分析系统的设计与实现。在改进的S_DBSCAN与T_LWLR算法的基础上设计并实现一个数据挖掘分析系统。用户可根据具体的应用场景,通过简单的参数配置来进行挖掘分析工作,并在系统中对改进的算法进行了具体的应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号