首页> 中文学位 >数据挖掘相关算法研究及其在云计算中的并行化
【6h】

数据挖掘相关算法研究及其在云计算中的并行化

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景及意义

1.2课题来源

1.3本文工作

1.4本文结构

第二章 相关背景知识介绍

2.1数据挖掘及其相关算法

2.2云计算概述

2.3 Hadoop

2.4 Openstack

2.5本章小结

第三章 云计算环境下的一种改进的贝叶斯文本分类算法

3.1问题分析

3.2贝叶斯分类器

3.3朴素贝叶斯算法的缺陷

3.4贝叶斯算法的并行可行性

3.5基于朴素贝叶斯算法的改进

3.6云计算环境下的分类算法并行化

3.7云平台上的实验结果及分析

3.8本章小结

第四章 云计算环境下的一种关联分析算法

4.1问题分析

4.2传统Apriori算法

4.3传统Apriori算法的瓶颈及并行化尝试

4.4 ST-Apriori算法

4.5 ST-Apriori算法应用于MapReduce

4.6云平台上的实验结果与分析

4.7本章小结

第五章 一种基于社交网络的音乐推荐方法

5.1问题分析

5.2基于社交网络的音乐推荐

5.3推荐过程

5.4本章小结

第六章 一种弹性的云数据挖掘平台

6.1问题分析

6.2解决方案

6.3流程分析

6.4系统功能实现

6.5系统效果演示

6.6本章小结

第七章 总结与展望

7.1总结

7.2展望

参考文献

附录1 程序清单

附录2 攻读硕士学位期间撰写的论文

附录3 攻读硕士学位期间申请的专利

附录4 攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

近年来,大数据的概念越来越受到人们的关注,而海量数据挖掘技术作为大数据的基础也变得越发重要。将传统的数据挖掘算法进行相应的改造,将其部署到云计算平台之上是解决海量数据挖掘问题的最好的方法。其本质是通过并行化技术来提升数据挖掘的计算速度和存储量,以应对单机无法处理的数据挖掘任务,但是并行化对算法本身的挖掘精确度却并无影响。在传统的数据挖掘技术中,有许多改进原始算法精确度的研究,然而这些改进后的算法大多数都使得复杂度非常高,难以适应并行话计算。因此,如何平衡精确性和计算速度,针对云计算环境对传统数据挖掘算法进行合适的改进也就成为了一个重要的研究课题。
  本文首先分析了大数据时代下现有的数据挖掘技术所面临的瓶颈以及现有的研究成果。然后,分别研究了贝叶斯分类、Apriori关联规则数据挖掘算法的并行化,针对每个算法各自的机制和特性,对算法本身进行相应的改进并为其设计相应的并行化方案。
  在分类算法中加入了同义词合并和词频过滤等方法使得向量维数降低,减少了误判。然后对其中特殊的

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号