首页> 中文学位 >基于云计算的海量数据挖掘分类算法研究
【6h】

基于云计算的海量数据挖掘分类算法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 引言

1.1研究背景

1.2研究意义

1.3本论文工作

1.4本论文结构

第二章 云计算和数据挖掘相关理论综述

2.1云计算

2.2云计算的特点和分类

2.3云计算Hadoop平台简介

2.4云计算的应用

2.5数据挖掘理论知识

2.6本章小结

第三章 网络舆情分析系统的需求分析和系统设计

3.1网络舆情分析系统概述

3.2网络舆情分析系统功能需求及性能需求

3.3网络舆情分析系统设计

3.4网络舆情分析系统云计算环境的搭建

3.5本章小结

第四章 网络舆情分析系统分类模块设计

4.1系统分类模块的设计思想

4.2 MapReduce分布式计算模型设计

4.3 MapReduce模型上分类算法的执行框架

4.4 MapReduce模型上数据转换过程

4.5 Strategy模式详解

4.6 Strategy模式并行分类算法模块设计

4.7朴素贝叶斯算法的测试

4.8本章小结

第五章 SPRINT算法和k-NN算法的封装和测试

5.1 SPRINT分类算法的封装和测试

5.2 k-NN算法的封装与测试

5.3本章小结

第六章 总结与展望

6.1总结

6.2展望

致谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

随着数据存储量的急剧增加,海量数据处理和海量数据计算成为了数据挖掘领域中一个重要的问题。传统的串行数据挖掘算法往往只能够处理一些小规模的数据,当面对海量数据时,它们的执行速度会降低甚至无法运行,因此这对目前的数据挖掘提出了严峻的挑战和考验。而分类算法作为数据挖掘中极其重要的一个部分,在信息检索、网络搜索以及CRM等方面扮演着重要的角色。目前绝大多数的分类算法都是串行的,在处理大数据集时可行性差、效率低、分类准确率低的问题日益突出,导致了计算资源的不可估量以及执行时间的无限延长。
  现代社会所处理的数据是海量的,在云计算出现以前,在做数据挖掘时以往都期望用高性能机或者是更大规模的计算设备来进行处理;另外在海量数据的背景下,挖掘过程当中需要有很好的开发环境和应用环境,在这样的情况下,采用基于云计算的方式来进行数据挖掘是比较合适的。而且由于目前并行分类算法的缺少,大规模数据集日益庞大,传统的数据挖掘系统已经不能对这些海量数据进行高效挖掘和利用,如何提高算法的并行性和效率是目前亟需解决的问题。
  本论文以实验室粤港关键领域重点突破项目为基础,分析和研究了舆情分析系统项目中应用到的海量数据挖掘的相关技术。由于舆情分析系统处理的数据都来自因特网,每天需要处理的数据量非常庞大,要对这些海量数据集进行训练和分类,就必须保证舆情分析系统能维持在一个稳定、高效的环境。如何提高舆情分析系统分类的效率和性能,是本论文要解决的问题。
  本论文的先进性在于,分类算法在舆情分析系统中是非常重要的一部分,根据舆情分析系统的需求分析和系统设计,为舆情分析系统设计了一种基于Strategy模式的分类算法模块。并且设计了不同的并行分类算法,通过在MapReduce框架下对分类算法的封装,大大提高了算法的运行效率,使得分类算法的加速比接近于线性加速比。舆情分析系统根据这个算法模型,可以动态地调用不同的分类算法对舆情数据进行分类,提高了系统分类算法的性能和效率,从而大大提高了舆情分析系统的稳定性和可靠性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号