首页> 中文学位 >基于Hadoop平台的数据挖掘分类算法分析与研究
【6h】

基于Hadoop平台的数据挖掘分类算法分析与研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题背景与研究意义

1.2 研究现状

1.3 论文的研究内容

1.4 论文的组织结构

1.5 本章小结

第二章 Hadoop平台和数据挖掘及其分类概述

2.1 Hadoop平台

2.2 分布式文件系统HDFS

2.3 并行计算模式MapReduce

2.4 数据挖掘

2.5 数据挖掘的分类

2.6 本章小结

第三章 SVM_KNN分类算法的研究与实现

3.1 支持向量机(SVM)算法

3.2 K-近邻(KNN)算法

3.3 SVM_KNN分类算法

3.4 本章小结

第四章 SVM_WNB分类算法的研究与实现

4.1 朴素贝叶斯(NB)分类算法

4.2 SVM_WNB分类算法

4.3 本章小结

第五章 基于Hadoop平台的算法并行化处理及实验分析

5.1 SVM_KNN分类算法的并行化处理

5.2 SVM_WNB分类算法的并行化处理

5.3 实验分析

5.4 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

附录1 攻读硕士学位期间撰写的论文

附录2 攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

随着互联网等技术的发展,数据的总量以及类型将会越来越丰富。收集、分析并运用这些丰富的数据,是如今和未来数据发展的一个主流。其中,对数据进行有效准确快速的分类,是首先需要解决的任务。传统的数据挖掘分类算法往往无法快速有效地处理大规模数据。Hadoop作为一个优秀的云计算平台,能够对海量数据进行高效、快速以及可靠的处理。
  本文具体说明了Hadoop平台、数据挖掘及其分类的相关概念,然后深入分析了支持向量机(SVM)算法、K-近邻(KNN)算法以及朴素贝叶斯(NB)算法这三种性能优秀的数据挖掘分类算法,由于它们各种各样的缺点让分类的结果达不到理想的状态,因此本文对这三种分类算法进行了分析,并通过改变计算方式和加入权重系数等方式对算法进行改进,融合各种算法的优点,摒弃它们的缺点,提出了SVM_KNN分类算法以及SVM_WNB分类算法,以解决处理上的不足。同时在这个基础上本文介绍了算法并行化的可行性和思路,将提出的两种改进算法在Hadoop云计算平台上进行并行化地处理,使得算法可以对庞大的数据进行有效地处理。
  最后通过实验可以发现,经过并行化处理后的算法在处理海量数据时,在处理时间和准确性上,都有了较大的提高,它们的加速比也在逐渐增大。因此可以得到结论,能够使用改进后的新算法处理大数据,并且可以预见分类效果将会得到显著的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号