基于Hadoop平台的数据挖掘分类算法分析与研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着互联网等技术的发展，数据的总量以及类型将会越来越丰富。收集、分析并运用这些丰富的数据，是如今和未来数据发展的一个主流。其中，对数据进行有效准确快速的分类，是首先需要解决的任务。传统的数据挖掘分类算法往往无法快速有效地处理大规模数据。Hadoop作为一个优秀的云计算平台，能够对海量数据进行高效、快速以及可靠的处理。
　　本文具体说明了Hadoop平台、数据挖掘及其分类的相关概念，然后深入分析了支持向量机（SVM）算法、K-近邻（KNN）算法以及朴素贝叶斯（NB）算法这三种性能优秀的数据挖掘分类算法，由于它们各种各样的缺点让分类的结果达不到理想的状态，因此本文对这三种分类算法进行了分析，并通过改变计算方式和加入权重系数等方式对算法进行改进，融合各种算法的优点，摒弃它们的缺点，提出了SVM_KNN分类算法以及SVM_WNB分类算法，以解决处理上的不足。同时在这个基础上本文介绍了算法并行化的可行性和思路，将提出的两种改进算法在Hadoop云计算平台上进行并行化地处理，使得算法可以对庞大的数据进行有效地处理。
　　最后通过实验可以发现，经过并行化处理后的算法在处理海量数据时，在处理时间和准确性上，都有了较大的提高，它们的加速比也在逐渐增大。因此可以得到结论，能够使用改进后的新算法处理大数据，并且可以预见分类效果将会得到显著的提升。

著录项

作者
李正杰;
展开▼
作者单位

南京邮电大学;

展开▼
授予单位南京邮电大学;
学科软件工程
授予学位硕士
导师姓名黄刚;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据挖掘; 支持向量机算法; K-近邻算法; 朴素贝叶斯算法; 并行化处理; Hadoop平台;

相似文献

中文文献
外文文献
专利

1. 基于数据挖掘的围绝经期综合征中医证候分类算法分析 [J] . 吴宏进 ,许家佗 ,张志枫 . 中国中医药信息杂志 . 2016,第001期
2. 面向烟草企业的数据挖掘中分类算法分析与量化研究 [J] . 王塑 ,张萍 ,周新 . 办公自动化（办公设备与耗材） . 2014,第009期
3. 数据挖掘技术的分类算法分析研究 [J] . 姜巍 . 电脑知识与技术 . 2009,第001期
4. 数据挖掘中分类算法分析与量化研究 [J] . 张原 ,高向阳 . 西北工业大学学报 . 2008,第006期
5. 基于Hadoop平台的海量数据挖掘算法的研究分析 [J] . 罗钊航 ,车宇 ,杨泽威 . 数字通信世界 . 2019,第007期
6. 一种基于Hadoop平台的海量Web数据挖掘系统研究与实现 [C] . ZHU Xiang ,朱湘 ,JIN Song-chang . 第九届中国通信学会学术年会 . 2012
7. Hadoop平台中作业调度算法分析与改进研究 [A] . 陈伟诚 . 2015

基于Hadoop平台的数据挖掘分类算法分析与研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅