一种基于Hadoop的KNN增量式算法的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着海量数据的急剧增长，数据的有效处理和计算成为目前亟待解决的问题。目前，由传统的机构结构化数据发展到大量半结构化、非结构化数据，这种趋势给传统的数据处理工具带来了很大的挑战。云计算技术是目前解决海量非传统数据的有效途径之一。云计算技术是将各种软硬件资源统一放到一个公共的资源池中；应用的个人和单位完全透明地根据需要获取云计算模型中的计算力、存储空间等服务。其中，Hadoop平台是当前广泛应用于云计算环境中的处理大规模海量数据的典型的开源分布式处理系统。Hadoop平台易于编程的MapReduce并行模式被大量应用到数据挖掘、信息处理和推荐系统中。
　　增量式计算是伴随海量数据处理产生的一种数据处理方式，该计算模式核心是尽可能用小的计算量来完成尽可能多得计算任务。其中表现在二次数据计算过程中，尽可能地利用之前初次数据计算的结果；二次计算仅针对原始数据变化的部分进行计算，最大限度的整合、重用初次计算结果，最终得到最终的二次计算结果，实现对海量数据的高效处理。
　　本文通过分析增量计算的特点和Hadoop平台框架的优劣，选取了数据挖掘领域中常见的KNN分类算法进行并行化，同时针对KNN算法结构进行了Hadoop平台增量计算改造，提出了一种基于Hadoop平台的KNN算法的增量计算。本文中着重针对KNN增量计算特征对Hadoop进行源码级别的改造，而应用层对次改造完全透明。通过选取数据集与原始 Hadoop平台进行对比，结果表明基于Hadoop平台的KNN分类增量计算能够取得和原始Hadoop平台相同的实验结果数据，这能够很好地证明KNN增量改进型的Hadoop平台设计的正确性，同时减少了在增量KNN分类算法下的计算代价，节省了计算资源，提高了计算效率。

著录项

作者
陈天龙;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科计算机应用技术
授予学位硕士
导师姓名杨愚鲁;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
云计算; Hadoop平台; 数据挖掘; 数据处理; 增量计算;

相似文献

中文文献
外文文献
专利

1. 一种基于KNN算法的手写数字分类器的设计与实现 [J] . 汤晓武 . 信息通信 . 2020,第010期
2. 基于Hadoop平台的并行kNN网络舆情分类算法 [J] . 杜少波 . 电视技术 . 2018,第003期
3. 基于Hadoop平台的改进KNN分类算法并行化处理 [J] . 马莹 ,赵辉 ,崔岩 . 长春工业大学学报（自然科学版） . 2018,第005期
4. 基于Hadoop平台的SVM KNN分类算法的研究 [J] . 李正杰 ,黄刚 . 计算机技术与发展 . 2016,第003期
5. 基于遗传算法优化的增量式PID控制器设计与实现 [J] . 莫兴福 ,李沙 . 现代信息科技 . 2020,第003期
6. 基于HADOOP的增量式FP_TREE算法 [C] . 宁慧聪 ,邵秀丽 . 第二届信息、电子与计算机工程国际学术会议 . 2010
7. 基于Hadoop的SKNN文本分类算法的设计与实现 [A] . 金鹏 . 2013

一种基于Hadoop的KNN增量式算法的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅