首页> 中文学位 >一种基于Hadoop的KNN增量式算法的设计与实现
【6h】

一种基于Hadoop的KNN增量式算法的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 引言

第一节 背景与意义

第二节 相关研究

第三节 论文工作综述

第二章 Hadoop开源平台介绍

第一节 Hadoop平台综述

第二节 Hadoop文件系统---HDFS

第三节 Hadoop 平台的编程模型----MapReduce

第三章 Hadoop平台下KNN的增量式算法的研究

第一节 KNN算法的介绍

第二节 KNN算法的并行化分析

第三节 KNN增量式算法的改进分析

第四节 本章小节

第四章 KNN算法的增量式计算的设计与实现

第一节 KNN算法的增量式的整体结构设计

第二节 KNN的增量式计算数据处理框架

第三节 KNN算法的增量式计算整体设计

第四节 本章小节

第五章 实验及结果分析

第一节 实验目标

第二节 实验设计

第三节 实验结果分析

第四节 本章小结

第六章 总结与展望

第一节 本文总结

第二节 未来研究方向

参考文献

致谢

个人简历

展开▼

摘要

随着海量数据的急剧增长,数据的有效处理和计算成为目前亟待解决的问题。目前,由传统的机构结构化数据发展到大量半结构化、非结构化数据,这种趋势给传统的数据处理工具带来了很大的挑战。云计算技术是目前解决海量非传统数据的有效途径之一。云计算技术是将各种软硬件资源统一放到一个公共的资源池中;应用的个人和单位完全透明地根据需要获取云计算模型中的计算力、存储空间等服务。其中,Hadoop平台是当前广泛应用于云计算环境中的处理大规模海量数据的典型的开源分布式处理系统。Hadoop平台易于编程的MapReduce并行模式被大量应用到数据挖掘、信息处理和推荐系统中。
  增量式计算是伴随海量数据处理产生的一种数据处理方式,该计算模式核心是尽可能用小的计算量来完成尽可能多得计算任务。其中表现在二次数据计算过程中,尽可能地利用之前初次数据计算的结果;二次计算仅针对原始数据变化的部分进行计算,最大限度的整合、重用初次计算结果,最终得到最终的二次计算结果,实现对海量数据的高效处理。
  本文通过分析增量计算的特点和Hadoop平台框架的优劣,选取了数据挖掘领域中常见的KNN分类算法进行并行化,同时针对KNN算法结构进行了Hadoop平台增量计算改造,提出了一种基于Hadoop平台的KNN算法的增量计算。本文中着重针对KNN增量计算特征对Hadoop进行源码级别的改造,而应用层对次改造完全透明。通过选取数据集与原始 Hadoop平台进行对比,结果表明基于Hadoop平台的KNN分类增量计算能够取得和原始Hadoop平台相同的实验结果数据,这能够很好地证明KNN增量改进型的Hadoop平台设计的正确性,同时减少了在增量KNN分类算法下的计算代价,节省了计算资源,提高了计算效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号