声明
摘要
第一章 绪论
1.1 课题研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.3 研究内容和主要工作
1.4 论文组织结构
第二章 Hadoop平台和文本分类概述
2.1 Hadoop概述
2.1.1 MapReduce
2.1.2 HDFS
2.2 Hadoop平台搭建
2.3 文本分类概述
2.4 本章小结
第三章 基于MapReduce的文本预处理方法
3.1 文本预处理流程
3.1.1 文本集合
3.1.2 中文分词和去停用词
3.1.3 特征选择
3.1.4 文本表示
3.2 基于MapReduce的文本预处理方法实现
3.2.1 语料库预处理
3.2.2 语料库在HDFS中的存储策略
3.2.3 基于MapReduce的特征选择算法
3.2.4 基于MapReduce的TFIDF算法
3.3 实验结果及分析
3.4 本章小结
第四章 基于MapReduce的SKNN分类算法
4.1 KNN分类算法
4.1.1 KNN分类算法概述
4.1.2 KNN分类算法的改进
4.2 划分子类的SKNN分类算法
4.2.1 算法的基本思想
4.2.2 算法正确性分析
4.2.3 算法时间复杂度分析
4.3 基于MapReduce的SKNN分类算法实现
4.4 实验结果及分析
4.4.1 SKNN分类算法准确度和分类速度测试实验
4.4.2 参数K和S对SKNN分类结果的影响实验
4.4.3 Hadoop上SKNN的性能测试实验
4.5 本章小结
第五章 总结与展望
5.1 全文总结
5.2 研究展望
参考文献
致谢