声明
1.引 言
1.1 研究背景及意义
1.2 国内外的研究现状
1.3 论文的主要研究工作
1.4 论文的组织结构
2.Hadoop平台概述
2.1 Hadoop平台的背景
2.2 Hadoop的分布式文件系统
2.3 Hadoop的分布式计算模型
2.4 Hadoop新版本的特性
2.5本章小结
3.文本聚类技术
3.1 文本聚类
3.2 分词技术
3.3 文本特征表示
3.4 文本特征降维
3.5 相似度计算方法
3.6 文本聚类算法
3.7 本章小结
4.文本聚类算法研究与优化
4.1 K-Means算法
4.2 Canopy算法
4.3 改进的Canopy-K-Means算法
4.4 本章小结
5.算法的并行设计与实现
5.1 改进算法的并行设计
5.2 K-Means算法的并行设计
5.3 K-Means算法的并行实现
5.4 Canopy算法的并行设计
5.5 Canopy算法的并行实现
5.6 TF-IDF 并行实现
5.7 改进的距离测度方法的实现
5.8 本章小结
6.实验和分析
6.1 实验环境的搭建
6.2 实验数据集与评价标准
6.3 实验结果与分析
6.4 本章小结
7.总结与展望
7.1 总结
7.2 展望
参考文献
后记
致谢
在读期间科研成果目录