文摘
英文文摘
声明
第一章绪论
1.1选题背景和研究意义
1.2国内外研究现状
1.3本文的主要研究工作
1.4本文的组织结构
第二章文本聚类相关研究
2.1数据挖掘简介
2.2聚类方法概述
2.2.1平面划分方法
2.2.2基于层次的方法
2.2.3基于密度的方法
2.2.4基于网格的方法
2.2.5基于模型的方法
2.3相关工作
第三章系统的设计与实现
3.1设计思想和系统结构
3.1.1文档聚类的基本步骤
3.1.2文档表示
3.1.3特征项抽取
3.1.4应用聚类算法进行处理
3.1.5效果评价
3.1.6文档聚类系统的结构
3.2功能模块的详细实现
3.2.1文本预处理模块
3.2.2特征词提取算法
3.2.3文档向量化模块
3.2.4聚类模块
3.2.5聚类结果的输出
3.2.6聚类结果的评价方法
第四章实验结果与讨论
4.1系统开发环境及使用工具
4.1.1硬件环境
4.1.2编程语言和开发环境
4.2实验数据集
4.3实验分析
4.3.1显著性分值公式参数的确定
4.3.2不同向量维度对聚类结果的影响
4.3.3不同类型的文档类别对聚类结果的影响
4.3.4算法的时间复杂度
4.3.5类别主题词提取实验
4.3.6基于特征项显著性分值预测K值实验
4.3.7搜索引擎返回结果的聚类实验
4.3.8实验结果分析
第五章总结和展望
5.1本文所做工作的总结
5.2进一步的研究工作
参考文献
发表论文和参加科研情况说明
致 谢
天津大学;