文摘
英文文摘
声明及关于论文使用授权的说明
1.绪论
1.1文本聚类概述
1.2基于统计的文本聚类
1.2.1文本的表示
1.2.2聚类算法
1.3潜在语义索引模型
1.4本论文的主要内容
2.向量空间模型
2.1向量空间模型概述
2.2向量空间模型的优缺点
3.隐含语义索引技术
3.1概述
3.2矩阵的奇异值分解
3.3 LSI技术的理论基础
3.3.1词—文档矩阵
3.3.2词—文档矩阵的奇异值分解
3.4基于LSI文本聚类的主要步骤
4.切词
4.1中文切词概述
4.1.1汉语自动切词的必要性[39]
4.1.2自动切词算法的分类
4.2一种改进的高效电子词表结构和快速切词算法
4.2.1中文字的编码体系
4.2.2文献【10】中的电子词表的数据结构和切词算法
4.3一种新的电子词表结构和切词算法
5.聚类算法
5.1聚类算法概述
5.1.1主要的聚类方法[34]
5.1.2聚类的划分方法[34]
5.2文本聚类算法
6.文本聚类系统的设计与实现
6.1系统设计
6.1.1系统功能结构设计
6.1.2界面设计
6.2模块设计
6.2.1预处理模块
6.2.2切词模块
6.2.3特征提取模块
6.2.4模型构建模块
6.2.5聚类模块
6.2.6维护模块
7.实验研究
7.1评估标准
7.2测试数据和实验结果
7.2.1单次试验结果展示
7.2.2综合试验数据分析
8.总结
致谢
参考文献