声明
摘要
1.1 研究目的与意义
1.2 相关研究现状
1.2.1 文本表示模型
1.2.2 文档的压缩表示技术
1.2.3 文本语义特征提取
1.2.4 文本聚类方法
1.3 研究内容与主要工作
1.4 本文结构
第2章 文本表示与文本粗分类的理论基础
2.1 引言
2.2 文本表示模型
2.2.1 布尔模型
2.2.2 向量空间模型
2.3 数字指纹
2.3.1 哈希函数
2.3.2 Simhash算法
2.4 文本主题语义抽取
2.4.1 潜在语义分析
2.4.2 LDA主题模型
2.5 文本聚类
2.5.1 K-means聚类算法
2.5.2 文本相似度计算
2.5.3 聚类算法评价
2.6 本章小结
第3章 语义指纹提取与文档粗分类方法
3.1 引言
3.2 基于潜在语义分析的文本指纹提取方法
3.2.1 文本特征提取
3.2.2 潜在语义空间构造
3.2.3 指纹提取原理及算法
3.2.4 指纹相似度计算
3.3 基于融合表示的文档粗分类算法
3.3.1 梗概主题抽取
3.3.2 文档的融合表示与相似度计算
3.3.3 K-means聚类算法的改进
3.3.4 文档粗分类算法
3.4 基于原型的文档分类
3.4.1 原型的概念
3.4.2 集外文档的表示
3.4.3 文档分类算法
3.5 本章小结
4.1 引言
4.2 数据选取与预处理
4.3 指纹有效性实验
4.3.1 实验数据与设计
4.3.2 文本相似度实验结果与分析
4.3.3 K-means聚类结果与分析
4.4 文档集的粗分类
4.4.1 实验数据与设计
4.4.2 短文本主题抽取
4.4.3 权值α的选取
4.4.4 分类结果比较与分析
4.5 原型有效性实验
4.5.1 实验设计
4.5.2 评价标准
4.5.3 结果分析
4.6 本章小结
结论
参考文献
攻读硕士学位期间发表的论文
致谢