声明
摘要
第1章 绪论
1.1 问题提出
1.2 Web文本挖掘存在的问题及本文研究内容
1.2.1 Web文档获取存在的问题
1.2.2 文档聚类存在的问题
1.2.3 本文研究内容
1.3 本文结构
第2章 相关理论研究
2.1 中文文本预处理
2.1.1 分词
2.1.2 向量空间模型
2.1.3 特征词选择及维度约减
2.1.4 基于PLSA的语义向量表示
2.2 相似度计算
2.3 文本聚类
2.3.1 文本聚类定义
2.3.2 文本聚类算法
2.4 本章小结
第3章 Web文档采集与处理技术
3.1 Web文档抓取及其预处理
3.1.1 Web文档的抓取
3.1.2 Web文档的预处理
3.1.3 去除HTML标签
3.1.4 主体数据块识别
3.2 Web文本解析相关技术及实现
3.2.1 网页内容解析
3.2.2 网页解析算法及实现
3.3 本章小结
第4章 语义引力相似度计算模型
4.1 问题描述
4.2 语义引力相似度相关定义
4.3 基于语义引力的数据相似度计算方法
4.4 本章小结
第5章 语义引力文本聚类算法
5.1 文本向量引力空间模型
5.1.1 空间模型的定义
5.1.2 空间模型的构建
5.2 语义引力聚类算法总体思想
5.2.1 文本向量引力密度分布
5.2.2 聚类过程参数设置及优化
5.3 文本聚类描述
5.4 本章小结
第6章 实验结果分析
6.1 相似度计算方法的比较
6.2 聚类方法的比较
6.3 高维文本数据集实验分析
6.3.1 相似度计算方法的比较
6.3.2 聚类方法的比较
6.4 Web文本聚类实验分析
6.4.1 语义引力相似度在Web文本聚类的应用分析
6.4.2 Web文本聚类实验分析
6.5 影响因素
6.5.1 实验语料
6.5.2 参数选择对聚类结果的影响
6.5.3 数据分布特点对聚类结果的影响
6.5.4 潜在语义对聚类结果的影响
6.6 本章小结
第7章 结论
7.1 本文的主要贡献与结论
7.2 进一步的工作
参考文献
致谢
攻硕期间参与项目及发表的论文