声明
摘要
第一章 引言
第一节 研究背景
第二节 国内外研究现状
第三节 研究内容
1.3.1 研究目的
1.3.2 研究思路
1.3.3 论文组织结构
1.3.4 本文创新点
第二章 改进向量空间模型(VSM)计算文本之间相似性
第一节 向量空间模型(VSM)
2.1.1 向量空间模型(VSM)简介
2.1.2 使用TF-IDF表示文本的方法简介
2.1.3 使用余弦定理方法计算文本相似度
第二节 二元组特征表示方法
第三章 面向网页关键信息文本的词语筛选方法
第一节 实验数据简介及其所具有特点
3.1.1 实验数据简介
3.1.2 实验数据集特点分析
第二节 面向网页关键信息短文本的词语筛选方法介绍
3.2.1 词语筛选方法
3.2.2 词语筛选原理
第四章 顺序聚类算法
第一节 聚类及相关聚类算法简介
4.1.1 k-means聚类算法
4.1.2 层次聚类算法
第二节 搜索日志特点及其聚类难点
第三节 顺序聚类算法相关概念
第四节 顺序聚类算法流程
4.4.1 顺序聚类算法流程描述
4.4.2 顺序聚类算法伪代码
4.4.3 顺序聚类算法原理分析
4.4.4 顺序聚类算法时间复杂度分析
4.4.5 顺序聚类算法所解决的搜索日志聚类问题
第五章 实验部分
第一节 面向网页关键信息短文本的词语筛选方法相关实验
5.1.1 无意义且权重高的词语对相似性计算结果的影响
5.1.2 检验本文无意义词语筛选的准确性和有效性
5.1.3 验证本文词语筛选方法能使聚类效率得到提高
第二节 顺序聚类算法相关实验
5.2.1 顺序聚类算法聚类准确性
5.2.2 同一个文本聚类到多个类中的必要性
5.2.3 顺序聚类算法的聚类时间及聚类个数实验
5.2.4 顺序聚类算法、层次聚类算法AGNES对比实验
第三节 本章小结
第六章 总结与展望
第一节 本文工作总结
第二节 未来工作展望
参考文献
致谢
个人简历