文摘
英文文摘
声明
第1章绪论
1.1研究背景与意义
1.2研究现状
1.3本文的主要研究工作
1.4论文结构
第2章搜索引擎及聚类分析
2.1搜索引擎工作原理
2.2向量空间模型
2.2.1向量空间
2.2.2文档表示
2.2.3相似性计算
2.3索引模型
2.4聚类算法
2.4.1层次型聚类算法
2.4.2划分型聚类算法
2.5文档聚类
2.6文档相似矩阵
2.7本章小结
第3章关键短语的抽取
3.1短语的意义
3.2分词与文档分析技术
3.2.1分词技术
3.2.2文档分析技术
3.3关键短语的抽取
3.3.1结果页面处理和初步切词
3.3.2关键短语的定义
3.3.3词汇处理
3.3.4建立倒排表
3.3.5关键短语的抽取
3.4实例
3.5本章小结
第4章相似性计算及聚类方法
4.1相似性的计算
4.2聚类方法
4.2.1 HPMC算法描述
4.2.2初始种子点的选择
4.2.3主体聚类过程
4.2.4合并基类
4.3聚类描述
4.4本章小结
第5章系统性能评估
5.1 HPMC算法评测
5.1.1空间和时间复杂度
5.1.2簇数目的确定
5.1.3簇相关性及孤立点的处理
5.1.4其他指标
5.2 HPMC与BSDFC算法对比分析
5.3本章小结
结论
参考文献
攻读硕士学位期间承担的科研任务与主要成果
致谢
作者简介