首页> 中文学位 >搜索引擎检索结果聚类方法的研究与改进
【6h】

搜索引擎检索结果聚类方法的研究与改进

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1研究背景与意义

1.2研究现状

1.3本文的主要研究工作

1.4论文结构

第2章搜索引擎及聚类分析

2.1搜索引擎工作原理

2.2向量空间模型

2.2.1向量空间

2.2.2文档表示

2.2.3相似性计算

2.3索引模型

2.4聚类算法

2.4.1层次型聚类算法

2.4.2划分型聚类算法

2.5文档聚类

2.6文档相似矩阵

2.7本章小结

第3章关键短语的抽取

3.1短语的意义

3.2分词与文档分析技术

3.2.1分词技术

3.2.2文档分析技术

3.3关键短语的抽取

3.3.1结果页面处理和初步切词

3.3.2关键短语的定义

3.3.3词汇处理

3.3.4建立倒排表

3.3.5关键短语的抽取

3.4实例

3.5本章小结

第4章相似性计算及聚类方法

4.1相似性的计算

4.2聚类方法

4.2.1 HPMC算法描述

4.2.2初始种子点的选择

4.2.3主体聚类过程

4.2.4合并基类

4.3聚类描述

4.4本章小结

第5章系统性能评估

5.1 HPMC算法评测

5.1.1空间和时间复杂度

5.1.2簇数目的确定

5.1.3簇相关性及孤立点的处理

5.1.4其他指标

5.2 HPMC与BSDFC算法对比分析

5.3本章小结

结论

参考文献

攻读硕士学位期间承担的科研任务与主要成果

致谢

作者简介

展开▼

摘要

目前,现有的搜索引擎虽然采用各种方法来提高检索结果的精度,但相关文档和不相关文档仍然相互混杂,给用户带来了负担。将搜索引擎返回结果进行聚类,将其分成若干个簇,同一簇内文档相关度尽可能的大,不同簇间文档相关度尽可能的小,这样将大大缩小用户所需浏览的结果数量,从而缩短用户查询所需要的时间。 首先,本文在特征项的抽取过程中,在短语层次上采用词典识别与统计方法相结合的方式,这样既可以识别常用词汇,又可以识别专业术语、缩略语、临时用语、新出现的用语等等往往不会在词典之中的词汇。对索引结构进行改进,文档的顺序表与倒排表共同作为索引,以使其更加适应对搜索引擎返回结果的聚类。 其次,给出一个快速聚类算法HPMC。在此方法中首先计算返回结果之间的相似性,然后使用层次聚类法产生初始种子点,利用k-means与Single pass相结合的算法进行聚类形成基类,通过合并基类最终得到聚类结果。 最后,对HPMC算法从时间复杂度、空间复杂度、聚类质量、聚类数目的形成、对孤立点的敏感程度等几个指标做了评估,并与已有的算法进行了比较。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号