搜索引擎检索结果聚类方法的研究与改进

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前，现有的搜索引擎虽然采用各种方法来提高检索结果的精度，但相关文档和不相关文档仍然相互混杂，给用户带来了负担。将搜索引擎返回结果进行聚类，将其分成若干个簇，同一簇内文档相关度尽可能的大，不同簇间文档相关度尽可能的小，这样将大大缩小用户所需浏览的结果数量，从而缩短用户查询所需要的时间。首先，本文在特征项的抽取过程中，在短语层次上采用词典识别与统计方法相结合的方式，这样既可以识别常用词汇，又可以识别专业术语、缩略语、临时用语、新出现的用语等等往往不会在词典之中的词汇。对索引结构进行改进，文档的顺序表与倒排表共同作为索引，以使其更加适应对搜索引擎返回结果的聚类。其次，给出一个快速聚类算法HPMC。在此方法中首先计算返回结果之间的相似性，然后使用层次聚类法产生初始种子点，利用k-means与Single pass相结合的算法进行聚类形成基类，通过合并基类最终得到聚类结果。最后，对HPMC算法从时间复杂度、空间复杂度、聚类质量、聚类数目的形成、对孤立点的敏感程度等几个指标做了评估，并与已有的算法进行了比较。

著录项

作者
李培德;
展开▼
作者单位

燕山大学;

展开▼
授予单位燕山大学;
学科计算机应用技术
授予学位硕士
导师姓名贾彦国;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
搜索引擎; 检索结果; 聚类; 关键短语; 簇;

相似文献

中文文献
外文文献
专利

1. 基于超链接信息的搜索引擎检索结果聚类方法研究 [J] . 夏斌 ,徐彬 . 电脑开发与应用 . 2007,第005期
2. Web检索结果快速聚类方法的研究与实现 [J] . 王志梅 ,张俊林 ,李秋山 . 计算机工程与设计 . 2004,第012期
3. 基于改进谱聚类方法的搜索引擎排序算法 [J] . 白亮 ,于天元 ,刘湜 . 计算机科学 . 2016,第010期
4. 搜索引擎检索结果网页组织技术与优化策略研究 [J] . 徐昊 ,曾驰 . 太原城市职业技术学院学报 . 2016,第012期
5. 2002～2007年国外对搜索引擎检索结果研究综述 [J] . 曹超 . 图书情报知识 . 2009,第001期
6. 一种新的Web检索结果聚类方法 [C] . 肖欣延 ,张东站 ,高君杰 . 第二届中国分类技术及应用学术会议 . 2007
7. 元搜索引擎检索结果聚类技术的研究与改进 [A] . 丁进标 . 2010

搜索引擎检索结果聚类方法的研究与改进

目录

摘要

著录项

相似文献

相关主题

期刊订阅