首页> 中文学位 >网络搜索引擎中检索器检索方法研究
【6h】

网络搜索引擎中检索器检索方法研究

代理获取

目录

文摘

英文文摘

声明

第1章前言

1.1研究背景

1.2研究现状

1.3研究内容

1.4组织结构

第2章信息检索技术相关知识

2.1信息检索模型

2.1.1布尔模型

2.1.2向量模型

2.1.3概率模型

2.1.4隐含语义索引模型

2.2信息检索系统工作原理

2.3搜索引擎的主要技术

2.3.1搜索器

2.3.2索引器

2.3.3检索器

2.3.4用户接口

2.4搜索引擎的性能指标

2.5搜索引擎的发展趋势

第3章主要文本检索算法研究

3.1引言

3.2基于内容的信息检索

3.2.1词条频率的检索方法

3.2.2词条位置信息检索方法

3.3基于超链接分析的检索

3.3.1 PageRank算法

3.3.2 HITS算法

3.4基于融合的检索

3.4.1基于内容和超链分析的融合检索

3.4.2基于分类的检索

3.5小结

第4章SAHITS算法研究

4.1引言

4.2 HITS算法

4.2.1 HITS算法的相关概念

4.2.2 HITS算法的基本思想

4.2.3 HITS算法的缺陷

4.3改进的HITS算法—SAHITS算法

4.3.1算法改进思想

4.3.2 SAHITS算法的实现

4.3.3 SAHITS算法描述

4.4小结

第5章实验及其分析

5.1实验环境

5.2实验系统设计

5.2.1系统结构

5.2.2主要技术

5.3性能测试及实验分析

5.4小结

第6章总结

6.1主要工作

6.2主要创新点

6.3进一步的工作和展望

参考文献

致谢

个人简历

展开▼

摘要

随着互联网技术的迅速发展,网上信息数量成指数级增长,如何有效地检索这些海量信息成为当前研究的重要课题。在搜索引擎系统中,检索器检索方法的选择在很大程度上影响了搜索结果,因此如何提供一种有效的检索机制成为搜索引擎技术的研究热点。本文主要介绍了信息检索的相关技术,分析了基于内容的检索算法、基于超链接分析的检索算法以及融合的检索算法及特点,总结出传统检索算法中存在的一些问题。针对其中的一些问题,提出了一种基于超链接和链接描述文档的选择扩展检索算法(简称SAHITS算法)。该算法针对HITS算法只对超链接进行分析而完全忽略文本内容,容易产生主题漂移(Topic Drift)现象等缺陷,对HITS算法从根集的选取、根集的选择性扩展和超链接描述文档的相关度判定等三个方面做了改进。最后,本文在信息检索算法的基础上,结合所提出的改进算法,采用JaVa语言模拟实现了一个HITS算法和SAHITS算法的比较系统。实验表明,SAHITS算法具有较好的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号