首页> 中文学位 >WEB搜索引擎中信息采集技术的研究与改进
【6h】

WEB搜索引擎中信息采集技术的研究与改进

代理获取

目录

文摘

英文文摘

第一章序言

1.1 WEB的发展

1.2 WEB搜索引擎的发展

1.3研究目标

1.3.1改进Web搜索引擎信息采集性能

1.3.2促进搜索引擎技术的研究和提高

1.4论文作者的工作

1.5论文结构

第二章WEB搜索引擎及其信息采集技术

2.1搜索引擎的分类

2.1.1按工作力式划分

2.1.2按检索内容划分

2.1.3其它的分类方法

2.2搜索引擎的系统结构

2.3 WEB搜索引擎的信息采集技术

2.3.1基本机制

2.3.2搜寻程序专用协议

2.3.3搜索程序设计中需要考虑的几个问题

第三章主要搜寻算法及其分析

3.1搜寻算法的衡量标准

3.2主要搜寻算法简介

3.2.1BackLink算法

3.2.2 PageRank算法

3.3主要搜寻算法在搜寻程序中的实现

3.4主要搜寻算法的比较

3.5页面下载效率

第四章集中式搜寻算法

4.1集中式搜寻简介

4.2集中式搜寻程序的系统结构

4.3集中式搜寻算法的研究现状

4.3.1HIT算法

4.3.2 Context Graph算法

4.3.3小结

第五章均值-传递算法

5.1专题的表示

5.1.1向量空间模型

5.1.2专题特征词的获取

5.1.3分词中的专有词汇获取机制

5.2相关度的预测

5.2.1均值模型

5.2.2传递模型

5.2.3 均值——传递模型

5.2.4相关度验证和反馈

5.2.5相关度的计算

5.3隧道效应和搜寻极限

5.3.1隧道效应的集中度自适应解决方法

5.3.2搜寻极限的判断

5.4辅助搜寻策略

5.4.1网站的专题相关度判断

5.4.2待访问URL队列的裁减

第六章试验与结果分析

6.1试验简介

6.1.1前期工作

6.1.2试验设备情况

6.2试验结果与讨论

6.3小结

第七章总结与展望

参考文献

附录

致谢

独创性声明

展开▼

摘要

该论文主要研究Web搜索引擎的信息采集技术,重点为WWW搜寻算法.在对现有主要算法如广度优先算法、Backlink算法和PageRank算法进行分析比较的基础上,认为这几个算法没有考虑页面内容因素,比较适合于通用搜索引擎,而对于专题性搜索引擎来说,集中式搜寻算法更为有效.HITS算法、Context Graph算法是集中式搜寻算法的典型代表,但它们都存在着计算量大的缺点.Context Graph算法还需要巨大的训练页面集来产生上下文关系图,使得它们的实用性都大大降低.针对现有WEB搜寻算法的不足,该文认为采取页面内容分析和超链分析相结合的方法可以提高信息采集效率,提出了一个新的集中搜寻算法-均值-传递算法,用相关度来表示页面与专题的相关程度,用链接权重来表示链接环境对页面相关度的影响,采用均值-传递模型来预测页面相关度.在文章中,还针对集中式搜寻中的隧道效应等问题进行了探讨,提出了集中度自适应方法等辅助搜寻策略来进一步提高搜寻效率.通过对不同算法的分析和试验比较,在采集与某一专题相关的页面时,集中式搜寻算法比一般搜寻算法的相关页面采集效率要高的多,说明对专题型搜索引擎来说,集中式搜寻算法是一个非常好的选择.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号