首页> 中文学位 >一种改进Best-First算法的主题爬虫搜索算法研究
【6h】

一种改进Best-First算法的主题爬虫搜索算法研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1选题背景及研究意义

1.2研究现状及难点问题

1.3主要研究内容

1.4论文的组织和安排

2 相关理论与技术

2.1网络爬虫基本原理

2.2主题爬虫工作流程

2.3主题描述

2.4网页预处理

2.5本章小结

3 基于页面内容评价的Best-First算法

3.1概述

3.2 Best-First算法

3.3 改进Best-First算法

3.4本章小结

4 实验及结果分析

4.1评价标准

4.2实验分析

4.3本章小结

5 总结和展望

5.1 总结

5.2展望

致谢

参考文献

附录 A. 作者在攻读学位期间发表的论文目录

展开▼

摘要

飞速发展的互联网带来了海量的信息资源,用户能否从中有效地获取自己感兴趣的资源很大程度上取决于搜索引擎的性能。在面对用户强烈的个性化需求时,通用搜索引擎难以为其提供满意的结果。为了打破通用搜索引擎的这一局限性,研究具有专业特点的智能化搜索引擎成为一种趋势,因而顺理成章的诞生了垂直搜索引擎。垂直搜索引擎中的主题爬虫犹如人的心脏一样,起着非常基础与关键的作用。主题爬虫按照用户给定的目标主题,智能化的搜索Web,快速、准确地提取出主题相关页面,满足用户所需。研究高效的主题爬虫对于提高垂直搜索引擎的性能有着非常重要的作用。
  本文主要从以下三个方面展开所要研究的内容:
  首先,本文对网络爬虫的基本原理进行了介绍,然后分析了主题爬虫的工作流程,之后讨论了关于主题的描述方法,接着重点分析了网页预处理技术,包括HTML标签、网页标题和正文内容的提取、锚文本的提取以及中文分词技术,为后文主题相关性计算奠定了坚实的基础。
  其次,分析了基于页面内容评价的Best-First算法,针对向量空间模型中权重计算方法,只考虑特征词的词频,忽略了特征词的位置信息这一不足,本文提出利用HTML标签的修饰功能,采用加权频率来计算权重,提高主题相关性判断的准确率。另外,讨论了Best-First算法的贪婪性,针对Best-First算法难以获得全局范围内最优解的局限性,本文对主题爬虫的搜索策略做了一点改进,提出不仅注重搜索与主题相似度很高的链接,同时还考虑某些蕴涵很大远期价值的链接,从而使得主题爬虫能在一定程度上获得全局范围的最优解。
  最后,本文通过上述分析的理论基础,设计并实现了一个简单的主题爬虫系统。实验结果表明,相比于宽度优先搜索算法和基于页面内容评价的传统的Best-First算法,本文提出的改进算法具有更高的准确率和召回率,它是有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号