首页> 中文学位 >基于网站目录及链接关系的Spider爬行策略的研究与实现
【6h】

基于网站目录及链接关系的Spider爬行策略的研究与实现

代理获取

目录

文摘

英文文摘

声明

第一章 引言

1.1课题研究目的和意义

1.2搜索引擎的发展历程及现状

1.2.1搜索引擎发展历程

1.2.2搜索引擎分类

1.3搜索引擎的基本框架及工作原理

第二章基于链接分析的网络爬虫算法

2.1网络爬虫介绍

2.1.1网络爬虫概述

2.1.2网络爬虫的基本组成及工作原理

2.2网络爬虫搜索策略的发展及现状

2.3注重网页质量的网络爬虫搜索策略

2.3.1 Pagerank

2.3.2 HITS

2.3.3 Backlink和OPIC

2.3.4几种搜索策略的分析比较

第三章理论基础及相关技术

3.1数据库的选择

3.2 Jeff Heaton Spider介绍

3.2.1 Jeff Heaton Spider体系结构

3.2.2各功能模块说明

3.2.3系统优缺点分析

3.3其他技术

3.3.1多线程

3.3.2连接池及声明池

第四章 爬行策略设计及实现

4.1 Web的结构分析

4.1.1超链的分析及分类

4.1.2 Web的网站目录组织形式

4.2数据库设计

4.3爬行策略设计

4.4 Spider的详细设计与实现

4.4.1本策略Spider的体系结构

4.4.2爬行模块

4.4.3数据处理模块

4.4.4数据记录模块

第五章实验结果

5.1实验环境

5.2实验结果及分析

第六章总结与展望

6.1总结

6.2展望

参考文献

致谢

研究成果及发表的学术论文

作者和导师简介

展开▼

摘要

随着互联网(Internet)近几年来的飞速发展,互联网上提供的信息也呈现爆炸式的增长态势,面对Web信息以几何级数不断增长的情况,如何能够快速获取对用户更有价值的、更有质量的信息便成为了研究的热点之一。网络机器人Spider是整个搜索引擎系统的重要组成部分,它是搜索引擎的数据来源,Spider的效率决定着整个搜索引擎系统的内容质量的高低、信息能否及时的更新。 本文首先从搜索引擎的发展和种类出发,研究了搜索引擎的基本组成工作原理和网络机器人的组成体系结构,重点分析了基于网页质量研究的网络机器人的爬行策略。通过对Web结构上的挖掘分析,结合对链接种类的分析,设计了一种新的针对高质量网页及潜在的高质量网页为爬行目标的网络机器人爬行策略。本文的主要研究内容主要包括以下几个方面: 1.通过对一般网络机器人的体系结构的分析,以及对Jeff Heaton Spider开源爬虫的研究,提出了本文所设计的网络爬虫的体系结构。 2.对基于网页质量优先爬行的几种网络机器人爬行策略进行了分析和比较。 3.对Web的结构形式进行了分析,结合对网页间链接的分类研究,提出针对高质量网页和潜在高质量网页为目标的网络机器人爬行策略。 4.通过对实验数据进行分析,并与Backlink算法网络机器人进行比较,证明了本文所设计的爬行方案的可行性和必要性。 5.对运行结果和下一步本课题的实现内容做了分析和简单的展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号