文摘
英文文摘
声明
第一章 引言
1.1课题研究目的和意义
1.2搜索引擎的发展历程及现状
1.2.1搜索引擎发展历程
1.2.2搜索引擎分类
1.3搜索引擎的基本框架及工作原理
第二章基于链接分析的网络爬虫算法
2.1网络爬虫介绍
2.1.1网络爬虫概述
2.1.2网络爬虫的基本组成及工作原理
2.2网络爬虫搜索策略的发展及现状
2.3注重网页质量的网络爬虫搜索策略
2.3.1 Pagerank
2.3.2 HITS
2.3.3 Backlink和OPIC
2.3.4几种搜索策略的分析比较
第三章理论基础及相关技术
3.1数据库的选择
3.2 Jeff Heaton Spider介绍
3.2.1 Jeff Heaton Spider体系结构
3.2.2各功能模块说明
3.2.3系统优缺点分析
3.3其他技术
3.3.1多线程
3.3.2连接池及声明池
第四章 爬行策略设计及实现
4.1 Web的结构分析
4.1.1超链的分析及分类
4.1.2 Web的网站目录组织形式
4.2数据库设计
4.3爬行策略设计
4.4 Spider的详细设计与实现
4.4.1本策略Spider的体系结构
4.4.2爬行模块
4.4.3数据处理模块
4.4.4数据记录模块
第五章实验结果
5.1实验环境
5.2实验结果及分析
第六章总结与展望
6.1总结
6.2展望
参考文献
致谢
研究成果及发表的学术论文
作者和导师简介