首页> 中文学位 >网站信息按需采集系统中爬虫子系统的设计与实现
【6h】

网站信息按需采集系统中爬虫子系统的设计与实现

代理获取

目录

摘要

ABSTRACT

第一章 绪论

1.1 研究的背景

1.2 国内外研究现状

1.2.1 爬虫理论研究

1.2.2 爬虫的具体实现方法

1.3 研究的目的及意义

1.4 本文的主要研究内容

1.4.1 多任务管理和分配

1.4.2 爬虫间负载均衡和爬虫加入退出处理

1.4.3 并行爬虫的实现

1.5 论文的构成

第二章 关键技术研究

2.1 问题陈述

2.2 系统框架图

2.3 爬虫系统的任务流图

2.4 基础知识

2.4.1 IP地址

2.4.2 端口

2.4.3 端客户机和服务器

2.4.4 URL

2.4.5 HTTP协议

2.5 网页搜索引擎

2.5.1 搜索引擎的发展现状与趋势

2.5.2 搜索引擎的分类

2.5.3 搜索引擎的工作原理

2.5.4 网页搜索策略

2.6 网络爬虫的种类

2.7 网络爬虫的爬行策略

2.8 通信库

第三章 Master节点的设计与实现

3.1 Master节点功能概述

3.2 Master功能详细实现

3.2.1 任务下发

3.2.2 任务完成

3.2.3 Worker节点加入

3.2.4 Worker节点退出

3.3 任务调度算法

3.3.1 取模法

3.3.2 一致性Hash算法

第四章 Worker节点的设计

4.1 Worker节点概述

4.2 CrawlerManager设计

4.3 Crawler的设计

4.3.1 爬虫概述

4.3.2 爬虫搜索策略

4.3.3 爬虫搜索策略

第五章 结论与展望

5.1 爬虫测试

5.1.1 单系统效率测试

5.1.2 系统扩展性测试

5.1.3 爬虫健壮性测试

5.2 系统总结评价

参考文献

致谢

展开▼

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号