首页> 中文学位 >网站信息按需采集系统中爬虫子系统的设计与实现

【6h】

网站信息按需采集系统中爬虫子系统的设计与实现

代理获取

页面导航

目录
著录项
相似文献
相关主题

目录

摘要

ABSTRACT

第一章绪论

1.1 研究的背景

1.2 国内外研究现状

1.2.1 爬虫理论研究

1.2.2 爬虫的具体实现方法

1.3 研究的目的及意义

1.4 本文的主要研究内容

1.4.1 多任务管理和分配

1.4.2 爬虫间负载均衡和爬虫加入退出处理

1.4.3 并行爬虫的实现

1.5 论文的构成

第二章关键技术研究

2.1 问题陈述

2.2 系统框架图

2.3 爬虫系统的任务流图

2.4 基础知识

2.4.1 IP地址

2.4.2 端口

2.4.3 端客户机和服务器

2.4.4 URL

2.4.5 HTTP协议

2.5 网页搜索引擎

2.5.1 搜索引擎的发展现状与趋势

2.5.2 搜索引擎的分类

2.5.3 搜索引擎的工作原理

2.5.4 网页搜索策略

2.6 网络爬虫的种类

2.7 网络爬虫的爬行策略

2.8 通信库

第三章 Master节点的设计与实现

3.1 Master节点功能概述

3.2 Master功能详细实现

3.2.1 任务下发

3.2.2 任务完成

3.2.3 Worker节点加入

3.2.4 Worker节点退出

3.3 任务调度算法

3.3.1 取模法

3.3.2 一致性Hash算法

第四章 Worker节点的设计

4.1 Worker节点概述

4.2 CrawlerManager设计

4.3 Crawler的设计

4.3.1 爬虫概述

4.3.2 爬虫搜索策略

4.3.3 爬虫搜索策略

第五章结论与展望

5.1 爬虫测试

5.1.1 单系统效率测试

5.1.2 系统扩展性测试

5.1.3 爬虫健壮性测试

5.2 系统总结评价

参考文献

致谢

展开▼

著录项

作者
赵翔;
展开▼
作者单位

复旦大学;

展开▼
授予单位复旦大学;
学科软件工程
授予学位硕士
导师姓名王大勇,孙慰迟;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;信息与知识传播;
关键词
网站信息; 采集系统; 爬虫; 子系统;

相似文献

中文文献
外文文献
专利

1. 卫星电视监测系统中采集编码子系统的设计与实现 [J] . 赵姣杨 . 内蒙古广播与电视技术 . 2010,第004期
2. 基于Web的网站信息采集系统的设计与实现 [J] . 赵晓峰 . 电脑知识与技术 . 2008,第016期
3. 基于Web的网站信息采集系统的设计与实现 [J] . 赵晓峰 . 电脑知识与技术：学术交流 . 2008,第006期
4. 远程视频监控中快速采集子系统的设计与实现 [J] . 李红升 . 西安铁路职业技术学院学报 . 2013,第002期
5. 远程视频监控中快速采集子系统的设计与实现 [J] . 李红升 . 电子测试 . 2013,第019期
6. 原油计量采集系统中上位机通信子系统的设计与实现 [C] . 徐玲 ,何巍 . 中国西部嵌入式系统与单片机技术论坛2005学术年会 . 2005
7. 基于网络爬虫的网站信息采集技术研究 [A] . 孙骏雄 . 2014

代理获取

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号