声明
摘要
第一章 绪论
1.1 论文背景及研究意义
1.2 研究问题
1.2.1 常用的中外生物医学数据库
1.2.2 研究目标
1.3 本文工作
1.4 本文结构
1.5 本章小结
第二章 网络爬虫研究
2.1 网络爬虫基础
2.1.1 基本原理
2.1.2 通用网络爬虫策略
2.1.3 网页爬虫的分类
2.1.4 网页分析算法
2.2 聚焦网络爬虫
2.3 反爬虫
2.3.1 反爬虫的三种方式
2.4 分布式爬虫
2.4.1 分布式爬虫架构
2.4.2 开源的爬虫框架
2.5 Scrapy框架
2.5.1 Scrapy框架结构
2.6 Scrapy-Redis原理
2.6.1 Redis简述
2.6.2 Scrapy-Redis流程及其组件
2.6 动态网页抓取技术
2.6.1 Ajax动态加载技术
2.6.2 动态脚本解析
2.6.3 PhantomJS和WebDriver
2.8 Qt开发框架
2.8.1 Qt简述
2.8.2 Qt的优势
2.9 本章小结
第三章 分布式爬虫设计方案
3.1 系统需求分析
3.1.1 需求分析
3.1.2 系统目标
3.2 系统概要设计
3.2.1 总体架构设计
3.2.2 爬虫策略设计
3.2.3 抓取字段设计
3.2.4 动态网页抓取方法的设计
3.2.5 爬虫分布式设计
3.2.6 反爬虫
3.2.7 存储设计
3.2.8 桌面程序设计
3.3 本章小结
第四章 分布式爬虫系统的实现及系统测试
4.1 爬虫的实现
4.1.1 数据定义的实现
4.1.2 数据抓取的实现
4.1.3 数据处理的实现
4.2 动态网页抓取的实现
4.3 反爬虫的实现
4.4 分布式爬虫实现
4.4.1 爬虫调度
4.4.2 队列管理
4.5 数据存储的实现
4.6 爬虫桌面程序的实现
4.6.2 信号/槽实现
4.7 系统测试
4.7.1 测试环境
4.7.2 系统运行展示
4.7 本章小结
第五章 总结与展望
5.1 总结
5.2 未来展望
参考文献
致谢