声明
摘要
第一章 绪论
1.1 课题研究背景和意义
1.2 国内外研究现状
1.3 本文的主要工作及组织结构
第二章 系统相关技术介绍
2.1 网络爬虫介绍
2.1.1 网络爬虫分类
2.1.2 网络爬虫爬行策略
2.2 Ajax介绍
2.2.1 Ajax技术介绍
2.2.2 网页中嵌入JavaScript的方式
2.2.3 JavaScript跳转方式介绍
2.2.4 JQuery实现Ajax请求介绍
2.3 网络信息采集策略
2.3.1 协议驱动采集
2.3.2 事件驱动采集
2.4 相关技术介绍
2.4.1 正则表达式
2.4.2 Nutch简介
2.4.3 Nutch基本原理分析
2.4.4 Nutch工作流程分析
2.4.5 Hadoop介绍
2.4.6 Quartz介绍
2.4.7 HttpClient介绍
2.5 本章小结
第三章 系统设计思路
3.1 系统整体需求
3.2 Nutch改进设计思路
3.3 JavaScript处理器的构建思路
3.4 定时调度设计
3.5 本章小结
第四章 系统实现
4.1 系统开发环境介绍
4.2 Nutch的安装和配置
4.3 JavaScript处理器的实现
4.3.1 JavaScript处理器获取页面脚本
4.3.2 使用正则表达式匹配脚本
4.3.3 判断URL是否属于Ajax请求的URL
4.4 定时调度的实现
4.5 系统实现效果图
4.6 本章小结
第五章 系统测试
5.1 系统测试环境搭建
5.2 系统功能测试
5.3 本章小结
第六章 总结与展望
参考文献
攻读学位期间发表的学术论文
参与的科研项目
致谢