声明
摘要
第1章 绪论
1.1 课题研究背景
1.2 本文的研究工作
1.3 本文的组织结构
第2章 相关理论与技术
2.1 云计算技术架构
2.1.1 Google分布式文件系统GFS
2.1.2 hadoop分布式文件系统HDFS
2.2 key/value数据库——-Berkeley DB
2.3 Heritrix分析
2.4 数据的判重
2.5 hadoop的使用
2.5.1 配置ssh无密码访问
2.5.2 安装hadoop
2.6 本章小结
第3章 面向分布式爬虫的主题模型关键技术研究
3.1 基于字典的主题模型关键技术研究
3.1.1 基于字典的主题模型的研究方案
3.1.2 基于字典的主题模型的优缺点
3.2 基于文本分析的主题模型关键技术研究
3.2.1 基于文本分析的主题模型的整体结构
3.2.2 文本相关度检查器的研究方案
3.2.3 链接相关度检查的研究方案
3.3 基于网页结构的主题模型关键技术研究
3.3.1 主题模型的总体架构
3.3.2 主题模型抽取器的研究方案
3.3.3 主题相关度判别器的方案
3.3.4 链接相关性判别器的研究方案
3.4 本章小结
第4章 分布式爬虫系统关键技术研究
4.1 面向主题的分布式爬虫系统整体架构
4.2 主控节点
4.2.1 主控节点的整体架构
4.2.2 URL判重
4.2.3 主控节点的数据管理
4.2.4 任务的分发
4.3 爬虫子节点
4.3.1 爬虫子节点的整体架构
4.3.2 抓取数据格式信息
4.4 本章小结
第5章 面向主题的分布式爬虫系统设计与实现
5.1 数据管理
5.1.1 主控节点数据管理
5.1.2 爬虫端数据管理
5.1.3 HDFS中的数据管理
5.2 主控节点功能设计与实现
5.2.1 主控节点启动功能设计与实现
5.2.2 主控节点启动爬虫的设计与实现
5.2.3 主控节点管理模块设计与实现
5.2.4 BloomFilter的设计与实现
5.3 爬虫端的设计与实现
5.3.1 配置管理
5.3.2 爬虫的启动
5.3.3 爬取线程设计
5.3.4 处理器的设计与实现
5.4 主题算法的实现
5.4.1 基于字典的主题模型算法实现
5.4.2 基于文本分析的主题模型算法实现
5.4.3 基于网页结构的主题模型算法实现
5.5 本章小结
第6章 系统测试和分析
6.1 系统测试环境
6.1.1 硬件/软件环境
6.1.2 软件环境安装
6.2 系统评价机制
6.3 系统性能测试及结果分析
6.3.1 基于字典的主题模型算法的抓取结果及分析
6.3.2 基于文本分析的主题模型算法的抓取结果及分析
6.3.3 基于网页结构的主题模型算法的爬行结果及其分析
6.3.4 主题爬虫系统与Heritrix爬虫的对比实验及其分析
6.4 HDFS的抓取结果
6.5 本章小结
第7章 总结与展望
7.1 工作总结
7.2 下一步工作
参考文献
致谢
研究生期间参与的项目及获奖情况