声明
摘要
第1章 绪论
1.1 研究背景
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 国内研究现状
1.2.2 国外研究现状
1.3 研究目标及拟解决的关键问题
1.4 论文组织结构
1.5 本章小结
第2章 Nutch及主题爬虫
2.1.2 Nutch数据目录结构
2.1.3 Nutch组件
2.1.4 Nutch总体架构
2.1.5 Nutch工作流程
2.2 Hadoop分布式计算平台
2.2.1 Hadoop概述
2.2.2 HDFS介绍
2.2.3 MapReduce编程模型
2.3 主题爬虫相关技术
2.3.1 主题爬虫概述
2.3.2 爬行协议
2.3.3 隧道技术
2.3.4 支持向量机分类器
2.3.5 朴素贝叶斯分类器
2.4 本章小结
第3章 自适应主题爬虫算法改进
3.1 learning automaton
3.1.1 变化决策集learning automaton
3.2 基于learning automaton的主题爬行概述
3.2.1 learning automaton在主题爬行中的应用
3.2.2 爬行过程
3.2.3 调整learning automaton
3.3 基于learning automaton的主题爬行算法改进
3.3.1 相似度计算算法改进
3.3.2 爬行效率改进
3.4 本章小结
第4章 Nutch爬行方法改造
4.1 Nutch评分插件
4.2 爬行流程改造
4.3 本章小结
第5章 Seed URL采集及网页分类策略
5.1 Seed URL的重要性
5.2 Seed URL采集策略
5.2.1 ODP
5.2.2 通用搜索引擎
5.3 网页分类策略
5.3.1 主题关键词选取
5.3.2 支持向量机分类器
5.3.3 朴素贝叶斯分类器
5.4 本章小结
第6章 分布式主题爬虫实现及结果分析
6.1 分布式主题爬虫实现
6.1.1 Nutch运行环境搭建
6.1.2 分布式主题爬虫总体架构
6.2 实验仿真与结果分析
6.2.1 改进自适应主题爬行算法实验对比分析
6.2.2 分布式主题爬虫性能实验及结果分析
6.3 本章小结
结论
致谢
参考文献
攻读学位期间取得学术成果
成都理工大学;