声明
摘要
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.2 网络爬虫国内现状
1.2.3 网络爬虫国外现状
1.3 本文的研究内容和主要组织结构
2.1.1 网络爬虫
2.1.2 网络爬虫隐私协议
2.1.3 网络爬虫爬取策略
2.2 网页处理
2.3 网页内容抽取
2.3.1 网页组成
2.3.2 网页解析
2.4 中文分词
2.5 特征词选择方法
2.6 文本分类方法
2.7 Hadoop技术
3 面向农业主题的爬虫系统的分析
3.1 农业数据特点分析
3.2 网页数据特点分析
3.3 系统分析
3.3.1 应用需求分析
3.3.2 可行性分析
3.3.3 可维护性分析
3.3.4 系统性能分析
3.3.5 爬虫系统功能分析
4 面向农业主题的爬虫系统的设计
4.1 系统总体流程设计
4.1.1 爬虫系统整体架构设计
4.1.2 爬虫系统工作流程设计
4.2 数据库设计
4.3 系统功能模块设计
4.3.1 用户配置主题流程设计
4.3.2 分布式爬虫的设计
4.3.3 网页数据爬取模块的设计
4.3.4 训练语料库功能模块的设计
4.3.5 文本分类模块的设计
4.3.6 网页爬取策略管理模块的设计
4.3.7 网页文件抽取模块的设计
4.4 算法设计
4.4.1 基于潜在语义的降维
4.4.2 基于信息增益的特征词提取
4.4.3 基于朴素贝叶斯的网页分类
5 面向农业主题的爬虫系统的实现和测试
5.1 系统环境配置
5.2 分布式网络爬虫系统实现
5.2.1 Hadoop环境搭建
5.2.2 系统界面的实现
5.2.3 分布式网络爬虫的流程
5.2.4 分布式网络爬虫的功能
5.2.5 分布式统计特征词的实现
5.2.6 HDFS存储
5.2.7 网页爬取策略管理模块的实现
5.3 系统部分代码
5.3.1 基于朴素贝叶斯网页分类算法
5.3.2 获取网页更新时间
5.3.3 抽取网页文件
5.4 系统测试
5.4.1 训练集获取
5.4.2 网页信息抽取并分词
5.4.3 潜在语义分析降维
5.4.4 信息增益评估特征词
5.4.5 农业中文网页分类的实现和测试
6 总结与展望
参考文献
作者简历
致谢
河北农业大学;