文摘
英文文摘
第一章 绪论
1.1 研究的背景与意义
1.2 课题任务
1.3 论文结构
第二章 相关技术
2.1 搜索引擎NUTCH
2.1.1 nutch已实现的功能和优势
2.1.2 nutch架构及其工作流程
2.1.3 nutch的插件机制
2.2 CYGWIN
2.3 LUKE
2.4 JAVACC
2.5 本章小结
第三章 面向农业信息的主题爬虫的的系统设计
3.1 系统设计环境
3.2 系统的需求和设计目标
3.3 主题爬虫的工作原理和流程
3.3.1 创建用例
3.3.2 系统动态模型
3.4 本章小结
第四章 主题爬虫的具体实现
4.1 系统实现的准备工作
4.1.1 开源项目的选择
4.1.2 nutch的相关研究
4.2 中文分词技术
4.2.1 中文分词分类
4.4.2 中文分词介绍
4.3 基于nutch工作流程的修改
4.4 初选模块的实现
4.4.1 html页面相关分析
4.4.2 爬取内容页的思路
4.5 实现图片下载
4.6 对爬取网页URL的分析
4.6.1 正则表达式相关概念
4.6.2 提取主站url的具体实现
4.7 实现编码的统一
4.7.1 编码介绍:
4.7.2 如何判断其编码
4.8 本章小结
第五章 系统的安装和测试
5.1 nutch的安装与配置
5.1.1 nutch配置过程:
5.1.2 部署Web前端
5.1.3 将nutch导入Eclipse
5.2 在nutch 中加入中文分词模块
5.2.1 nutch的Analysis包分析
5.2.2 以插件的形式加入中文分词
5.3 NUTCH爬取工作实现
5.4小结
第六章 总结与展望
6.1 论文工作总结
6.2 本文主要工作和贡献
6.3 论文的不足
6.4 展望进一步的工作
附录1:如何判断编码
附录2:配置文件nutch-site.xml
附录3:导入MyEclipse对代码进行修改
附录4:中文分词插件的部分代码
参考文献
致谢