声明
摘要
1 引言
1.1 研究背景
1.2 研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 本文的可行性分析与主要工作
1.4 本文结构安排
2 搜索引擎相关技术
2.1 网页抓取策略
2.2 网页信息提取技术
2.2.1 信息提取概述
2.2.2 信息提取技术
2.3 中文分词方法
2.3.1 中文分词方法
2.3.2 Lucene中文分词器介绍
2.4 网页索引的建立方法
2.5 摘要提取技术
2.5.1 摘要的概述
2.5.2 摘要提取技术
2.6 查询扩展方法
2.6.1 查询扩展概述
2.6.2 查询扩展方法
2.7 本章小结
3 基于Nutch的农业垂直搜索引擎的技术
3.1 基于广度优先的网页抓取技术
3.2 基于STU-DOM树模型的网页解析技术
3.2.1 网页解析技术的各部分介绍
3.2.2 网页解析技术的的具体流程
3.3 基于统计的摘要提取技术
3.4 基于农业领域本体的查询扩展技术
3.4.1 构建农业领域本体
3.4.2 查询扩展技术
3.5 本章小结
4 农业搜索引擎的设计与实现
4.1 农业搜索的总体设计
4.2 开发环境
4.2.1 开发平台
4.2.2 开发语言
4.2.3 开发工具
4.3 农业搜索引擎的实现
4.3.1 基于广度优先的网页抓取的实现
4.3.2 基于STU-DOM树模型的网页解析的实现
4.3.3 基于IK Analyzer分词器的中文分词的实现
4.3.4 基于Lucene的倒排索引的实现
4.3.5 信息检索的实现
4.4 结果分析
4.5 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
作者简历
致谢