首页> 中文学位 >基于Nutch的农业垂直搜索引擎的研究
【6h】

基于Nutch的农业垂直搜索引擎的研究

代理获取

目录

声明

摘要

1 引言

1.1 研究背景

1.2 研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 本文的可行性分析与主要工作

1.4 本文结构安排

2 搜索引擎相关技术

2.1 网页抓取策略

2.2 网页信息提取技术

2.2.1 信息提取概述

2.2.2 信息提取技术

2.3 中文分词方法

2.3.1 中文分词方法

2.3.2 Lucene中文分词器介绍

2.4 网页索引的建立方法

2.5 摘要提取技术

2.5.1 摘要的概述

2.5.2 摘要提取技术

2.6 查询扩展方法

2.6.1 查询扩展概述

2.6.2 查询扩展方法

2.7 本章小结

3 基于Nutch的农业垂直搜索引擎的技术

3.1 基于广度优先的网页抓取技术

3.2 基于STU-DOM树模型的网页解析技术

3.2.1 网页解析技术的各部分介绍

3.2.2 网页解析技术的的具体流程

3.3 基于统计的摘要提取技术

3.4 基于农业领域本体的查询扩展技术

3.4.1 构建农业领域本体

3.4.2 查询扩展技术

3.5 本章小结

4 农业搜索引擎的设计与实现

4.1 农业搜索的总体设计

4.2 开发环境

4.2.1 开发平台

4.2.2 开发语言

4.2.3 开发工具

4.3 农业搜索引擎的实现

4.3.1 基于广度优先的网页抓取的实现

4.3.2 基于STU-DOM树模型的网页解析的实现

4.3.3 基于IK Analyzer分词器的中文分词的实现

4.3.4 基于Lucene的倒排索引的实现

4.3.5 信息检索的实现

4.4 结果分析

4.5 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

作者简历

致谢

展开▼

摘要

目前,互联网技术发展迅速,网络信息资源迅速增加,搜索引擎为人们查询互联网信息提供了极大的便利。在我国,农村人口众多,农业又是基础产业,加快农业信息化的建设步伐有助于有效的解决“三农”问题,整合农业信息资源,使我国农业逐步走向信息农业。有效的解决农业用户在生产、生活中遇到的各种农业问题,可以促进农业信息化的发展,本文研究和开发了一个农业领域的搜索引擎。
  本文是基于开源软件Nutch进行开发的。Nutch是一个基于java语言的开源项目,是一个轻量级且运行稳定的搜索引擎,有着较高的查全率和查准率。不过,Nutch在网页解析方面和摘要提取方面存在不足,不能满足农业用户的搜索要求,本文对Nutch的这两个方面进行了改进,并实现了搜索词的查询扩展功能。
  论文的主要工作如下:
  (1)在网页抓取策略中,采用广度优先算法进行网页信息的抓取,通过对爬行层数进行限制,可以尽可能多的抓取农业网站的网页信息。
  (2)在网页解析技术中,采用STU-DOM树模型,利用HTML解析器将HTML转换为一棵具有语义属性的DOM树,通过对其进行结构的过滤和内容的剪枝,保留与主题相关的节点信息,实现网页主题信息的提取功能。
  (3)在摘要提取技术中,采用基于统计的摘要提取方法进行文本摘要的提取。摘要的提取过程是以文本的形式特征为基础的,通过对文本进行分句,统计词频,计算出词的权重和句子的权重,从而确定出摘要句,按照摘要句在文本中出现的先后顺序,依次输出,形成最终的摘要,实现摘要的提取功能。
  (4)在查询扩展技术中,通过构建农业领域本体,实现对农业用户查询词的扩展。首先构建农业领域本体,并根据农业本体中各概念的层次关系,获取农业用户检索词的同义词、下位词和实例等相关词,实现了语义层面的查询扩展。
  本文研究和设计的基于Nutch的农业垂直搜索引擎在河北省盐山进行了应用,结果表明搜索技术可以实现农业信息资源的整合,有效的过滤了与农业无关的网页信息,当用户检索农业信息时,本系统能够对搜索结果进行摘要的提取,方便用户阅览,节约用户时间,并为农业用户提供了查询的相关词,为用户的精确查找提供了途径。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号