基于Nutch的农业垂直搜索引擎的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前，互联网技术发展迅速，网络信息资源迅速增加，搜索引擎为人们查询互联网信息提供了极大的便利。在我国，农村人口众多，农业又是基础产业，加快农业信息化的建设步伐有助于有效的解决“三农”问题，整合农业信息资源，使我国农业逐步走向信息农业。有效的解决农业用户在生产、生活中遇到的各种农业问题，可以促进农业信息化的发展，本文研究和开发了一个农业领域的搜索引擎。
　　本文是基于开源软件Nutch进行开发的。Nutch是一个基于java语言的开源项目，是一个轻量级且运行稳定的搜索引擎，有着较高的查全率和查准率。不过，Nutch在网页解析方面和摘要提取方面存在不足，不能满足农业用户的搜索要求，本文对Nutch的这两个方面进行了改进，并实现了搜索词的查询扩展功能。
　　论文的主要工作如下:
　　(1)在网页抓取策略中，采用广度优先算法进行网页信息的抓取，通过对爬行层数进行限制，可以尽可能多的抓取农业网站的网页信息。
　　(2)在网页解析技术中，采用STU-DOM树模型，利用HTML解析器将HTML转换为一棵具有语义属性的DOM树，通过对其进行结构的过滤和内容的剪枝，保留与主题相关的节点信息，实现网页主题信息的提取功能。
　　(3)在摘要提取技术中，采用基于统计的摘要提取方法进行文本摘要的提取。摘要的提取过程是以文本的形式特征为基础的，通过对文本进行分句，统计词频，计算出词的权重和句子的权重，从而确定出摘要句，按照摘要句在文本中出现的先后顺序，依次输出，形成最终的摘要，实现摘要的提取功能。
　　(4)在查询扩展技术中，通过构建农业领域本体，实现对农业用户查询词的扩展。首先构建农业领域本体，并根据农业本体中各概念的层次关系，获取农业用户检索词的同义词、下位词和实例等相关词，实现了语义层面的查询扩展。
　　本文研究和设计的基于Nutch的农业垂直搜索引擎在河北省盐山进行了应用，结果表明搜索技术可以实现农业信息资源的整合，有效的过滤了与农业无关的网页信息，当用户检索农业信息时，本系统能够对搜索结果进行摘要的提取，方便用户阅览，节约用户时间，并为农业用户提供了查询的相关词，为用户的精确查找提供了途径。

著录项

作者
张智慧;
展开▼
作者单位

河北农业大学;

展开▼
授予单位河北农业大学;
学科计算机技术
授予学位硕士
导师姓名韩宪忠;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类农业现代化道路、模式;
关键词
搜索引擎; Nutch; 农业信息化; 垂直搜索; 网页解析; DOM树模型;

相似文献

中文文献
外文文献
专利

1. 基于Nutch框架的农业信息垂直搜索引擎研究与设计 [J] . 高亮亮 ,阮怀军 ,陈英义 . 湖北农业科学 . 2015,第018期
2. 基于Nutch的农业垂直搜索引擎研究 [J] . 王晓琴 ,李书琴 ,景旭 . 计算机工程与设计 . 2014,第006期
3. 基于Nutch的就业垂直搜索引擎研究 [J] . 肖红玉 ,贺辉 ,黄灼东 . 计算机技术与发展 . 2019,第002期
4. 基于Nutch的农村信息服务移动垂直搜索引擎研究 [J] . 赵永鑫 ,张友华 ,辜丽川 . 洛阳理工学院学报（自然科学版） . 2015,第003期
5. 基于Nutch的垂直搜索引擎的研究 [J] . 张文龙 ,刘一伟 ,孙杰 . 南开大学学报（自然科学版） . 2012,第002期
6. 中国搜农：一种基于复杂自适应搜索模型的农业垂直搜索引擎 [C] . 王儒敬 ,黄河 . 第七届（2009）两岸三院信息技术与应用交流研讨会 . 2009
7. 基于Nutch的医学领域垂直搜索引擎系统的研究与实现 [A] . 卢群乐 . 2015

基于Nutch的农业垂直搜索引擎的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅