首页> 中文学位 >面向农业信息的主题爬虫的研究与设计
【6h】

面向农业信息的主题爬虫的研究与设计

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 研究的背景与意义

1.2 课题任务

1.3 论文结构

第二章 相关技术

2.1 搜索引擎NUTCH

2.1.1 nutch已实现的功能和优势

2.1.2 nutch架构及其工作流程

2.1.3 nutch的插件机制

2.2 CYGWIN

2.3 LUKE

2.4 JAVACC

2.5 本章小结

第三章 面向农业信息的主题爬虫的的系统设计

3.1 系统设计环境

3.2 系统的需求和设计目标

3.3 主题爬虫的工作原理和流程

3.3.1 创建用例

3.3.2 系统动态模型

3.4 本章小结

第四章 主题爬虫的具体实现

4.1 系统实现的准备工作

4.1.1 开源项目的选择

4.1.2 nutch的相关研究

4.2 中文分词技术

4.2.1 中文分词分类

4.4.2 中文分词介绍

4.3 基于nutch工作流程的修改

4.4 初选模块的实现

4.4.1 html页面相关分析

4.4.2 爬取内容页的思路

4.5 实现图片下载

4.6 对爬取网页URL的分析

4.6.1 正则表达式相关概念

4.6.2 提取主站url的具体实现

4.7 实现编码的统一

4.7.1 编码介绍:

4.7.2 如何判断其编码

4.8 本章小结

第五章 系统的安装和测试

5.1 nutch的安装与配置

5.1.1 nutch配置过程:

5.1.2 部署Web前端

5.1.3 将nutch导入Eclipse

5.2 在nutch 中加入中文分词模块

5.2.1 nutch的Analysis包分析

5.2.2 以插件的形式加入中文分词

5.3 NUTCH爬取工作实现

5.4小结

第六章 总结与展望

6.1 论文工作总结

6.2 本文主要工作和贡献

6.3 论文的不足

6.4 展望进一步的工作

附录1:如何判断编码

附录2:配置文件nutch-site.xml

附录3:导入MyEclipse对代码进行修改

附录4:中文分词插件的部分代码

参考文献

致谢

展开▼

摘要

随着互联网技术的发展,网络信息资源的急剧增长,网民人数越来越多,网络在人们的日常生活和工作的作用越来越大,因此人们越来越多地关注如何快速有效地从海量的网络信息中,提取出潜在的、有价值的信息,使之有效地在工作和生活中发挥作用,所以专业领域主题Web信息的有效获取成为各行业有效利用网络信息资源的基础。
   面向农业信息的主题爬虫是专注于在海量的网络信息中有效地识别与农业相关的Web信息资源,并进行获取和及时更新的系统。它可以实现对图片下载,对爬取网页的编码进行统一,对抓取的与农业相关的资源进行过滤,识别出符合需求的内容网页。
   本文首先对农业智能信息化业务平台进行了初步的描述,重点介绍了在这一平台上搭建的面向农业的主题爬虫的特点。在介绍主题爬虫时,本文对爬虫的架构、原理、组成、工作流程做了阐述。特别是针对农业业务平台对资源的特殊要求,介绍了爬虫在采集信息时,做了怎样的处理。
   本文重点开发了面向农业信息的主题爬虫。从nutch开源搜索引擎入手,进行二次开发,在nutch工作流程的基础上,加入初选模块,详细说明了该系统开发过程和方法,并对实现结果,有了清晰的展现,证明了面向农业信息的主题爬虫的设计方案和实现方法所具有的可行性和实用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号