首页> 中文学位 >分布式网络爬虫在农产品搜索系统中的应用与研究
【6h】

分布式网络爬虫在农产品搜索系统中的应用与研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文研究内容

1.4 论文组织结构

第2章 相关技术

2.1 Hadoop平台介绍

2.2 分布式网络爬虫技术

2.3 面向商品信息的垂直搜索引擎

2.4 Nutch架构

第3章 农产品信息采集模块研究与设计

3.1 需求与设计目标

3.2 分布式农产品信息采集结构设计

3.3 聚焦农产品信息

第4章 索引和搜索模块研究与设计

4.1 需求和设计目标

4.2 中文分词和文本分析

4.3 索引模块

4.4 搜索模块

第5章 分布式农产品搜索系统测试分析

第6章 总结与展望

6.1 总结

6.2 工作不足和展望

致谢

参考文献

展开▼

摘要

在互联网信息规模快速增长的背景下,要想将互联网上各种各样的信息全部涵盖和收集显得不太现实,即使是谷歌、百度这样的搜索引擎公司也只能收集到不到20%的互联网信息[1]。通用搜索引擎在人们的生活中起着越来越关键的作用,但是随着人们需求的多元化,以及通用引擎自身局限性,通常精确的搜索需求得不到满足。网络商品信息繁多,各种农产品随着产地和时间的不同,价格变化大,而且农产品交易网站数量众多,如何快捷的得到自己感兴趣的网络农产品信息就是一个值得研究的问题了。
  由于网络信息量巨大,即使是农产品这样一个非常狭小的领域,也会涉及到海量的信息。建立一个比价系统首要的就是信息源的选取,在海量信息面前,单机爬虫显然是作用有限的。本文提出了将网络爬虫和分布式的系统进行结合,在多机集群的分布式系统中实现的网络爬虫,从而提高信息下载收集的效率。
  本文所构建的系统是在Nutch这个成熟的搜索引擎架构上进行功能化和特性化的改造,使系统可以针对农产品的信息建立索引,并提供搜索和查询功能。由于本文研究的是针对特定领域的商品信息,因此在对商品信息进行搜索和建立索引时,就会涉及到URL的过滤和主题相关性的判断问题。我们结合了HTMLParaser和正则表达式对URL进行过滤,在对网页的内容主题相关性判定时,借助于空间向量模型。在收集完相关网页信息后,在进行建立搜索和搜索服务提供时,都会涉及到分词操作,由于Nutch中原有的分词操作不能够较好的实现中文分词,我们选用了对中文分词支持比较好的IKAnalyzer来完成中文的分词。索引操作是对于收集到的信息进行一个预先的组织优化,使信息能够快速的被定位到。Nutch系统中采用的检索,由Lucene提供的全文检索系统,对网页信息进行索引建立,为高效搜索提供支持。
  最后将基于Nutch的面向农产品商品信息的分布式爬虫系统,进行部署进行实验验证,发现分布式的爬虫相对于普通爬虫还是存在着并行的优势。整个系统还能够很好的对网络中农产品建立索引并集成这些信息,为用户提供农业产品商品信息的检索服务和一定的排序比较功能,实现个性化搜索服务,从而对系统可用性进行了验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号