分布式网络爬虫在农产品搜索系统中的应用与研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在互联网信息规模快速增长的背景下，要想将互联网上各种各样的信息全部涵盖和收集显得不太现实，即使是谷歌、百度这样的搜索引擎公司也只能收集到不到20％的互联网信息[1]。通用搜索引擎在人们的生活中起着越来越关键的作用，但是随着人们需求的多元化，以及通用引擎自身局限性，通常精确的搜索需求得不到满足。网络商品信息繁多，各种农产品随着产地和时间的不同，价格变化大，而且农产品交易网站数量众多，如何快捷的得到自己感兴趣的网络农产品信息就是一个值得研究的问题了。
　　由于网络信息量巨大，即使是农产品这样一个非常狭小的领域，也会涉及到海量的信息。建立一个比价系统首要的就是信息源的选取，在海量信息面前，单机爬虫显然是作用有限的。本文提出了将网络爬虫和分布式的系统进行结合，在多机集群的分布式系统中实现的网络爬虫，从而提高信息下载收集的效率。
　　本文所构建的系统是在Nutch这个成熟的搜索引擎架构上进行功能化和特性化的改造，使系统可以针对农产品的信息建立索引，并提供搜索和查询功能。由于本文研究的是针对特定领域的商品信息，因此在对商品信息进行搜索和建立索引时，就会涉及到URL的过滤和主题相关性的判断问题。我们结合了HTMLParaser和正则表达式对URL进行过滤，在对网页的内容主题相关性判定时，借助于空间向量模型。在收集完相关网页信息后，在进行建立搜索和搜索服务提供时，都会涉及到分词操作，由于Nutch中原有的分词操作不能够较好的实现中文分词，我们选用了对中文分词支持比较好的IKAnalyzer来完成中文的分词。索引操作是对于收集到的信息进行一个预先的组织优化，使信息能够快速的被定位到。Nutch系统中采用的检索，由Lucene提供的全文检索系统，对网页信息进行索引建立，为高效搜索提供支持。
　　最后将基于Nutch的面向农产品商品信息的分布式爬虫系统，进行部署进行实验验证，发现分布式的爬虫相对于普通爬虫还是存在着并行的优势。整个系统还能够很好的对网络中农产品建立索引并集成这些信息，为用户提供农业产品商品信息的检索服务和一定的排序比较功能，实现个性化搜索服务，从而对系统可用性进行了验证。

著录项

作者
袁龙涛;
展开▼
作者单位

南昌大学;

展开▼
授予单位南昌大学;
学科计算机技术
授予学位硕士
导师姓名刘捷;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;农产品价格与市场;电子贸易、网上贸易;
关键词
分布式系统; 网络爬虫; 农产品搜索系统; 信息采集;

相似文献

中文文献
外文文献
专利

1. 基于Python的分布式多主题网络爬虫的研究与设计 [J] . 张胜敏 ,王爱菊 . 开封大学学报 . 2021,第001期
2. 分布式计算视域的网络爬虫技术研究 [J] . 吴宇鹏 . 信息与电脑 . 2021,第19期
3. 分布式主题网络爬虫的设计与研究 [J] . 黄宇 . 黑龙江科技信息 . 2020,第015期
4. 分布式网络爬虫技术的研究与实现 [J] . 吴宇鹏 . 电脑编程技巧与维护 . 2020,第011期
5. 基于校园分布式主题网络爬虫技术基础框架实现研究 [J] . 袁小玲 . 电子世界 . 2020,第020期
6. 基于分布式网络爬虫的Web空间数据获取方法研究 [C] . 曾李阳 ,齐华 ,任春雷 . 2016中国地理信息科学理论与方法学术年会 . -1
7. 基于分布式爬虫的电影搜索系统的设计与实现 [A] . 时凌云 . 2018

分布式网络爬虫在农产品搜索系统中的应用与研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅