首页> 中文期刊>信息技术与信息化 >基于Scrapy技术的分布式爬虫的设计与优化

基于Scrapy技术的分布式爬虫的设计与优化

     

摘要

随着全球信息技术的发展,互联网中的信息量呈爆炸式增长,人们对信息的需求量也与日俱增,而传统的单机平台的爬虫技术已经无法实现现如今互联网中大量数据的获取.本文旨在设计一个基于Redis的主从模式分布式爬虫系统来突破传统单机爬虫的限制.本文中的爬虫系统基于python语言的Scrapy框架具体实现.此外,为了实现分布式,该系统还使用了Redis数据库进行url存储与调度分配,最终使用MongoDb数据库储存解析后的网页信息.本文也对该系统进行了一定优化,首先,本文采用半分布式拓扑结构优化了整体主从架构;同时本文也采用二级哈希映射算法优化URL的分配,解决了系统内节点动态加入或退出对系统的影响;初次之外,本文还采用去重与增量爬取优化了服务器的资源效率并使用代理ip的方式来应对部分网站的防爬虫屏蔽现象.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号