首页> 中文期刊>信息技术 >基于Scrapy框架的分布式爬虫设计与实现

基于Scrapy框架的分布式爬虫设计与实现

     

摘要

网络爬虫是近些年来较为热门的技术之一,它被广泛应用于搜索引擎技术,现今技术不断发展成熟,爬虫不仅仅应用于搜索引擎的信息搜集,更多应用于定向信息的采集,比如房价、招聘信息、用户信息等等.文中以Python及其框架Scrapy环境为基础,以知乎网站为例,来爬取用户信息.通过使用Scrapy框架实现爬虫,分析整个爬取的原理,了解爬取的运行流程,特别对反爬虫策略进行优化,实现程序在远程服务器的部署,将信息存储到时下较为流行的No-SQL数据库中,最后对爬取数据进行分析与展示.

著录项

  • 来源
    《信息技术》|2019年第3期|96-101|共6页
  • 作者

    王芳; 张睿; 宫海瑞;

  • 作者单位

    太原科技大学计算机科学与技术学院,太原030024;

    太原科技大学计算机科学与技术学院,太原030024;

    太原科技大学计算机科学与技术学院,太原030024;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 计算机仿真;
  • 关键词

    网络爬虫; Scrapy; 分布式;

  • 入库时间 2023-08-23 16:31:56

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号