首页> 中文期刊> 《现代计算机:下半月版》 >网络爬虫实时控制器的设计与实现

网络爬虫实时控制器的设计与实现

         

摘要

针对个性化数据采集,提出一个轻量级网络爬虫框架,该框架包括控制器、下载器、解析器、线程池和代理池等组件。在此框架下,设计一个具有实时处理能力的爬虫控制器,能够自动保存和恢复任务场景。详细介绍爬虫控制器的工作原理和C#实现,并将其应用于站内文章采集。实验结果表明:所提出的爬虫框架是高效易用的,控制器的实时处理能力在实际爬虫开发中非常重要。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号