首页> 中国专利> 一种基于Docker集群的分布式爬虫系统

一种基于Docker集群的分布式爬虫系统

摘要

本发明公开了一种基于Docker集群的分布式爬虫,属于大数据技术领域,包括在Docker集群上建立分布式爬虫系统;分布式爬虫系统包括种子管理模块、调度器模块、下载器模块、分析器模块、数据存储模块、去重模块、监控模块和日志模块,解决了传统开源的爬虫设计方案中URL查重准确度低的技术问题,本发明采用Docker集群作为分布式爬虫的底层平台支撑,更加高效的使用宿主机的各种资源,并利用多容器技术来代替分布式爬虫多线程技术,本发明将改进的K分型Bloom filter算法应用于分布式爬虫系统,提高URL查重的准确度,降低判断的误差,并使算法适用于任何分布式条件下的应用需求,使爬虫系统在抓取效率以及水平扩展等方面的性能明显提高。

著录项

  • 公开/公告号CN109614533A

    专利类型发明专利

  • 公开/公告日2019-04-12

    原文格式PDF

  • 申请/专利号CN201811431814.5

  • 发明设计人 马锐;王鑫;苏静;濮斌;

    申请日2018-11-28

  • 分类号G06F16/951(20190101);G06F9/50(20060101);

  • 代理机构32231 常州佰业腾飞专利代理事务所(普通合伙);

  • 代理人刘松

  • 地址 213164 江苏省常州市天安数码城9号楼101室

  • 入库时间 2024-02-19 09:13:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-23

    专利申请权的转移 IPC(主分类):G06F16/951 登记生效日:20200604 变更前: 变更后: 申请日:20181128

    专利申请权、专利权的转移

  • 2019-05-07

    实质审查的生效 IPC(主分类):G06F16/951 申请日:20181128

    实质审查的生效

  • 2019-04-12

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号