首页> 中国专利> 一种分布式动态可配置的爬虫平台及爬虫方法

一种分布式动态可配置的爬虫平台及爬虫方法

摘要

本发明提供了一种分布式动态可配置的爬虫平台及爬虫方法,用于从海量站点内定向抓取数据,包括用户输入爬虫需求,依据爬虫需求形成爬虫抓取规则;解析爬虫抓取规则形成爬虫任务,解析爬虫调度配置形成爬虫任务调度;根据爬虫任务对爬虫平台内多个爬虫子模块排序,选择排序最高的爬虫子模块作为最优爬虫运行节点;启动并执行爬虫任务,分别抓取m个目标站点的n个指定页面,解析指定页面URL并去重处理后加入待爬列队,直至m个目标站点中n个指定页面全部被抓取;对待爬列队中指定页面的结构化数据相似度检测,去重处理以降低冗余度,形成并保存爬虫结果。爬虫方法能够从海量站点内定向抓取数据,以快速高效的获取用户所需数据。

著录项

  • 公开/公告号CN114297460A

    专利类型发明专利

  • 公开/公告日2022-04-08

    原文格式PDF

  • 申请/专利权人 北京众标智能科技有限公司;

    申请/专利号CN202111348896.9

  • 发明设计人 朱遥文;黄伟聪;

    申请日2021-11-15

  • 分类号G06F16/951(20190101);G06F16/955(20190101);

  • 代理机构11718 北京清大紫荆知识产权代理有限公司;

  • 代理人秦亚群;冯振华

  • 地址 100084 北京市海淀区中关村东路1号院8号楼一层CG05-067

  • 入库时间 2023-06-19 14:48:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-04-08

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号