首页> 中国专利> 基于分布式架构的可视化主题网页内容爬取系统及方法

基于分布式架构的可视化主题网页内容爬取系统及方法

摘要

本发明主要公开了基于分布式架构的可视化主题网页内容爬取系统及方法,其技术方案:包括包括三大子系统,分别为可视化子系统、爬取子系统以及分布式存储索引子系统;网页内容爬取方法通过任务初始化提交,任务生成,任务调度,任务执行,任务状态跟踪五大步骤进行,本发明能够高效并发支持网页内容请求,爬取各种主题网站,解析页面源代码后把非结构化数据变成结构化数据存放在分布式存储系统上索引,可以有效支撑后续大规模结构化数据的分析和挖掘,同时本发明在提高数据采集效率情况下能大大降低海量网页采集的软硬件成本。

著录项

  • 公开/公告号CN109284430A

    专利类型发明专利

  • 公开/公告日2019-01-29

    原文格式PDF

  • 申请/专利权人 杭州艾塔科技有限公司;

    申请/专利号CN201811041524.X

  • 发明设计人 王科;

    申请日2018-09-07

  • 分类号G06F16/951(20190101);

  • 代理机构

  • 代理人

  • 地址 310052 浙江省杭州市滨江区长河街道越达巷79号2幢6层609室

  • 入库时间 2024-02-19 06:49:52

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-01

    实质审查的生效 IPC(主分类):G06F16/951 申请日:20180907

    实质审查的生效

  • 2019-01-29

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号