首页> 中国专利> 一种基于MongoDB和Redis的网页数据采集处理方法及系统

一种基于MongoDB和Redis的网页数据采集处理方法及系统

摘要

本发明公开了一种基于MongoDB和Redis的网页数据采集处理方法及系统,该方法首先设定网页下载请求的格式;然后为下载请求分配全局唯一ID;依照配置中心预置的对应业务负载均衡策略,完成对请求的转发;采用MongoDB的副本集架构将请求按业务类型分库分表。将请求写入MongoDB数据库,并用id字段覆盖MongoDB默认的_id索引,对ts字段建立TTL索引,同时将id、biz、ts三个字段转json格式后,利用lpush操作压入Redis消息队列;最后各下载服务器一直保持监听Redis消息队列,轮询提取请求并下载解析网页,获取目标数据记录入库。本发明结合Redis内存消息队列和Mongodb副本集架构实施的分布式网页下载请求存储方案,构建成本低、简单实用。

著录项

  • 公开/公告号CN106874424B

    专利类型发明专利

  • 公开/公告日2019-10-15

    原文格式PDF

  • 申请/专利权人 杭州淘淘搜科技有限公司;

    申请/专利号CN201710056576.3

  • 发明设计人 黄琦;王伟琼;蔡国雄;

    申请日2017-01-25

  • 分类号G06F16/958(20190101);G06F16/951(20190101);G06F9/54(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人刘静;邱启旺

  • 地址 310052 浙江省杭州市滨江区滨安路1197号3号楼412室

  • 入库时间 2022-08-23 10:41:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-10-15

    授权

    授权

  • 2017-07-14

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170125

    实质审查的生效

  • 2017-07-14

    实质审查的生效 IPC(主分类):G06F 17/30 申请日:20170125

    实质审查的生效

  • 2017-06-20

    公开

    公开

  • 2017-06-20

    公开

    公开

  • 2017-06-20

    公开

    公开

查看全部

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号