首页> 中国专利> 基于Scrapy的网站URL爬取方法

基于Scrapy的网站URL爬取方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开一种基于Scrapy的网站URL爬取方法，包括：从第一数据库读取目标URL，请求目标URL并下载其网页；从网页中提取出所有URL，并进行布隆去重；将去重后的URL同时存入第一数据库与第二数据库；从第一数据库读取同域名的URL进行去重并保存，对去重后的URL构造http请求并再次爬取。减少低效爬取占用资源，有利于提高整体效率。

著录项

公开/公告号CN111125485A

专利类型发明专利
公开/公告日2020-05-08

原文格式PDF
申请/专利权人西安交大捷普网络科技有限公司;
展开▼

申请/专利号CN201911323361.9
发明设计人何建锋;袁莺;马昱阳;
展开▼

申请日2019-12-20
分类号
代理机构
代理人
地址 710075 陕西省西安市高新区科技二路72号捷普大厦
入库时间 2023-12-17 10:33:22

法律信息

法律状态公告日

法律状态信息

法律状态
2020-05-08

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于Scrapy的网站URL爬取方法 [P] . 中国专利： CN111125485A . 2020-05-08
2. 基于静态网站的数据爬取及事件分析方法及系统 [P] . 中国专利： CN112818200A . 2021-05-18
3. System, method, and computer program product for crawling a website based on a scheme of the website [P] . 美国专利： US9798809B2 . 2017-10-24

机译：基于网站方案对网站进行爬网的系统，方法和计算机程序产品
4. System, method, and computer program product for crawling a website based on a scheme of the website [P] . 美国专利： US8756213B2 . 2014-06-17

机译：基于网站方案对网站进行爬网的系统，方法和计算机程序产品
5. Method and system for obtaining script related information for website crawling [P] . 美国专利： US2006190561A1 . 2006-08-24

机译：获取脚本相关信息以进行网站爬取的方法和系统