首页> 中国专利> 统一资源定位符URL的去重方法

统一资源定位符URL的去重方法

摘要

本发明公开一种统一资源定位符URL的去重方法,将第一待去重URL数据加入去重任务队列,执行预处理,分析参数并计数,保存为第二待去重URL数据;判断第二待去重URL数据,参数是否超过预设限定,若超过进行强制去重,若未超过则正常处理参数;处理URL的路径,判断当前URL特征是否已存在,若已存在则回到S2,若不存在则保存特征并将去重结果输出。第一次循环只进行预处理,分析当前的参数列表,并计数;第二次循环,根据参数列表的计数值判断当前参数是否需要强制去重,有利于提高爬虫抓取以及后续的漏洞扫描的效率。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-12

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号