首页> 中国专利> 基于无障碍检测结果去重的爬虫搜索方法

基于无障碍检测结果去重的爬虫搜索方法

摘要

一种基于无障碍检测结果去重的爬虫搜索方法,预先设置好需要爬取的页面总数,循环地从URL队列中获取链接,访问链接获取网页源代码;再对网页源代码中选取的规则子集进行检测,将检测结果合并成特征矩阵;当从一个网页中提取的所有链接都被访问完毕后,对所有链接到的页面获取的矩阵运用DBSCAN算法进行聚类;对聚类后每一簇的结果进行随机抽样作为这一簇的代表页面,从中抽取链接加入URL队列,一簇中其他的网页由于无障碍检测结果和代表页面相似,因此其中的子链接都被标记为“跳过”,并不实际爬取页面而是直接增加爬取页面的计数;本发明用于网站页面用户友好程度自动化检测中的网页链接爬取阶段,通过控制爬取页面数量加快爬取进度,加快检测效率。

著录项

  • 公开/公告号CN113779377A

    专利类型发明专利

  • 公开/公告日2021-12-10

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN202110849849.6

  • 发明设计人 卜佳俊;杨文武;周晟;王炜;于智;

    申请日2021-07-27

  • 分类号G06F16/9535(20190101);G06F16/951(20190101);G06F16/955(20190101);G06K9/62(20060101);

  • 代理机构33201 杭州天正专利事务所有限公司;

  • 代理人王兵

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 13:40:20

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号