首页> 中文期刊> 《计算机应用与软件》 >基于爬虫的智能爬行算法研究

基于爬虫的智能爬行算法研究

         

摘要

为了提高漏洞巡检的效率,过滤掉大部分结构相似的网页,提出一种智能爬行算法.对爬取过程中URL去重,丢弃重复的URL;计算两个URL对应页面的相似度值,具体是将页面解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,将权重分配给每个节点,再根据给定的公式计算网页的相似度;以相似度为基础,使用聚合式层次聚类思想将具有相似结构的网页聚为一组,每组只留下一个网页,达到去除大部分结构相似的网页的目的.实验结果表明,该智能爬行算法可以有效地减少结构相似的网页,提高漏洞巡检系统的巡检效率.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号