首页> 中文期刊> 《计算机仿真》 >基于改进VIPS算法的主题退火爬虫技术

基于改进VIPS算法的主题退火爬虫技术

     

摘要

针对现有主题爬虫技术中存在爬虫覆盖率较低、主题漂移率较高等问题,提出设计一种基于改进VIPS算法的主题退火爬虫技术.通过改进VIPS算法提取当前页面内对对应的视觉块,对视觉块中主要内容实施方式进行判别,将与主题特征相符合的内容块筛选并存入数据库中,将与主题特征不相符的内容块则直接刨除;在Heritrix的基础上,设计主题退火爬虫的结构;通过对规则引擎进行整合,使规则引擎可以在主题退火爬虫中运行,并对执行抓取任务时状态和网页信息进行获取,最终实现了主题退火爬虫技术的实现.仿真结果表明,所提方法爬虫覆盖率较高,且主题漂移率较低,具有一定优势.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号