首页> 中文期刊>小型微型计算机系统 >Web信息采集中的哈希函数比较

Web信息采集中的哈希函数比较

     

摘要

在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf.采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.

著录项

  • 来源
    《小型微型计算机系统》|2006年第4期|673-676|共4页
  • 作者

    吴丽辉; 白硕; 张刚; 张凯;

  • 作者单位

    中国科学院,计算技术研究所,软件研究室,北京,100080;

    中国科学院,研究生院,北京,100039;

    中国科学院,计算技术研究所,软件研究室,北京,100080;

    中国科学院,计算技术研究所,软件研究室,北京,100080;

    中国科学院,研究生院,北京,100039;

    中国科学院,计算技术研究所,软件研究室,北京,100080;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 编译程序、解释程序;
  • 关键词

    Web信息采集; 哈希函数; URL;

  • 入库时间 2022-08-18 05:58:48

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号