首页> 中文期刊> 《电脑编程技巧与维护》 >一种双层网页去重方法研究

一种双层网页去重方法研究

         

摘要

利用Bloom Filter数据结构、shingling算法和MD5编码,构造双层网页去重模型.通过Bloom Filter结构,在网络蜘蛛程序下载网页时,去除重复的网址,并讨论了Bloom Filter出错概率.对已下载的网页用shingling算法去重,阐述了相似网页的判断方法.通过实验,得到了最后的结果,并指出了模型存在的缺点和该方法的后续研究方向.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号