首页> 中文期刊> 《微型电脑应用》 >基于HTML标记和长句提取的网页去重算法

基于HTML标记和长句提取的网页去重算法

     

摘要

提出了一种高效的算法来去除互联网上的重复网页.该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征.通过分析两张网页所共享长句的数量,来判断两张网页是否重复.该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度.实验结果表明该算法能够高效,准确地去除重复的网页.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号