首页> 中文期刊>计算机应用 >基于网页文本结构的网页去重

基于网页文本结构的网页去重

     

摘要

搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担.针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法.该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法.实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号