首页> 中文期刊> 《计算机应用与软件》 >海量网络文本去重系统的设计与实现

海量网络文本去重系统的设计与实现

     

摘要

如今网络和信息技术飞速发展,每天都有数以亿万计的文本数据产生.然而,不可避免地有很多文本内容是重复的.这样导致用户在利用搜索引擎搜索或者在网站上浏览内容时会看到很多相似的东西.这不仅给用户带来了不好的体验,对内容提供商来说,也需要花费更多的资源对重复冗余的内容进行存储.因此,对文本做一些相似度判断的基本处理,去除重复的文本有很重要的意义和价值.提出设计和实现一种基于simhash的文本去重系统.该系统可以对每天新产生的文本内容进行相似度计算,对于相似的内容只生成一份唯一标识并进行入库处理,有效排除了相似度太高的重复文本.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号