首页> 中文期刊> 《计算机工程与设计 》 >基于主题的网页噪音去除机制

基于主题的网页噪音去除机制

             

摘要

由于主题的缺失,传统的网页噪音去除算法均是通过一些启发式的规则判断哪些是有用信息,哪些是噪音信息.而在主题爬行的环境下,由于有了明确的主题,可以使用一些不同的方法来发现网页噪音.提出了一种基于主题的网页噪音去除算法,通过构造网页DOM树的一个变种,即内容块树,利用分类器判断网页的噪音块.实验结果表明,该方法噪音去除精度是87%,而以前的方法仅有42%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号