首页> 外文会议>International World Wide Web Conference; Edinburgh(GB) >Detecting Spam Web Pages through Content Analysis
【24h】

Detecting Spam Web Pages through Content Analysis

机译:通过内容分析检测垃圾网页

获取原文
获取原文并翻译 | 示例

摘要

In this paper, we continue our investigations of "web spam": the injection of artificially-created pages into the web in order to influence the results from search engines, to drive traffic to certain pages for fun or profit. This paper considers some previously-undescribed techniques for automatically detecting spam pages, examines the effectiveness of these techniques in isolation and when aggregated using classification algorithms. When combined, our heuristics correctly identify 2,037 (86.2%) of the 2,364 spam pages (13.8%) in our judged collection of 17,168 pages, while misidentify ing 526 spam and non-spam pages (3.1%).
机译:在本文中,我们将继续对“网络垃圾邮件”进行调查:将人工创建的页面注入到网络中,以影响搜索引擎的结果,将流量吸引到某些页面以获取乐趣或获利。本文考虑了一些以前未描述的自动检测垃圾邮件页面的技术,研究了这些技术在隔离时以及使用分类算法进行汇总时的有效性。综合起来,我们的启发式方法可以在我们判断出的17168页垃圾邮件中正确识别2364个垃圾邮件页面中的2037个(86.2%)(占13.8%),而错误地识别了526个垃圾邮件页面和非垃圾邮件页面(占3.1%)。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号