首页> 外文期刊>電子情報通信学会技術研究報告 >接尾辞木を用いた圧縮尺度計算による効率よいスパムポスト検出手法
【24h】

接尾辞木を用いた圧縮尺度計算による効率よいスパムポスト検出手法

机译:通过后缀树按比例缩放比例计算的有效垃圾邮件事后检测方法

获取原文
获取原文并翻译 | 示例
       

摘要

In this paper, we propose a content-based spam detection algorithm for blog spams and bulletin board spams. For a given document set D, our algorithm constructs a probabilistic model by using suffix trees, and detects spam documents in D. Experimental results showed that our algorithm performs well for detecting word salad spams, which are believed to be difficult to detect automatically.%本稿では,ブログや掲示板を対象とした内容ベースの効率よいスパムポスト検出手法を提案する.本手法は,与えられた文書集合に対して接尾辞木を用いた確率モデル(確率接尾辞木)を構築し,この文書集合上の推定された出現確率を利用して検出を行う.実際のウェブ上の掲示板データを用いた計算機実験では,提案手法の有効性を示した.特に,現在の技術では検出が比較的困難なスパムであるワードサラダに対する有効性が示された.
机译:本文针对博客垃圾邮件和公告栏垃圾邮件提出了一种基于内容的垃圾邮件检测算法。对于给定的文档集D,该算法使用后缀树构造概率模型,并在D中检测垃圾邮件文档。实验结果表明:该算法为博客和公告栏提供了一种基于内容的高效垃圾邮件后检测方法,该算法在检测文字沙拉垃圾邮件方面表现良好,据信这些垃圾邮件很难自动检测。该方法使用给定文档集的后缀树构造概率模型(概率后缀树),并使用估计的出现概率对该文档集执行检测。在使用实际Web上的布告栏数据的计算机实验中,表明了该方法的有效性。尤其是,已经证明了当前技术针对文字沙拉的有效性,文字沙拉是相对难以检测的垃圾邮件。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号