首页> 外文会议>International Conference on Data Warehousing and Knowledge Discovery >Hybrid Approach to Web Content Outlier Mining Without Query Vector
【24h】

Hybrid Approach to Web Content Outlier Mining Without Query Vector

机译:Hybrid方法在没有查询向量的没有查询传染媒介

获取原文
获取外文期刊封面目录资料

摘要

Mining outliers from large datasets is like finding needles in a haystack. Even more challenging is sifting through the dynamic, unstructured, and ever-growing web data for outliers. This paper presents HyCOQ, which is a hybrid algorithm that draws from the power of n-gram-based and word-based systems. Experimental results obtained using embedded motifs without a dictionary show significant improvement over using a domain dictionary irrespective of the type of data used (words, n-grams, or hybrid). Also, there is remarkable improvement in recall with hybrid documents compared to using raw words and n-grams without a domain dictionary.
机译:来自大型数据集的挖掘异常值就像在干草堆中找到针头。甚至更具挑战性正在通过用于异常值的动态,非结构化和不断增长的Web数据来实现筛选。本文呈现Hycoq,它是一种混合算法,其从基于N-GRAM的基于单词的系统中汲取的混合算法。使用没有字典的嵌入式图案获得的实验结果显示了使用域字典的显着改进,而不管使用的数据类型(单词,n-gram或混合)。此外,与在没有域字典的未经域字典的原始单词和n-grams相比,召回具有显着的改进。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号