【24h】

Optimal Hash List for Word Frequency Analysis

机译:词频分析的最佳哈希表

获取原文
获取外文期刊封面目录资料

摘要

Word frequency analysis plays an essential role in many data mining tasks of large-scale data set based on text corpus, and hash list is a very simple but efficient structure for frequent pattern discovering. In this paper, a Poisson approximation approach is exploited to analyze the space efficiency of hash list under different parameters on probability. Based on our theoretical model, an optimal parameter setting for hash list is given. Experimental result of real data shows that hash list with the optimal parameter can reach minimum or nearly minimum memory cost.
机译:词频分析在基于文本语料库的大规模数据集的许多数据挖掘任务中起着至关重要的作用,而哈希表是一种非常简单但有效的结构,可用于频繁的模式发现。本文采用泊松近似方法分析了哈希表在不同参数概率下的空间效率。基于我们的理论模型,给出了哈希表的最佳参数设置。实际数据的实验结果表明,具有最佳参数的哈希列表可以达到最小或几乎最小的存储成本。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号