首页> 外文期刊>Journal of experimental algorithmics >Practical Compact Indexes for Top-k Document Retrieval
【24h】

Practical Compact Indexes for Top-k Document Retrieval

机译:适用于Top-k文档检索的实用紧凑索引

获取原文
获取原文并翻译 | 示例

摘要

We present a fast and compact index for top-k document retrieval on general string collections, in which givenrna string pattern, the index returns the k documents where it appearsmost often.We adapt a linear-space andrnoptimal-time theoretical solution, whose implementation poses various algorithm engineering challenges.rnAlthough a naive implementation of the optimal solution is estimated to require around 80n bytes for a textrncollection of n symbols, our implementation requires 2.5n to 3.0n bytes, text included, and answers queriesrnwithin microseconds. This outperforms all previous practical indexes by orders of magnitude; the only indexrnusing less space is hundreds of times slower. Our index can be built on collections of hundreds of gigabytesrnand on tokenized text collections.
机译:我们提出了一个快速而紧凑的索引,用于在一般字符串集合上检索前k个文档,在给定的字符串模式下,该索引返回最常出现的k个文档。我们采用了线性空间和最优时间理论解决方案,其实现方式尽管估计天真的最佳解决方案的实现需要大约80n个字节来收集n个符号的文本,但是我们的实现却需要2.5n至3.0n个字节(包括文本),并在微秒内回答查询。这比以前的所有实际指标都好几个数量级。减少空间的唯一索引要慢数百倍。我们的索引可以建立在数百GB的集合和标记化文本集合的基础上。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号