首页> 外文会议>String processing and information retrieval >Improved Compressed Indexes for Full-Text Document Retrieval
【24h】

Improved Compressed Indexes for Full-Text Document Retrieval

机译:全文文档检索的改进的压缩索引

获取原文
获取原文并翻译 | 示例

摘要

We give new space/time tradeoffs for compressed indexes that answer document retrieval queries on general sequences. On a collection of D documents of total length n, current approaches require at least |CSA| + O(n(lg D)/(lglg D)) or 2|CSA| + o(n) bits of space, where CSA is a full-text index. Using monotone minimum perfect hash functions, we give new algorithms for document listing with frequencies and top-k document retrieval using just |CSA| + O(n lglglg D) bits. We also improve current solutions that use 2|CSA| + o(n) bits, and consider other problems such as colored range listing, top-k most important documents, and computing arbitrary frequencies.
机译:我们为压缩索引提供了新的空间/时间权衡,这些索引可以回答有关常规序列的文档检索查询。对于总长度为n的D个文档的集合,当前方法至少需要| CSA |。 + O(n(lg D)/(lglg D))或2 | CSA | + o(n)位空格,其中CSA是全文索引。使用单调最小完美散列函数,我们给出了新的算法,用于仅使用| CSA |就可以频繁地进行文档列表和top-k文档检索。 + O(n lglglg D)位。我们还将改进使用2 | CSA |的当前解决方案。 + o(n)位,并考虑其他问题,例如彩色范围列表,top-k最重要的文档以及计算任意频率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号