首页> 外文会议>Data Compression Conference (DCC), 2012 >Indexing Sequences of IEEE 754 Double Precision Numbers
【24h】

Indexing Sequences of IEEE 754 Double Precision Numbers

机译:IEEE 754双精度数字的索引序列

获取原文
获取原文并翻译 | 示例

摘要

In the last decades, much attention has been paid to the development of succinct data structures to store and/or index text, biological collections, source code, etc. Their success was in most cases due to handling data with a relatively small alphabet size and to typically exploit a rather skewed distribution (text) or simply the repetitiveness within the source data (source code repositories, biological sequences of similar individuals). In this work, we face the problem of dealing with collections of floating point data that typically have a large alphabet (a real number hardly ever repeats twice) and a less biased distribution. We present two solutions to store and index such collections. The first one is based on the well-known inverted index. It consumes space around the size of the original collection, providing appealing search times. The second one uses a wavelet tree, which at the expense of slower search times, obtains slightly better space consumption.
机译:在过去的几十年中,简洁的数据结构已被广泛关注,以存储和/或索引文本,生物学集合,源代码等。在大多数情况下,它们的成功归因于处理字母大小相对较小且通常会利用偏斜的分布(文本)或仅利用源数据(源代码存储库,相似个体的生物学序列)中的重复性。在这项工作中,我们面临的问题是处理浮点数据的集合,这些集合通常具有较大的字母(一个实数几乎不会重复两次)和较少的偏差分布。我们提供两种解决方案来存储和索引此类集合。第一个基于众所周知的倒排索引。它消耗的空间接近原始收藏的大小,提供了吸引人的搜索时间。第二个使用小波树,它以较慢的搜索时间为代价,获得了更好的空间消耗。

著录项

  • 来源
    《Data Compression Conference (DCC), 2012》|2012年|p.367- 376|共10页
  • 会议地点 Snowbird UT(US)
  • 作者

    Farina A.;

  • 作者单位

    Database Lab., Univ. of A Coruna, A Coruña, Spain;

  • 会议组织
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 TP311.56;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号