首页> 美国卫生研究院文献>other >Squish: Near-Optimal Compression for Archival of Relational Datasets
【2h】

Squish: Near-Optimal Compression for Archival of Relational Datasets

机译:Squish:关系数据集归档的近最佳压缩

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Relational datasets are being generated at an alarmingly rapid rate across organizations and industries. Compressing these datasets could significantly reduce storage and archival costs. Traditional compression algorithms, e.g., gzip, are suboptimal for compressing relational datasets since they ignore the table structure and relationships between attributes.We study compression algorithms that leverage the relational structure to compress datasets to a much greater extent. We develop Squish, a system that uses a combination of Bayesian Networks and Arithmetic Coding to capture multiple kinds of dependencies among attributes and achieve near-entropy compression rate. Squish also supports user-defined attributes: users can instantiate new data types by simply implementing five functions for a new class interface. We prove the asymptotic optimality of our compression algorithm and conduct experiments to show the effectiveness of our system: Squish achieves a reduction of over 50% in storage size relative to systems developed in prior work on a variety of real datasets.
机译:关系数据集正在以惊人的速度在整个组织和行业中生成。压缩这些数据集可以大大减少存储和归档成本。传统的压缩算法(例如gzip)在压缩关系数据集方面次优,因为它们忽略了表结构和属性之间的关系。我们研究了利用关系结构对数据集进行更大程度压缩的压缩算法。我们开发了Squish,该系统结合使用贝叶斯网络和算术编码来捕获属性之间的多种依存关系,并实现接近熵的压缩率。 Squish还支持用户定义的属性:用户可以通过简单地为新类接口实现五个功能来实例化新数据类型。我们证明了压缩算法的渐近最优性,并进行了实验以证明我们系统的有效性:相对于先前在各种真实数据集上开发的系统,Squish的存储大小减少了50%以上。

著录项

  • 期刊名称 other
  • 作者

    Yihan Gao; Aditya Parameswaran;

  • 作者单位
  • 年(卷),期 -1(2016),-1
  • 年度 -1
  • 页码 1575–1584
  • 总页数 35
  • 原文格式 PDF
  • 正文语种
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号