首页> 中文会议>NDBC2009第26届中国数据库学术会议 >XCluster:基于聚类支持查询的XML多文档压缩方法

XCluster:基于聚类支持查询的XML多文档压缩方法

摘要

XML已成为各种网络应用中数据存储和数据交换的标准。XML数据管理面临的最大困难在于结构与数据混合存储导致大量数据冗余,这极大地增加了XML数据存储、交换和处理的代价。对XML文档进行压缩可以在一定程度上解决这个问题。但现有XML压缩方法大都仅压缩单文档中的冗余信息。本文利用XML文档间的相似性,提出一种支持查询的多XML文档压缩存储方法XCluster。XCluster先利用XML有根有序标签树上改进的pq-gram近似距离对XML文档集进行层次聚类:然后合并每个聚类结果子集中文档的结构得到结构代表并进行字典编码压缩;同时合并不同文档内同一标签下的值内容并根据其数据类型进行相应编码压缩。实验结果表明,在真实和生成的XML多文档数据集上,XClustcr比XGrind和XQilla具有更好的压缩效果和查询效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号