首页> 中文学位 >xml文件压缩存储和自索引研究
【6h】

xml文件压缩存储和自索引研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1背景

1.2本文的组织结构

第二章基础知识介绍

2.1 XML概述

2.2 XML文档的内容

2.2全文文本压缩技术

2.3算术编码

2.4基于XML的索引技术

第三章基于BWT的XML文件压缩和存储策略

3.1存储策略和查询响应整体流程图示及解释

3.2 XML压缩后文件存储结构设计

3.3压缩过程

3.3.1 BWT变换

3.3.2哈夫曼编码

3.3.1 RLE压缩

第四章查询处理

4.1节点级查询

4.2解压缩过程

4.3逆BWT变换

4.4自索引

4.4.1后缀数组

4.4.2后缀数组的生成算法

第五章存储策略和查询响应举例

第六章实验报告

第七章总结与展望

参考文献

致谢

展开▼

摘要

XML目前已经成为Internet上的“国际语言”,所以,如何使数据库管理系统对XML文件进行良好的支持就成为了当前的研究热点。 本文讨论的内容,就是在纯XML数据库管理系统下,对XML文件进行压缩存储以及对压缩后的文件实现自索引。 由于XML文件需要对数据的结构进行描述,具体的方式就是加入标签,这使得XML文件所占的存储空间变大。而对应的解决办法,就是对文件进行压缩。传统的压缩方法不能保持XML文件的结构,所以当进行查询的时候,需要将文件先进行解压缩,或者先要对查询关键字进行同样的压缩处理,才能够进行查询。 本文针对XML数据冗余大的问题,同样对文件进行了压缩处理。但是,本文采取保持XML文件结构,只对其中文本结点中的文字内容部分进行压缩。这样在节点级别进行查询操作时可以不进行解压,当查询定位到某个节点以后,才需要把相应的内容进行解压缩操作,这样就提高了效率。 对于本文提出的存储方法,给出了对应的查询方式,其特点就是在锁定要查询内容所在的节点位置的前提下,再对节点内容进行解压缩,同时,在解压缩的过程中,创建出文本的后缀数组作为节点内容文本的全文索引,然后使用索引进行进一步的查询,其查询效率就大大提高了。因为系统并不需要单独存放文本内容的索引文件,而是在解压缩的过程中生成索引,这也就使被压缩的文件具有了自索引的特点。

著录项

  • 作者

    傅厚荃;

  • 作者单位

    天津师范大学;

  • 授予单位 天津师范大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 包小源;
  • 年度 2009
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    XML文件; 压缩存储; 自索引; 后缀数组;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号