首页> 中文学位 >大型数据表语义压缩方法研究
【6h】

大型数据表语义压缩方法研究

代理获取

目录

文摘

英文文摘

东南大学学位论文独创性声明及使用授权声明

第一章 引言

1.1研究背景

1.2研究现状

1.3论文内容及结构

1.3.1论文的工作

1.3.2论文的组织结构

第二章 现有语义压缩技术

2.1 Fascicles

2.2 ItCompress

2.3 SPARTAN

2.4现有语义压缩技术小结

第三章 双向数据语义压缩框架

3.1问题描述

3.2双向语义压缩方法框架结构

3.2.1初步处理

3.2.2列方式压缩

3.2.3行方式压缩

3.2.4压缩计划描述

第四章 列方式压缩

4.1相关分析

4.1.1基本概念

4.1.2属性相关关系判断算法

4.1.3算法实现及实验结果

4.2主成分分析

4.2.1基本概念

4.2.2基本原理数学描述

4.2.3示例结果

4.3预测模型分析

4.3.1属性依赖关系图

4.3.2属性分类及构建预测模型

4.3.3回归预测模型

4.3.4径向基函数神经网络预测模型

4.4本章小结

第五章 行方式压缩

5.1聚类分析

5.1.1聚类分析基本概念及方法

5.1.2基于匹配程度的聚类分析算法

5.1.3主成分分析—聚类分析压缩算法

5.1.4预测模型分析—聚类分析算法

5.1.5性能分析及其实验结果

5.2时序分析

5.2.1时序分析基本概念及方法

5.2.2时序分析算法

5.2.3性能分析及其实验结果

5.3本章小结

第六章 压缩计划

6.1描述方法

6.1.1 XML Schema

6.1.2压缩计划的XML Schema

6.1.3存储结果

小结

参考文献

致谢

展开▼

摘要

随着信息时代的到来,人们面对着与日俱增的庞大信息,对其存储和处理均有一定的困难。故对数据采用压缩技术,实现数据约简,具有重大的研究价值和实践意义。 从信息冗余类型角度考虑,数据压缩技术分为语法压缩和语义压缩。语法压缩基于数据统计,减少数据冗余;语义压缩基于语义,减少内容冗余。 从压缩的角度考虑,数据分为数值型数据与非数值型数据。在很多实际应用场合,都会产生大型数据表,可用二维表结构来逻辑表达的数据,也称结构化的数值性数据。 语法压缩被建议用于处理非数值型数据,如文字,图像,音视频等,而如果用于处理大型数据表,不能提供较理想的解决方案。现在人们研究如何将语义压缩用于大型数据表。语义压缩是指发掘数据中语义模型,揭示数据中蕴含的含义,潜在的关联,并运用到数据压缩过程中。语义压缩一般属于有损压缩,即允许一定的误差存在。 在关于大型数据表的语义压缩方法的研究中,现有的一些语义压缩方法,如Fascicles、ItCompress、SPARTAN等,在灵活性和压缩性能方面存在一定的缺陷性。本文根据实际数据特性,提出一种双向语义压缩框架(Bidirectional Semantic Compression,BSC),以及由此衍生的三种压缩算法,并进行了实验验证。 BSC结合了列方式压缩和行方式压缩,综合分析了各种数据特性,如相关关系、时序性等,采用不同的压缩策略。如数据属性线性相关关系明显,选用主成分分析-聚类分析压缩算法;如线性相关关系不明显,而数据又不存在时序性,选用预测模型分析-聚类分析压缩算法;如线性相关不明显,而数据具有时序性,选用预测模型分析-时序分析算法。 由BSC框架中衍生出的三种压缩算法,实验证明了算法的适用性较好,压缩效率要优于其它语义压缩算法。 采用以上提到的相应的压缩算法,在给定允许误差范围内,对原数据表进行重新组织,制定压缩计划。压缩计划采用了XML语言的形式。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号