大数据存储结构及查询优化研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

大数据不仅需要海量存储的系统，而且需要高速的数据加载、快速的查询处理、存储空间的高利用率以及适应动态高负载。由于传统关系型数据库在管理大数据时遇到各种困难和阻碍，新型分布式系统应运而生。但在大数据存储和查询仍有不足之处，本文从数据存储结构和MapReduce作业相关性两个方面对分布式系统下大数据存储结构及查询优化分析研究。
　　在分布式系统中，数据存储结构直接影响大数据的存储效率和处理性能。行式存储结构下，数据从本地读取，加载速度快，但压缩效率低且加载了多余数据;列式存储结构下，数据压缩效率高，但数据跨节点访问增加了网络传输消耗。针对行式存储结构和列式存储结构的特点，提出一种以行列结合的存储方式，对数据存储结构进行改进。通过理论比较分析，行列结合存储在数据加载速度上略低于行式存储;在数据压缩效率上，比行式存储和列式存储的效率都高。行列结合的存储结构不仅避免行式存储的额外磁盘I/O开销，同时也减少了列式存储不必要的网络传输，极大地提高分布式系统对大数据存储效率及处理性能。
　　现有翻译方式在复杂SQL查询时存在的低性能问题，其原因是忽略了MapReduce作业间的相关性，产生了大量冗余操作，消耗不必要的资源，从而急剧降低了查询性能。本文从输入相关性，数据转换相关性，作业流相关性三个方面对翻译结果进行优化改进，并给出优化条件和优化规则，合并冗余的MapReduce作业以减少不必要的资源消耗，从而提高大数据查询速度。

著录项

作者
周凯东;
展开▼
作者单位

河北工程大学;

展开▼
授予单位河北工程大学;
学科计算机应用技术
授予学位硕士
导师姓名张永强;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
大数据; 分布式系统; 存储结构; MapReduce作业; 查询优化;

相似文献

中文文献
外文文献
专利

1. 大数据存储结构及查询优化 [J] . 陈冬梅 . 信息与电脑 . 2018,第002期
2. 分布式系统下大数据存储结构优化研究 [J] . 冯汉超 ,周凯东 . 河北工程大学学报（自然科学版） . 2014,第004期
3. 大数据环境下数据的查询优化研究 [J] . 卫长安 . 长治学院学报 . 2015,第005期
4. 基于Hadoop平台的电信大数据入库及查询性能优化研究 [J] . 陈娜 ,张金娟 ,刘智琼 . 移动通信 . 2014,第007期
5. 大数据环境下基于Hbase的分布式查询优化研究 [J] . 杜晓东 . 计算机光盘软件与应用 . 2014,第008期
6. XML数据磁盘存储结构LDFB及其查询处理方法 [C] . 李慧婷 ,李建中 ,王宏志 . 第二十三届中国数据库学术会议（NDBC2006） . 2006
7. 基于HBase的交通大数据查询优化研究 [A] . 苏旭博 . 2018

大数据存储结构及查询优化研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅