首页> 中文学位 >一种海量结构化数据处理技术研究
【6h】

一种海量结构化数据处理技术研究

代理获取

目录

摘要

第一章 引言

1.1 研究背景及意义

1.2 国内外相关技术概况

1.2.1 Hive

1.2.2 HadoopDB

1.2.3 Greenplum

1.3 论文的主要工作

1.4 论文的结构安排

第二章 相关综述

2.1 Hadoop

2.1.1 Hadoop架构

2.1.2 HDFS

2.1.3 NameNode

2.1.4 DataNode

2.1.5 文件操作

2.1.6 Linux集群

2.2 MapReduce

2.3 ANTLR

2.3.1 ANTLR简介

2.3.2 词法分析器(Lexer)

2.3.3 语法分析器(Parser)

2.3.4 自顶向下分析方法

2.4 PostgreSQL

2.5 相关思想

2.5.1 数据仓库

2.5.2 数据库引擎

2.5.3 分布式计算

2.5.4 并行数据库

2.6 本章小结

第三章 系统结构及功能与实现

3.1 系统总体结构

3.2 各模块简介

3.2.1 Hadoop MasterNode

3.2.2 FlexDB Master Node

3.2.3 ChunkNode

3.2.4 Metadata Database

3.3 功能描述

3.3.1 Load Data

3.3.2 Select数据

3.3.3 Drop Table

3.4 本章小结

第四章 实验与结果分析

4.1 实验环境

4.1.1 硬件环境

4.1.2 软件环境

4.2 实验数据

4.3 实验结果与分析

4.3.1 实验的测量数据

4.3.2 实验的结果与分析

4.4 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

声明

展开▼

摘要

随着计算机的普及及互联网的迅猛发展,信息呈现爆炸式地增长。人们需要从这些越来越多、越来越复杂的数据中找到对自己有用的信息,因而,对于海量数据的处理和分析变得越来越重要。当前,社会上有很多针对海量数据处理和分析的工具,如Hadoop、各种并性数据库和HadoopDB等。但是,Hadoop处理结构化数据比较困难,HadoopDB仅仅是一个试验性的项目,由各种各样的缺点。因此,对于海量的结构化数据来说,需要一种新的处理技术或工具。
  本文研究了一种基于Hadoop平台的海量结构化数据处理的技术。FlexDB系统使用SQL语言,便于学习和使用;使用ANTLR建立分析器,并对SELECT查询等操作做了一些优化,以便提高查询效率;基于MapReduce的思想,可以把所有的操作都分成子操作来完成。
  要利用系统处理信息,首先要把要处理数据装载如系统,此时要对元数据数据序进行操作以记录下数据的基本信息并在各节点创建子表;然后可以对数据进行处理,主要是SELECT查询操作,并把处理结果显示出来或写存到相应的数据库中,也可能查询之后删除某些记录或字表,此时进行DELETE删除操作。
  论文首先介绍了研究背景和意义,之后介绍了当前国内外海量结构化数据处理技术的现状;然后介绍了系统中使用的各种技术和相关思想;接着介绍了FlexDB系统的结构框架并详细描述了数据装载与语法分析器部分的实现;之后使用一组数据让FlexDB、Hive、HadoopDB分别进行处理,证明新技术的比较优势;最后对论文进行了总结。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号