首页> 中文学位 >面向EasyWrangling的数据转换脚本执行引擎的研究与实现
【6h】

面向EasyWrangling的数据转换脚本执行引擎的研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.2 本文工作

1.3 论文结构

第2章 相关技术

2.1 MapReduce计算模型

2.2 Hadoop MapReduce

2.2.1 MapReduce v1

2.2.2 MapReduce v2

2.3 大数据处理技术

2.4 ETL技术

2.5 本章小结

第3章 系统架构

3.1 EasyWrangling系统概述

3.2 EasyWrangling脚本执行引擎架构

3.3 数据模型

3.4 数据操作

3.4.1 基础转换操作

3.4.2 高级转换操作

3.5 本章小结

第4章 脚本执行流程

4.3 执行计划树

4.4 MapReduce作业的生成

4.4.1 数据操作的MapReduce实现

4.5 本章小结

第5章 性能优化

5.1.2 操作合并

5.1.3 连接优化

5.2 多个数据转换脚本的执行优化

5.2.1 执行计划图构建

5.2.2 基于输入共事的数据操作合并

5.2.3 运行时执行计划优化器

5.3 本章小结

第6章 实验

6.3 实验数据

6.4 综合比较

6.5 性能优化实验

6.5.1 单个数据转换脚本执行

6.6 实验结果分析

6.6.1 单个数据转换脚本执行

6.6.2 多个数据转换脚本执行

6.7 本章小结

7.1 总结

7.2 展望

参考文献

攻读硕士学位期间的主要研究成果

致谢

展开▼

摘要

自助式的数据准备技术提供了一种基于图形化的交互式数据转换处理工具,能够根据用户在图形化界面中的鼠标点选等交互操作,推测用户的数据转换意图并生成数据转换操作,避免了对数据转换逻辑的程序编码。
  面向大数据的自助式数据准备技术具有处理海量数据的能力,能够将用户的交互操作转换为针对大规模数据的数据处理逻辑,并保证相关处理逻辑的伸缩性和效率,实现高效可扩展的数据处理。
  EasyWrangling是一个面向大数据的自助式数据准备工具,其主要由前端图形化界面程序和后端执行引擎两个部分构成。本文工作主要针对后端执行引擎进行。后端引擎通过对数据转换脚本进行解析和优化并生成对应的处理逻辑,对存储在Hadoop平台上的海量数据进行处理。本文主要对将由用户交互所生成的数据操作逻辑应用于处理大规模数据的问题以及EasyWrangling中后端执行引擎的设计实现进行了相关的研究。主要工作包括:
  1.形式化地定义了面向大数据的自助式数据准备技术中所使用的数据模型以及针对数据模型的数据转换操作。设计了声明式的数据转换语言Wrangling DSL,用于描述用户在图形化交互界面中生成的数据转换操作。基于MapReduce计算模型,对面向大数据的自助式数据准备技术中的数据操作进行了设计和实现。
  2.设计并实现了基于Wrangling DSL数据转换语言的脚本执行引擎原型系统,能够将数据转换脚本转换为Hadoop MapReduce分布式计算平台上的MapReduce上的程序。
  3.针对单个数据转换脚本执行和多个数据转换脚本执行提出了优化方案来优化执行时的时空效率。通过实验检验了系统的伸缩性和性能,并对两种数据转换脚本执行优化方案进行了实验验证,印证了方案的可行性和有效性。

著录项

  • 作者

    魏嘉荣;

  • 作者单位

    浙江大学;

  • 授予单位 浙江大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 陈刚;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    大数据; 数据转换; 数据准备; 脚本执行引擎;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号