首页> 中文学位 >一种即时增量数据分析框架设计及实现
【6h】

一种即时增量数据分析框架设计及实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 问题背景

1.2 研究现状

1.2.1 MapReduce Online Prototype(HOP)

1.2.2 Nova

1.2.3 Incoop

1.2.4 其他并行处理系统

1.3 本文研究内容

1.4 本文组织结构

第2章 即时增量数据分析框架总体架构

2.1 相关研究基础简介

2.1.1 MapReduce工作流程

2.1.2 MapReduce的容错和负载均衡

2.1.3 HBase简介

2.1.4 Hadoop与HDFS

2.2 IncRT_MR的总体设计

2.3 IncRT_MR中任务执行流程

2.4 容错和负载均衡

2.5 小结

第3章 即时增量数据分析框架详细设计及实现

3.1 输入数据处理

3.1.1 文件系统中的文件分块

3.1.2 HBase中文件分块

3.2 增量数据计算

3.2.1 状态表的设计

3.2.2 Map阶段增量处理

3.2.3 Reduce阶段的增量处理

3.3 即时数据处理

3.3.1 数据阻塞原因

3.3.2 延迟解决方案

3.3.3 验证与分析

3.4 连续任务处理

3.5 容错与负载均衡

3.5.1 IncRT_MR的容错机制

3.5.2 IncRT_MR的负载均衡机制

3.6 小结

第4章 实时调度算法

4.1 MapReduce调度原理

4.2 实时调度算法的关键问题

4.3 两阶段实时调度算法

4.3.1 定义

4.3.2 任务运行时间估计

4.3.3 动态资源分配

4.3.4 调度策略

4.3.5 调度算法描述

4.4 实验与结果分析

4.5 小结

第5章 总结与展望

5.1 本文的工作与创新

5.2 工作展望

参考文献

致谢

在读期间发表的学术论文与取得的其他研究成果

展开▼

摘要

互联网的快速发展对大规模数据处理技术提出了新的挑战,目前业界广泛使用的数据处理系统多数基于Google提出的MapReduce并行处理框架,MapReduce在处理静态批量数据时优势明显,然而在遇到如下需求时,其表现并不尽如人意:
   (1)增量数据分析。每当数据到达时,MapReduce都会进行一次完整的计算,其在处理增量到达数据时不能利用历史计算结果。重复数据计算不仅加重了集群负载,也增大了数据处理延迟,影响用户体验。
   (2)即时输出结果。MapReduce的框架设计决定了其在得到最终结果前不会产生任何可供用户参考的输出。对于需要数小时甚至数天运行的任务来说,产生最终结果前用户只能等待,这种长时间“静默”行为令用户难以接受。
   本文通过修改MapReduce框架解决上述问题,主要工作和特色如下:
   (1)提出一种改进的即时增量数据分析框架(IncRT_MR)。
   (2)使用输入处理模块和状态表实现数据增量处理。输入处理模块用于计算数据增量;状态表用于保存中间结果,以便数据重用。
   (3)通过提前数据拷贝与提前Reduce任务调度实现数据处理结果的即时输出。该方案消除了Map和Reduce端的同步栅障,保证结果即时产生与显示。
   (4)提出两阶段实时调度算法增强任务的实时性并维护系统负载平衡。
   对于系统容错问题,本文使用“检查点”策略,在数据处理过程中不断对输入数据做“检查点”,产生错误时从“检查点”处继续处理。利用增量和即时数据处理特性,IncRT_MR还适用处理连续多级的实时处理任务。本文提出的即时增量数据处理框架继承了MapReduce基本架构和API,编程接口简单且方便现有MapReduce应用的迁移。对比实验证明,对MapReduce的实时性修改达到了即时获取结果的目的,且开销合理;而两阶段实时调度算法相对于传统FIFO和公平调度算法,在保证系统吞吐量同时能够满足任务实时性需求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号