首页> 中文学位 >大数据环境下的实时流式数据处理技术
【6h】

大数据环境下的实时流式数据处理技术

代理获取

目录

声明

摘要

缩略词表

第一章 绪论

1.1 研究背景

1.2 研究现状

1.2.1 数据本地化

1.2.2 MapReduce数据流水线

1.2.3 内存策略

1.2.4 现状总结

1.3 研究目标

1.4 研究内容

1.4.1 数据无冗余本地化存放与处理机制

1.4.2 数据发送流水线机制

1.4.3 内存管理方法

1.5 论文组织结构

第二章 StreamMapReduce系统设计方案

2.1 MapReduce

2.2 StreamMapReduce的系统结构

2.3 StreamMapReduce应用实例

2.3.1 问题分析

2.3.2 问题解决

第三章 数据本地化

3.1 hash划分法

3.2 概率统计划分法

3.3 数据本地化小结

第四章 中间数据分发流水线

4.1 数据分发具体过程

4.2 数据分发算法

4.3 分发流水线控制与调度

4.4 数据分发小结

第五章 内存管理

5.1 KVBTree概要

5.2 存储块结构

5.2.1 索引节点与顺序节点

5.2.2 数据节点

5.3 数据缓存机制

5.3.1 缓存索引表、缓存区、缓存信息表

5.3.2 内存访问方法

5.3.3 缓存机制分析

5.4 KVBTree定义及相关算法

5.4.1 KVBTree的定义

5.4.2 KVBTree算法概论

5.4.3 查找算法

5.4.4 插入算法

5.4.5 遍历算法

5.4.6 KVBTree算法小结

5.5 内存管理小结

第六章 系统集成与测试

6.1 系统集成架构

6.1.1 输入输出系统

6.1.2 内存管理系统

6.1.3 运算框架

6.2 测试环境

6.2.1 硬件环境

6.2.2 软件环境

6.2.3 测试数据集

6.2.4 流式数据模拟产生器

6.3 系统测试

6.3.1 KVBTree单节点负载测试

6.3.2 StreamMapReduce运行界面

6.3.3 StreamMapReduce性能测试

6.3.4 StreamMapReduce对比Hadoop、S4

第七章 总结与展望

7.1 研究成果总结

7.2 未来工作展望

参考文献

致谢

附录

作者在攻读硕士学位期间相关研究工作

作者简历

展开▼

摘要

随着网络应用的持续增加,以及相关业务的发展与延伸,产生并积累了大量的数据;与此同时,针对大数据的分布式计算框架不断出现并改进。根据应用场景,大数据的处理可以简单地分为两类:一类是以MapReduce为代表的静态批量数据处理方法,具有紧耦合、高吞吐率、高延迟的特性,适用于实时性要求不高但数据量较大的应用;另一类是以S4为代表的实时流式数据处理方法,这是一种针对数据流的实时分析框架,具有松耦合、低吞吐率、低延迟的特性,被广泛应用于实时响应的系统中。
  然而,还有一类介于二者之间的应用,可称之为大数据环境下的实时流式数据处理,该类应用需要结合静态的历史数据,实时对数据流作出响应。针对这种应用,MapReduce虽然可以通过缓存数据流批量进行处理,但其响应时间较长,达不到实时性要求;现有的流式数据处理系统虽然可以对数据流实时响应,但其中间数据存储空间有限,无法存储海量的中间数据,具有很大的局限性。目前,对于大数据环境下的实时流式数据处理,缺少成熟的系统方法。
  本文即针对这种应用场景提出StreamMapReduce计算系统,同时保证中间数据的海量存储与系统的实时性能,解决大数据环境下的实时流数据处理问题。论文的主要工作包括以下四个方面点:首先,提出StreamMapReduce的总体方案设计,StreamMapReduce是基于MapReduce计算模型开发计算系统,为了提高系统计算效率,对MapReduce编程模型进行改进,主要是通过管理中间数据的分发、存储、读取过程,来并行化map过程与洗牌过程;其次,研究数据本地化机制,通过数据划分促使各节点独立无冗余运算;再次,研究数据分发流水线机制,以保证数据的发送与接收能够高效地进行;最后,重点研究内存的管理具体方法,主要是建立适用于key/value存储的B+树结构,同时为了扩展存储空间,建立内外存交换机制,之后,实现该树的查找、插入与遍历算法。
  综上,本论文提出了一套大数据环境下流式数据处理的技术方案,研究并解决了其中存在的难点问题,有针对性地设计了数据本地化机制、数据分发流水线机制及内存管理系统,最后在此基础上开发出StreamMapReduce系统。通过最后的系统测试与对比实验可以看出,StreamMapReduce具有良好的存储性能与响应速度,能够很好地完成大数据环境下流式数据分析任务。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号