首页> 中文学位 >基于批处理模式的实时流处理系统
【6h】

基于批处理模式的实时流处理系统

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1课题背景

1.2国内外研究现状

1.3论文主要研究内容

1.4论文组织结构

2 基于批处理模式的实时流处理系统总体设计

2.1系统的设计目标

2.2系统概述

2.3系统架构

2.4系统的处理流程

2.5小结

3 基于批处理模式的实时流处理系统关键技术实现

3.1输入流信息收集

3.2节点处理能力评估

3.3作业状态监控

3.4针对小任务的调度分发

3.5负载均衡机制

3.6小结

4 系统测试

4.1系统测试环境

4.2系统功能测试

4.3系统性能测试

4.4小结

5 总结与展望

致谢

参考文献

附录1 攻读硕士学位期间申请的软件著作版权

附录2 攻读硕士学位期间参与的项目

展开▼

摘要

随着互联网的快速发展和各类智能设备的普及,人类产生的数据量呈爆炸式增长。如何实时有效地处理这些大数据已经成为当今学界和工业界的研究热点。为此,涌现出许多分布式流处理框架。它们大致可以分为两大类:以Storm、S4等为代表的连续流处理系统,以及以Spark Streaming、HOP为代表的离散流处理系统。离散流处理系统吞吐率大,容错恢复快速容易,易于与批处理应用结合。但由于它们是基于批处理模式,在面临实时性要求较高的流计算应用以及系统中大量微小任务时往往表现出负载不均衡、延迟较高等不适应性,导致流计算应用得不到及时快速的响应,甚至影响到整个系统的稳定。
  在分布式集群环境下,基于批处理模式的实时流处理系统可以解决上述问题。其通过在流计算应用处理过程中监控作业的运行状态,动态地计算节点处理能力,并根据输入流的历史输入速率数据预测未来的输入流速率,设计并实现了一种前瞻式的负载均衡机制。系统采用微小批次作为数据单元,在接收数据的同时根据各个工作节点处理能力的不同分发与之能力相适应的数据量到特定节点。从而在数据处理阶段,拥有数据的节点能够在本地发起任务,达到更好的数据本地性和系统负载均衡,实现更低的处理延迟。此外,系统通过在数据接收阶段就进行了数据的分发,使得数据接收节点因为数据输入速率过快而成为系统瓶颈的可能性降低,有效地提高了吞吐率。
  实验结果表明,基于批处理模式的实时流处理系统对传统离散流处理系统在处理延迟和吞吐率性能上都有很大的提升,分别可达50%和200%。并且随着流应用复杂度的提高,这种提升效果更加明显。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号