首页> 中文学位 >大数据平台加速处理技术的研究与实现
【6h】

大数据平台加速处理技术的研究与实现

代理获取

目录

声明

第一章 绪论

1.1 课题研究背景

1.2 国内外研究现状

1.2.1 数据采集

1.2.2 数据转发

1.2.3 数据处理

1.3 本论文的主要工作

1.4 本论文整体的组织结构

第二章 相关理论与技术

2.1 基于Flume、Kafka和Flink的大数据平台

2.1.1 Flume

2.1.2 Kafka

2.1.3 Flink

2.2 闪存相关技术

2.2.1 传统SSD

2.2.2 开放通道闪存

2.3 基于LSM树的存储引擎

2.3.1 LSM树存储引擎

2.3.2 常见的存储引擎对比

2.3.3 LSM树的插入和压缩过程

2.3.4 LSM树的查找过程

2.4 灰色马尔科夫预测模型

2.5 本章小结

第三章 基于非JVM的大数据消息采集加速的设计与实现

3.1 Flume运行时JVM内存进程

3.2 Flume的数据采集工具的缺陷

3.3 KafkaMessageCat系统结构图

3.4 性能测试

3.4.1 实验环境

3.4.2 实验分析

3.5 KafkaMessageCat存在的缺点

3.6 本章小节

第四章 基于裸闪存的Kafka加速方案的设计与实现

4.1 为什么要更换Kafka的存储介质

4.2 基于OCSSD的Kafka持久化

4.3 基于键值分离的LSM树存储引擎

4.3.1 稀疏索引与LSM树性能对比

4.3.2 LSM读写放大的问题

4.3.3 键值分离的思想解决LSM读写放大问题

4.4 LSM树内存层的缓存方案设计与实现

4.4.1 基于Kafka的LSM内存层数据主动淘汰策略

4.4.2 基于LSM树内存层的持久化策略

4.5 基于自适应动态负反馈系统的I/O优先级调度方案

4.5.1 消息优先级分类

4.5.2 优先级队列管理机制设计与实现

4.5.3 自适应动态负反馈系统

4.5.4 基于自适应动态负反馈系统的I/O优先级调度方案总结

4.6.1 实验环境

4.6.2 LSM树进行键值分离的有效性分析

4.6.3 相关参数对性能影响的实验分析

4.6.4 优化前后Kafka性能实验对比分析

4.7 本章小结

第五章 基于预测反馈数据流动态负载的Flink加速

5.1 Flink流式处理负载策略的问题分析

5.2 负载状态收集指标设定

5.3 基于延迟检测的负载信息收集算法

5.3.1 基于有向无环图的深度优先搜索算法

5.3.2 算法流程图和伪代码

5.3.3 算法的可行性证明

5.3.4 延迟检测表

5.4 基于灰色马尔科夫的预测

5.4.1 基于灰色马尔科夫模型的预测步骤

5.4.2 预测结果准确度评价

5.5 负载状态的迁移

5.5.1 节点负载程度的定义

5.5.2 基于动态可调整的阈值控制进行预测

5.5.3 负载迁移算法整体流程

5.5.4 算子节点处理数据的迁移机制

5.5.5 迁移数据的正确到达保证

5.6 仿真实验

5.6.1 实验环境

5.6.2 基于灰色马尔科夫的预测模型可行性分析

5.6.3 相关参数对性能影响的实验分析

5.6.4 优化前后负载迁移策略的实验分析

5.7 本章小结

第六章 总结和展望

6.1 全文总结

6.2 后续工作展望

致谢

参考文献

攻读硕士期间取得的研究成果

展开▼

摘要

大数据的主要处理流程可以划分为五个部分:数据的采集、数据的转发、数据的处理、数据的存储以及数据可视化。在这几个核心步骤中,以Flume、Kafka、Flink为代表的流式计算平台被业内大规模的使用,并应用到很多的生产环境中。尽管如此,不同的业务场景下这些相关的技术仍会存在各种各样的问题。本文以此为切入点,对Flume、Kafka、Flink进行针对性的优化。 首先,针对Flume需要运行在客户端服务器上,占用服务器资源,并且与寄主服务器存在资源竞争关系的问题,本文设计了一种基于非JVM进程的消息收集系统。采用该系统替换传统的Flume,可以有效减少Flume占用的客户端服务器资源,并提高数据采集阶段的性能。 其次,针对将Kafka迁移到SSD并不能充分发挥闪存的特性的问题,本文引入了一种基于新型闪存介质Open Channel SSDs的机制来替换Kafka原有的持久化机制。该机制采用键值分离的思想来解决LSM树(Log Structured Merge Tree)读写放大的问题,并将改进后的LSM树作为Kafka持久化的存储引擎。针对LSM和Kakfa消息读写的特点,本文提出了基于LSM树C0层的缓存策略,来提高Kafka的读写性能。此外,本文还将Kafka集群内部处理的消息进行了优先级的划分,提出了基于动态负反馈的IO优先级调度方案,来优化集群内部消息的处理性能。 最后,针对Flink本身提供的负载均衡策略并不是很完善的问题,本文提出一种动态负载均衡调节机制。该机制通过统计历史节点的负载状态信息,来进行有效的预测,并将预测结果作为节点之间进行负载迁移的依据,从而提高Flink集群的整体执行性能。 本课题针对Flume、Kafka和Flink大数据计算平台进行重点研究。对于大数据处理的五个步骤,本文找出影响整体性能的问题所在,并且针对这些问题选择合适的方案进行进一步的优化,从而提高大数据流式计算系统的整体性能。

著录项

  • 作者

    徐刘根;

  • 作者单位

    电子科技大学;

  • 授予单位 电子科技大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 江维;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    数据平台;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号