大数据平台加速处理技术的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

大数据的主要处理流程可以划分为五个部分：数据的采集、数据的转发、数据的处理、数据的存储以及数据可视化。在这几个核心步骤中，以Flume、Kafka、Flink为代表的流式计算平台被业内大规模的使用，并应用到很多的生产环境中。尽管如此，不同的业务场景下这些相关的技术仍会存在各种各样的问题。本文以此为切入点，对Flume、Kafka、Flink进行针对性的优化。首先，针对Flume需要运行在客户端服务器上，占用服务器资源，并且与寄主服务器存在资源竞争关系的问题，本文设计了一种基于非JVM进程的消息收集系统。采用该系统替换传统的Flume，可以有效减少Flume占用的客户端服务器资源，并提高数据采集阶段的性能。其次，针对将Kafka迁移到SSD并不能充分发挥闪存的特性的问题，本文引入了一种基于新型闪存介质Open Channel SSDs的机制来替换Kafka原有的持久化机制。该机制采用键值分离的思想来解决LSM树（Log Structured Merge Tree）读写放大的问题，并将改进后的LSM树作为Kafka持久化的存储引擎。针对LSM和Kakfa消息读写的特点，本文提出了基于LSM树C0层的缓存策略，来提高Kafka的读写性能。此外，本文还将Kafka集群内部处理的消息进行了优先级的划分，提出了基于动态负反馈的IO优先级调度方案，来优化集群内部消息的处理性能。最后，针对Flink本身提供的负载均衡策略并不是很完善的问题，本文提出一种动态负载均衡调节机制。该机制通过统计历史节点的负载状态信息，来进行有效的预测，并将预测结果作为节点之间进行负载迁移的依据，从而提高Flink集群的整体执行性能。本课题针对Flume、Kafka和Flink大数据计算平台进行重点研究。对于大数据处理的五个步骤，本文找出影响整体性能的问题所在，并且针对这些问题选择合适的方案进行进一步的优化，从而提高大数据流式计算系统的整体性能。

著录项

作者
徐刘根;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科软件工程
授予学位硕士
导师姓名江维;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
数据平台;

相似文献

中文文献
外文文献
专利

1. 基于GIS的测绘大数据平台研究与实现 [J] . 张磊 ,刘满义 . 现代信息科技 . 2021,第010期
2. 基于GIS的测绘大数据平台研究与实现 [J] . 张磊 ,刘满义 . 现代信息科技 . 2021,第010期
3. 大数据平台安全配置检测系统的研究与实现 [J] . 吴丽杰 ,窦维江 . 吉林化工学院学报 . 2020,第005期
4. 大数据平台下应用程序保护机制的研究与实现 [J] . 吴天雄 ,陈兴蜀 ,罗永刚 . 信息网络安全 . 2019,第001期
5. 基于Hadoop的商业银行大数据平台研究与实现 [J] . 欧建林 . 中国金融电脑 . 2019,第001期
6. 中国移动网优大数据平台监控系统研究与实现 [C] . 陈涛 ,陈彦名 ,王康 . 中国移动通信集团设计院第23届新技术论坛 . 2017
7. 图数据库加速处理技术的研究与实现 [A] . 胡海波 . 2019

大数据平台加速处理技术的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅