声明
第一章 绪论
1.1 课题研究背景
1.2 国内外研究现状
1.2.1 数据采集
1.2.2 数据转发
1.2.3 数据处理
1.3 本论文的主要工作
1.4 本论文整体的组织结构
第二章 相关理论与技术
2.1 基于Flume、Kafka和Flink的大数据平台
2.1.1 Flume
2.1.2 Kafka
2.1.3 Flink
2.2 闪存相关技术
2.2.1 传统SSD
2.2.2 开放通道闪存
2.3 基于LSM树的存储引擎
2.3.1 LSM树存储引擎
2.3.2 常见的存储引擎对比
2.3.3 LSM树的插入和压缩过程
2.3.4 LSM树的查找过程
2.4 灰色马尔科夫预测模型
2.5 本章小结
第三章 基于非JVM的大数据消息采集加速的设计与实现
3.1 Flume运行时JVM内存进程
3.2 Flume的数据采集工具的缺陷
3.3 KafkaMessageCat系统结构图
3.4 性能测试
3.4.1 实验环境
3.4.2 实验分析
3.5 KafkaMessageCat存在的缺点
3.6 本章小节
第四章 基于裸闪存的Kafka加速方案的设计与实现
4.1 为什么要更换Kafka的存储介质
4.2 基于OCSSD的Kafka持久化
4.3 基于键值分离的LSM树存储引擎
4.3.1 稀疏索引与LSM树性能对比
4.3.2 LSM读写放大的问题
4.3.3 键值分离的思想解决LSM读写放大问题
4.4 LSM树内存层的缓存方案设计与实现
4.4.1 基于Kafka的LSM内存层数据主动淘汰策略
4.4.2 基于LSM树内存层的持久化策略
4.5 基于自适应动态负反馈系统的I/O优先级调度方案
4.5.1 消息优先级分类
4.5.2 优先级队列管理机制设计与实现
4.5.3 自适应动态负反馈系统
4.5.4 基于自适应动态负反馈系统的I/O优先级调度方案总结
4.6.1 实验环境
4.6.2 LSM树进行键值分离的有效性分析
4.6.3 相关参数对性能影响的实验分析
4.6.4 优化前后Kafka性能实验对比分析
4.7 本章小结
第五章 基于预测反馈数据流动态负载的Flink加速
5.1 Flink流式处理负载策略的问题分析
5.2 负载状态收集指标设定
5.3 基于延迟检测的负载信息收集算法
5.3.1 基于有向无环图的深度优先搜索算法
5.3.2 算法流程图和伪代码
5.3.3 算法的可行性证明
5.3.4 延迟检测表
5.4 基于灰色马尔科夫的预测
5.4.1 基于灰色马尔科夫模型的预测步骤
5.4.2 预测结果准确度评价
5.5 负载状态的迁移
5.5.1 节点负载程度的定义
5.5.2 基于动态可调整的阈值控制进行预测
5.5.3 负载迁移算法整体流程
5.5.4 算子节点处理数据的迁移机制
5.5.5 迁移数据的正确到达保证
5.6 仿真实验
5.6.1 实验环境
5.6.2 基于灰色马尔科夫的预测模型可行性分析
5.6.3 相关参数对性能影响的实验分析
5.6.4 优化前后负载迁移策略的实验分析
5.7 本章小结
第六章 总结和展望
6.1 全文总结
6.2 后续工作展望
致谢
参考文献
攻读硕士期间取得的研究成果
电子科技大学;