声明
致谢
摘要
1 引言
1.1 研究背景与意义
1.1.1 项目研究背景
1.1.2 项目研究意义
1.2 研究现状分析
1.3 论文内容及结构概述
2 相关理论基础
2.1 Spark大数据计算框架
2.1.1 RDD概念
2.1.2 Spark编程模型
2.1.3 Spark架构
2.1.4 Driver程序在Spark架构中的运行流程
2.2 Spark Streaming流式数据处理框架
2.2.1 Spark Streaming与Storm的比较
2.3 Kafka分布式消息队列
2.3.1 Kafka的整体架构
2.3.2 Kafka的使用场景
2.4 分布式存储系统HBase
2.4.1 HBase的概念
2.4.2 HBase存储机制
2.4.3 HBase与RDBMS的比较
2.5 内存数据库Redis
2.6 分布式协调服务Zookeeper
2.6.1 Zookeeper的作用和特点
2.6.2 Zookeeper的角色及其作用
2.6.3 Zookeeper工作原理
2.7 分布式计算工具集Akka
2.7.1 Actor与消息传递
2.7.2 Akka对Actor模型的发展
3 模型训练模块的设计
3.1 数据清洗规则的设计
3.1.1 初步取数
3.1.2 过滤小波动数据
3.1.3 数据时间错位处理
3.1.4 去除目标位号不存在时间的数据
3.1.5 获取数据量丰富的自变量数据
3.1.6 保证记录的逻辑有效性
3.1.7 行转列规则
3.2 相关性分析的实现
3.2.1 斯皮尔曼等级相关
3.2.2 相关性定量分析
3.3 模型训练过程
3.4 本章工作小结
4.实时预测模块的设计
4.1 设计思路分析
4.1.1 kafka的应用
4.1.2 Spark Streaming流式数据处理框架
4.1.3 Redis的应用
4.1.4 Akka的应用
4.1.5 预测值的得出和处理
4.2 本章工作小结
5.算法的比较与调整
5.1 神经网络算法的尝试
5.2 随机森林算法的尝试
5.3 其他方法的尝试
5.3.1 梯度树提升算法的尝试
5.3.2 改变模型时差的尝试
5.3.3 自相关位号的确定
5.4 本章工作小结
6.数据展示分析模块的设计
6.1 模块功能说明
6.2 系统功能
6.2.1 单位字典
6.2.2 规则列表
6.2.3 流程列表
6.2.4 模型列表
6.2.5 位号列表
6.2.6 设备列表
6.2.7 装置列表
6.2.8 其他数据展示界面
6.3 数据操作功能
6.3.1 流程指定功能
6.3.2 位号预测功能
6.3.3 仪表失征检测
6.3.4 短信发送设置
6.3.5 系统日志记录
6.3.6 装置平稳度预测
6.3.7 模型准确率统计
6.4 系统整体架构
6.5 本章工作小结
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集