首页> 中文学位 >基于LSTM神经网络的Hadoop集群节能问题研究
【6h】

基于LSTM神经网络的Hadoop集群节能问题研究

代理获取

目录

第一个书签之前

摘 要

Abstract

目 录

Contents

1绪论

1.1研究背景和意义

1.2国内外研究现状

1.3本文主要工作

1.4本文的组织结构

2相关概念和理论

2.1 Hadoop原理介绍

2.1.1 Hadoop平台

2.1.2 HFDS

2.1.3 MapReduce

2.1.4任务调度策略

2.2 LSTM

2.3 Zabbix

2.4本章小结

3 Hadoop集群节能系统方案设计

3.1系统架构设计

3.2节能方案分析

3.3能耗模型

3.3.1选取能耗模型指标

3.3.2能耗模型系数计算

3.4本章小结

4基于集群节点负载状态预测的作业调度算法

4.1负载分析和节点任务处理特征

4.1.1节点负载分析

4.1.2节点的任务执行特点分析

4.2节能算法描述

4.3节能效果分析

4.4实验结果和分析

4.4.1实验环境和数据集

4.4.2实验过程

4.4.3结果与分析

4.5本章小结

5基于集群节点负载状态预测的冷热区域划分节能存储策略

5.1数据块存储设计思想

5.1.1Hadoop集群数据块存储分析

5.1.2冷热区域划分策略设计

5.2数据存储策略描述

5.3算法节能分析

5.4实验结果和分析

5.4.1实验设计

5.4.2实验过程

5.4.3结果与分析

5.5本章小结

6总结与展望

6.1本文总结

6.2未来工作展望

参考文献

致谢

攻读硕士学位期间主要成果

展开▼

摘要

云计算技术的发展使得数据中心的规模和数量不断扩大,随之而来的问题是能耗成本越来越高。Hadoop是现阶段应用广泛的数据处理平台,在数据中心的部署规模巨大。如何降低Hadoop集群的功率消耗,既节约成本,又保证服务质量,是当前研究的热点问题。
  本文从实际应用出发,首先分析了传统Hadoop集群的YARN和HDFS数据块存储的原理。Hadoop YARN的主流调度策略更多关注于计算资源的分配,忽略了集群任务处理量的动态变化,导致集群节点可能长时间处于低负载的状态而造成能耗浪费。同时,数据节点存储的数据块会有相当大比例的时间变为冷数据,而且这些数据会占用计算节点的存储资源。针对以上问题,本文结合Hadoop的系统结构和原理,进行了如下研究工作:
  (1)设计了针对Hadoop集群的节能系统方案,包括底层集群节点的数据收集,中间层的能耗模型、节点负载的预测,上层的作业调度。方案的每层都结合开源工具和框架的优点,使得整体Hadoop方案达到较好的节能效果。
  (2)Hadoop集群的负载在多数情况下处于很低的水平,但是节点依然以较低的负载运行。本文提出了基于长短期记忆网络LSTM的节点负载状态预测任务调度算法HES-Scheduler,该算法根据集群输入的任务量,休眠负载较低的节点,以达到节能的目的。调度流程分为两个阶段:首先用LSTM训练节点的历史资源数据,得到预测模型来预测集群节点在未来周期时间的资源使用情况,通过预设的负载阈值将节点划分为活跃节点队列和休眠节点队列。其次,按照能耗最优的原则选择作业进行调度。通过仿真实验,将HES-Scheduler与Hadoop YARN的FIFO,Capacity和Fair策略比较,表明该算法取得了较好的节能效果。
  (3)基于数据块的访问规律,对Hadoop集群数据块的存储方式进行改进,提出了HES-Storage数据块存储策略。该策略根据节点的预测状态和预设阈值将集群划分为冷、热区域:在热区域采用Hadoop默认的存储策略,利于提高服务质量;在冷区域采用集中式存储以提高其数据块的存储量。同时,定时从热区域中将“变冷”的数据迁移到冷区域的缓冲队列中,周期性统计缓冲队列数据块的访问频度,将达到休眠阈值的节点休眠。最后,通过实验分析了在一段时间内的休眠节点的数量变化情况和能耗值,表明该策略具有较好的节能效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号