首页> 中文学位 >基于随机森林的硬盘故障预测算法的研究
【6h】

基于随机森林的硬盘故障预测算法的研究

代理获取

目录

声明

摘要

第一章 绪论

第一节 研究背景

第二节 研究目的和意义

第三节 国内外研究现状

第四节 论文结构

第二章 相关研究工作

第一节 SMART

2.1.1 SMART简介

2.1.2 SMART的应用

第二节 基于神经网络算法的硬盘故障预测模型

2.2.1 神经网络算法概述

2.2.2 基于神经网络的硬盘故障预测

第三节 本章小结

第三章 基于随机森林的硬盘故障预测模型

第一节 随机森林算法概述

3.1.1 决策树算法

3.1.2 装袋算法

3.1.3 随机森林

第二节 基于随机森林的硬盘故障预测

第三节 随机森林算法的改进

3.3.1 随机森林模型分析

3.3.2 随机森林模型优化算法

第四节 本章小结

第四章 实验结果与分析

第一节 数据集介绍以及数据预处理

4.1.1 SMART数据集介绍

4.1.2 特征值选取方法

4.1.3 数据集的选取

第二节 算法评估方法

第三节 随机森林算法预测结果分析

第四节 预测模型更新

第五节 本章小结

第五章 总结与展望

参考文献

致谢

个人简历

展开▼

摘要

随着数据中心存储规模的快速增长,以硬盘为主要载体的存储系统可靠性成为影响计算机系统可靠性的关键因素。然而传统的容错机制,如硬盘镜像、纠删码等,还存在着存储成本较高、故障恢复期间用户体验度降低、故障恢复代价较高等缺点,难以满足数据中心不同需求。近年来,研究者采用一些机器学习方法基于硬盘的SMART属性来对硬盘建立故障预测模型,对硬盘可能发生的故障进行提前预测,并取得了比较好的预测效果。但之前的研究大部分使用单分类器模型,由于硬盘的故障属于一类小概率事件,硬盘数据分布不平衡,使得这些模型不能很好应用在现实世界的数据中心。
  本文以预测硬盘故障、提高存储系统可靠性为研究内容,根据硬盘SMART数据的特点,分布不平衡,提出了一种基于随机森林算法的硬盘故障预测模型,旨在保证在故障误报率低的情况下,提高故障的检测率。目前所进行的研究主要包括:1、根据硬盘SMART数据的分布,定性分析了SMART特征值与硬盘故障的相关性,选取出更适合于随机森林模型的特征值。2、对硬盘进行故障预测属于一种不平衡分类问题,提出了随机森林算法建立故障预测模型,与神经网络模型进行了对比,在硬盘故障检测率和误报率上随机森林模型取得了更好的实用性。3、针对随机森林建立的硬盘故障预测模型进行了分析,在理解森林中单棵决策树与森林整体预测效果的关系后,根据森林中决策树准确率对随机森林进行了修剪,提高了硬盘故障预测的效果。4、在对硬盘进行故障预测时,随着测试硬盘距训练模型时间间隔的变大,模型出现“老化”的现象,针对这一问题,对模型进行了更新,以保持对故障预测的效果。

著录项

  • 作者

    安洲;

  • 作者单位

    南开大学;

  • 授予单位 南开大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 李忠伟;
  • 年度 2014
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP333.35;
  • 关键词

    硬盘故障; 预测算法; SMART数据; 随机森林;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号