首页> 中国专利> 基于国产平台的磁盘故障预测方法

基于国产平台的磁盘故障预测方法

摘要

基于国产平台的磁盘故障预测方法。提供了一种适用于带有AI卡的国产平台运行环境,提高存储系统可靠性的基于国产平台的磁盘故障预测方法。包括处理器、磁盘和人工智能计算加速卡,按如下步骤进行:1)、磁盘故障预测环境搭建,磁盘故障预测环境包括磁盘故障预测的软件功能模块和磁盘故障预测的开发运行环境;2)、磁盘故障预测流程,包括训练和推理步序,所述训练步序包括:SMART历史数据采集、数据处理、模型训练和模型评估,经过模型评估形成的数据模型形成可在线利用数据和存储至模型库,存储至模型库的数据作为离线利用数据。本发明使得运行效率提高,减轻了处理器的运行负担。

著录项

  • 公开/公告号CN113076217A

    专利类型发明专利

  • 公开/公告日2021-07-06

    原文格式PDF

  • 申请/专利权人 扬州万方电子技术有限责任公司;

    申请/专利号CN202110428691.5

  • 发明设计人 周思远;朱洪斌;李悦;庄松泉;

    申请日2021-04-21

  • 分类号G06F11/07(20060101);G06F11/30(20060101);

  • 代理机构32283 扬州市苏为知识产权代理事务所(普通合伙);

  • 代理人周全

  • 地址 225006 江苏省扬州市安林路96号

  • 入库时间 2023-06-19 11:44:10

说明书

技术领域

本发明涉及存储系统技术领域,具体涉及一种基于国产AI计算平台的磁盘故障检测方法。

背景技术

随着企业IT计算需求的增加,客户管理的数据中心设备规模越来越大,机房或数据中心的设备数量直线上升,从原先的几百上千,直接跃升到几万、近十万。数据中心的设备管理复杂,设备故障率高等问题,让运维管理支出倍增。引入AI让数据中心智能化,提高运维效率,降低了运维成本。

同时,由于我国关键领域集中开展国产化技术攻关,人工智能作为当前主流先进技术,也面临核心技术“卡脖子”问题,急需针对国产化硬件设备,开展AI技术研究,推进国产人工智能平台的应用发展。

无论是国外平台还是国产平台,存储系统的安全性是保证用户信息数据的安全性、持久性的基础。而硬盘在数据存储中处于核心的地位,硬盘/磁盘的正常运行是确保数据有效性和安全性的基础。为此对于磁盘运行过程中的故障检测成为本领域热点攻关课题。

国家知识产权局公开的名称:磁盘故障的预测方法、设备及存储介质,公开号:CN109739739A的专利文献,出于提高对磁盘故障主动性预测的准确率的目的,提供了一种磁盘故障的预测方法,其技术方案包括:根据在线采集获得的磁盘相关的信息文件,判断是否对磁盘故障进行直接预测;在判断所述磁盘相关的信息文件为磁盘基本信息文件和SMART数据信息文件时,判定对磁盘故障进行直接预测,并根据所述磁盘基本信息文件和SMART数据信息文件,构建磁盘故障预测特征,根据所述磁盘故障预测特征,加载当前的磁盘故障预测模型对磁盘故障进行预测;在所述磁盘相关的信息文件为磁盘基本信息文件、SMART数据信息文件和离线磁盘文件时,判定不对磁盘故障进行直接预测,并根据所述磁盘基本信息文件、SMART数据信息文件和离线磁盘文件,构建磁盘故障训练特征和标签,根据所述磁盘故障训练特征和标签,对当前的磁盘故障预测模型进行增量训练。最终实现了磁盘故障预测模型的在线训练和在线预测双重功能,避免了传统离线训练的滞后性,提高了预测模型的动态性和适应性,大幅度提升了网络存储系统运行的稳定性,并降低了其运维成本;并且,在磁盘预测的输入特征构建中使用的是磁盘全程监控数据,而不是只使用了最新时间段的监控数据,极大提高了磁盘预测的可靠性。

国家知识产权局公开的名称:一种使用多模型预测的磁盘故障检测方法,公开号:CN108986869A的专利文献,公开一种使用多模型预测的磁盘故障检测方法,通过时序数据处理手段提取磁盘SMART指标的多种特征,建立分类模型以预测磁盘状态;步骤一,数据输入:获取若干磁盘在一段时间内的监测数据构成的数据集;步骤二,SMART筛选:采用突变点检测的方式来选择SMART指标;步骤三,特征工程:SMART指标作为自定义特征提取模块的输入,提取SMART指标的特征,进而抽取出相应的参数配置,将参数配置作为参数传入特征提取模块,用以抽取训练集和测试集的特征集合;步骤四,平衡数据集:采用降维聚类,对占比较多的负样本进行降采样;步骤五,算法选择及建模:在步骤四的基础上训练分类模型,并测试当前磁盘属于正常状态或者需要被替换的故障状态。

以上两种磁盘故障检测方法均需利用平台自身处理器来实现。然而,在国产平台环境中,鉴于国产平台处理器性能的制约,采取以上两种方法会极大地增加处理器运行负担。

发明内容

本发明针对以上问题,提供了一种适用于带有AI卡的国产平台运行环境,提高存储系统可靠性的基于国产平台的磁盘故障预测方法。

本发明的技术方案是:国产平台包括处理器、磁盘和人工智能计算加速卡,按如下步骤进行:

1)、磁盘故障预测环境搭建,磁盘故障预测环境包括磁盘故障预测的软件功能模块和磁盘故障预测的开发运行环境;

2)、磁盘故障预测流程,包括训练和推理步序,

所述训练步序包括:SMART历史数据采集、数据处理、模型训练和模型评估,经过模型评估形成的数据模型形成可在线利用数据和存储至模型库,存储至模型库的数据作为离线利用数据;

可在线利用数据和离线利用数据通过模型转换模块转换为pb或om格式模型文件;

所述推理步序包括:SMART实时数据采集、应用程序初始化、预测模型、输出预测概率和判断,

应用程序初始化,首先进行数据和应用程序的初始化,然后进行人工智能计算加速卡资源初始化,

由人工智能计算加速卡实现对pb或om格式模型文件的在线和/或离线处理。

所述磁盘故障预测的软件功能模块构建,包括SMART历史数据模块、数据处理模块、模型训练模块、模型评估模块、模型转换模块、推理模块、推理结果再处理模块以及模型存储模块。

所述磁盘故障预测的开发运行环境搭建,包括人工智能计算加速卡驱动和固件的适配、深度学习框架的适配和SMART数据实时采集模块的适配。

所述磁盘故障预测的训练为:

XS1)、SMART历史数据采集,通过所述SMART历史数据模块,采集预测点D天前的多条历史SMART数据,采集频率定为1-5次/天;

XS2)、数据处理,

先通过所述数据处理模块对采集的数据进行分类,并生成标记数据集,异常样本标记为1,正常样本标记为0;

再进行模型建立,对SMART历史数据进行特征筛选,对于其中重复数据或不完整数据的特征进行删除;再对剩余的特征进行标准化处理;

XS3)、模型训练与评估,

设定好训练超参后进行模型训练,模型评估结果显示精度已达到预期时,则将训练完成的模型保存至模型库中,否则进行再训练,得经过训练与评估的模型数据;

XS4)、模型存储,

将经过训练与评估的模型数据进行存储;

所述磁盘故障预测的推理为:

TS1)、将步骤XS3)或XS4)获得的经过训练与评估的模型数据进行模型格式转换,转换为AI卡可读的pb或om格式模型文件;转换后的pb或om格式模型文件待用;

TS2)、获取正在实时运行磁盘的SMART数据,去掉与训练部分删除的特征同样列数的特征值,再按照训练部分的标准化处理方式处理数据;

TS3)、应用程序初始化,首先进行数据和应用程序的初始化,然后进行AI卡资源初始化,利于AI卡调用并处理转换后的pb或om格式模型文件;

TS4)、预测模型;

输出概率,

通过已完成初始化的推理应用程序调用离线模型执行推理运算,获取N天以后的磁盘发生故障的概率p;

设定阈值θ,

将推理得到的概率p与阈值θ进行对比,若p大于等于θ,则认为该磁盘N天后即将发生故障,若p小于θ,则认为该磁盘N天后为正常状态。

根据训练部分所述,标记数据集中的异常样本标记为“1”,正常样本标记为“0”,因此设置阈值θ为0.5,则实时推理结果如下公式所示,当p大于等于0.5时,N天后即将发生故障,当p小于0.5时,N天后磁盘处于正常状态。

根据ESG公司(EnterpriseStrategyGroup)的统计调查,在关键性数据丢失并造成严重的经济损失前,79%的公司数据恢复时间不超过12小时,63%的公司数据恢复时间小于4个小时,5%的公司甚至没有数据恢复时间。在本发明中通过设定好故障磁盘的预测时间长度,这样在预测到磁盘即将发生故障时,可保证预留出一定的数据恢复时间,另外通过引人AI卡,规避了国产平台中CPU算力不足的问题,从而提高了人工智能应用在国产平台中运行的效率,增强了对国产平台中设备的运维能力,提升了数据中心运维效率,提高了数据中心的安全可靠能力,保证了设备集群的稳定运行。

本案借助于将模型数据转换为可在AI卡中离线运行的格式,使得运行效率提高,减轻了处理器的运行负担。

附图说明

图1为本发明的系统框图,

图2为本发明的流程图,

图3为本发明工作原理图。

具体实施方式

本发明基于国产平台的磁盘故障预测方法,如图1-3所示,国产平台包括处理器、磁盘和人工智能计算加速卡,按如下步骤进行:

1)、磁盘故障预测环境搭建,磁盘故障预测环境包括磁盘故障预测的软件功能模块和磁盘故障预测的开发运行环境;

磁盘故障预测的软件功能模块构建,包括SMART历史数据模块、数据处理模块、模型训练模块、模型评估模块、模型转换模块、推理模块、推理结果再处理模块以及模型存储模块,如图1。

磁盘故障预测的开发运行环境搭建,包括人工智能计算加速卡驱动和固件的适配、深度学习框架的适配和SMART数据实时采集模块的适配。

2)、磁盘故障预测流程,包括训练和推理步序,如图2,

训练步序包括:SMART历史数据采集、数据处理、模型训练和模型评估,经过模型评估形成的数据模型形成可在线利用数据和存储至模型库,存储至模型库的数据作为离线利用数据;

具体为以下步骤(XS中X代表训练拼音首字母,TS中T代表推理拼音的首字母):

XS1)、SMART历史数据采集,通过所述SMART历史数据模块,采集预测点D天前的多条历史SMART数据,采集频率定为1-5次/天;

要预测未来N天磁盘是否会发生故障,则首先需要获取预测点D天前的多条历史SMART数据,因此将采集频率定为1-5次/天,优选1-2次;如图3。

XS2)、数据处理,

先通过所述数据处理模块对采集的数据进行分类,并生成标记数据集,异常样本标记为1,正常样本标记为0;

再进行模型建立,对SMART历史数据进行特征筛选,对于其中重复数据或不完整数据的特征进行删除;再对剩余的特征进行标准化处理;调用标准化算法对剩余特征进行标准化处理,其属于本领域常规技术手段,不再赘述。

经标准化处理好的数据作为磁盘故障预测模型的输入,标记数据集作为模型的参考输出,对长短期记忆神经网络(LongShortTermMemory,LSTM)模型进行构建,

XS3)、模型训练与评估,

设定好训练超参后进行模型训练,模型评估结果显示精度已达到预期时,则将训练完成的模型保存至模型库中,否则进行再训练,得经过训练与评估的模型数据;可直接调用,作为进行在线推理运算的数据。

XS4)、模型存储,

将经过训练与评估的模型数据进行存储;作为进行离线推理运算的数据。

推理步序包括:SMART实时数据采集、应用程序初始化、预测模型、输出预测概率和判断。

具体为以下步骤:

TS1)、将步骤XS3)或XS4)获得的经过训练与评估的模型数据进行模型格式转换,转换为AI卡可读的pb或om格式模型文件;转换后的pb或om格式模型文件待用;

可针对各类深度学习框架选择相应的保存格式,如TensorFlow模型可将其保存为pb格式的模型,Caffe模型可将其保存为caffemodel格式的模型,否则进行再训练。

通过调用模型转换接口对已训练好的模型(根据不同品牌的AI卡判断是否需要)进行格式转换,模型的来源可以是从模型库中进行调取,也可将训练好的模型直接导入,模型转换的目的主要是将其转换为可在AI卡中离线运行的格式;如pb、om格式文件。

TS2)、获取正在实时运行磁盘的SMART数据,去掉与训练部分删除的特征同样列数的特征值,再按照训练部分的标准化处理方式处理数据;

TS3)、应用程序初始化,首先进行数据和应用程序的初始化,然后进行AI卡资源初始化,利于AI卡调用并处理转换后的pb或om格式模型文件;由人工智能计算加速卡实现对pb或om格式模型文件的在线和/或离线处理。

TS4)、预测模型;

输出概率,

通过已完成初始化的推理应用程序调用离线模型执行推理运算,获取N天以后的磁盘发生故障的概率p;概率p的计算是基于实时获取的SMART数据,利用训练出来的LSTM网络模型,进行推理预测得到的结果,不再赘述。

设定阈值θ,

将推理得到的概率p与阈值θ进行对比,若p大于等于θ,则认为该磁盘N天后即将发生故障,若p小于θ,则认为该磁盘N天后为正常状态。

根据训练部分所述,标记数据集中的异常样本标记为“1”,正常样本标记为“0”,因此设置阈值θ为0.5,则实时推理结果如下公式所示,当p大于等于0.5时,N天后即将发生故障,当p小于0.5时,N天后磁盘处于正常状态。

即:

本发明结合国产人工智能计算、深度学习、故障预测,解决了硬件磁盘故障预警预报问题,是对国产化先进技术的一次良好的应用示范。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号