首页> 中国专利> 一种智能存储管理数据块的异构存储策略选举方法、装置

一种智能存储管理数据块的异构存储策略选举方法、装置

摘要

本发明提供一种智能存储管理数据块的异构存储策略选举方法、装置,所述方法包括如下步骤:获取集群上的数据的各项指标数据;根据获取的各项指标数据推演计算预测数据指标的综合终参;根据数据从冷到热的异构策略获取不同异构策略的平衡系数;将数据指标的综合终参与获取的异构策略平衡系数进行比较;根据比较结果确定异构策略;将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变,若不一致,输出是否启动数据自动迁移的预警信息。用于为生产环境中HDFS SSM智能存储核心技术数据热度感知数据块选举、推荐、预测最合适的异构策略,为HDFS此领域技术革新提供评估结果,提高企业平台存储利用率。

著录项

  • 公开/公告号CN112231294B

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 苏州浪潮智能科技有限公司;

    申请/专利号CN202010988256.3

  • 发明设计人 周俊青;张东东;

    申请日2020-09-18

  • 分类号G06F16/182(2019.01);G06F16/185(2019.01);G06F16/17(2019.01);

  • 代理机构济南舜源专利事务所有限公司 37205;

  • 代理人孙玉营

  • 地址 215100 江苏省苏州市吴中区吴中经济开发区郭巷街道官浦路1号9幢

  • 入库时间 2022-09-06 00:40:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-05

    授权

    发明专利权授予

说明书

技术领域

本发明涉及异构存储策略选举技术领域,具体涉及一种智能存储管理数据块的异构存储策略选举方法、装置。

背景技术

智能存储管理Smart Storage Management(简称SSM),提出面向分布式存储的智能管理架构,提供面向新型存储设备、高速网络、新计算的存储优化与数据优化解决方案,实现了端到端的数据管理服务。Hadoop社区在HDFS-7343(HDFS smart storagemanagement)以及相关JIRA中提出了HDFS智能存储管理的设计,提供一个全面而灵活的存储策略引擎,把文件属性、元数据、数据温度、存储类型、EC编解码器、可用的硬件功能、用户、应用程序首选项等考虑在内,以方便、智能和有效地使用纠删码、副本或其他存储策略,以及HDFS缓存工具、HSM产品和各种工具大型集群中的均衡器、移动器、磁盘均衡器等,未实现未发布。智能存储的核心技术是数据热度感知,数据热度将有助于找出甚至预测数据访问模式,从而能够针对热数据进行相应地优化处理,特别是在新型存储设备上将获得更高的收益。同时,该技术也有助于利用大量的存储密集型设备或系统来存储冷数据,从而减轻集群性能的下降,降低存储成本。在智能存储管理系统中通过文件元数据信息获取数据热度,作为存储管理的指标之一。

Hadoop社区在HDFS-2832(Enable support for heterogeneous storages inHDFS-DN as a collection of storages)以及相关JIRA中提出了启用对HDFS-DN中的异构存储(作为存储集合)的支持,新增存储目录列表的异构存储支持,将DataNode支持单一存储策略更改为支持多种存储策略的集合,发布在Hadoop2.3.0版本;在HDFS-5682(Heterogeneous Storage phase 2-APIs to expose Storage Types)以及相关JIRA中跟踪异构存储工作的第二阶段,该阶段涉及将存储类型公开给应用程序,并为管理员添加配额管理支持,此阶段还将包括针对管理员、用户的工具支持,发布在Hadoop2.7.0版本;在HDFS-5851(Support memory as a storage medium)以及相关JIRA中提出了HDFS提供支持内存作为存储介质,以实现快速写入吞吐量,未实现未发布;在HDFS-6584(SupportArchival Storage)以及相关JIRA中提出了HDFS提供支持档案存储,将更多节点添加到冷存储可以独立于群集中的计算容量来扩展存储,发布在Hadoop2.6.0版本;在HDFS-4949(Centralized cache management in HDFS)以及相关JIRA中提出了HDFS中的集中式缓存管理,发布在Hadoop2.3.0版本;在HDFS-13069(Enable HDFS to cache data read fromexternal storage systems)以及相关JIRA中提出了启用HDFS缓存从外部存储系统读取的数据,即使用提供的存储(HDFS-9806),HDFS可以处理存储在外部存储系统中的数据,当对外部存储的访问带宽有限/延迟较高时,在HDFS中本地缓存此数据可以加快对数据的后续访问,将外部数据缓存在本地磁盘和SSD上,从而加速远程数据读取,未实现未发布;在HDFS-7343(HDFS smart storage management)以及相关JIRA中提出了HDFS智能存储管理的设计,提供一个全面而灵活的存储策略引擎,把文件属性、元数据、数据温度、存储类型、EC编解码器、可用的硬件功能、用户、应用程序首选项等考虑在内,以方便、智能和有效地使用纠删码、副本或其他存储策略,以及HDFS缓存工具、HSM产品和各种工具大型集群中的均衡器、移动器、磁盘均衡器等,未实现未发布。在实时监控系统的场景下,通常只会关注最新时间段的业务数据,根据业务需求可以是最近30分钟、最近1小时、甚至于最近几个小时的数据,这部分被关注的数据可以称之为热数据,当热数据失去时效性后,称之为冷数据。随着时间的推移,热数据会变为冷数据,最新接收到的数据变为热数据。根据热、冷数据特点,冷数据最佳存储策略为纠删码存储,热数据最佳存储策略为三副本存储。

HDFS smart storage management智能化管理存储策略仅实现框架设计并未发布,细节部分还未实现,该架构现在还在实验阶段。但此类以Hadoop系统生态圈为代表的大数据革命级技术,将会提高当前HDFS存储技术一个维度。将用户写入集群的数据直接就自适应地以最合适的异构策略存储到最合适的存储介质上,而且对于用户而言它是无感知的。随着大数据日益剧增,随着该功能的完善、Hadoop社区补丁的更新以及后续新版本的发布,HDFS smart storage management智能化管理存储策略会越来越完善,针对智能存储管理数据块的异构策略是否是最佳策略,集群中的数据是否已被智能化地管理,如何来给集群中数据块选举、推荐、预测最合适的异构策略,是现阶段所要解决的问题。

发明内容

针对智能存储管理数据块的异构策略是否是最佳策略,集群中的数据是否已被智能化地管理,如何来给集群中数据块选举、推荐、预测最合适的异构策略的问题,本发明提供一种智能存储管理数据块的异构存储策略选举方法、装置。

本发明的技术方案是:

一方面,本发明技术方案提供一种智能存储管理数据块的异构存储策略选举方法,包括如下步骤:

获取集群上的数据的各项指标数据;

根据获取的各项指标数据推演计算预测数据指标的综合终参;

根据数据从冷到热的异构策略获取不同异构策略的平衡系数;

将数据指标的综合终参与获取的异构策略平衡系数进行比较;

根据比较结果确定异构策略;

将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变,若不一致,输出是否启动数据自动迁移的预警信息。

首先对集群上的数据各项指标数据采集,通过K最邻近分类算法纵向推演计算,通过BP神经网络算法横向推演计算,层层递归推演计算预测综合终参,根据综合终参和异构策略平衡系数比较后确定最后的异构策略,确定的异构策略具体包括:保持原有策略不变;发出预警,提示管理员是否启动数据自动迁移;发出红色预警,并自动启动数据自动迁移后关闭红色预警,以警告形式告知管理员。

优选地,获取集群上的数据的各项指标数据的步骤包括:

集群启动时间点为time1,每隔设定的时间获取一次集群上对应数据的数据热度、数据大小、数据血缘、集群存算能力各项指标;

当前时间为timeN,即当前获取的集群上的数据的各项指标数据有N组。

优选地,获取集群上对应数据的数据热度、数据大小、数据血缘、集群存算能力各项指标的步骤包括:

通过集群数据库中AccessCount表获取当前数据热度指标文件访问频率,通过YARN任务平台中JOB执行情况获取计算任务调用频率;

通过数据大小获取当前数据大小详细指标文件字节长短和存储格式;

通过集群存储、计算性能测试指标获取当前集群存算能力详细指标;

通过大数据血缘关系获取当前数据血缘详细指标。

优选地,根据获取的各项指标数据推演计算预测数据指标的综合终参的步骤包括:

根据获取的各项指标数据计算(N+M)组各项详细指标数据的数据热度终参、数据大小终参、集群存储能力终参、集群计算能力终参、集群存算能力终参、数据血缘终参;其中,B

根据计算的(N+M)组各项指标数据的终参得到每个时间的综合终参;

调用BP神经网络算法,输入time1-timeN每个时间的综合终参、数据热度终参、数据大小终参、集群存算能力终参、数据血缘终参,以及time(N+1)的数据热度终参、数据大小终参数、集群存算能力终参、数据血缘终参,预测time(N+1)的综合终参;

循环计算time(N+x)综合终参,其中1

优选地,根据获取的各项指标数据计算(N+M)组各项详细指标数据的数据热度终参、数据大小终参、集群存储能力终参、集群计算能力终参、集群存算能力终参、数据血缘终参的步骤之前包括:

选取距当前时间之前获取的N组数据;其中,N

优选地,将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变,若不一致,输出是否启动数据自动迁移的预警信息的步骤包括:

将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变,若不一致,则发出黄色预警,提示管理员是否启动数据自动迁移;

获取发出红色预警的时间x;

判断数据自动迁移所需时间是否小于获取的发出红色预警的时间x,若是,发出红色预警,调用数据块自动迁移算法完成自动迁移数据块,后关闭红色预警。

另一方面,本发明技术方案还提供一种智能存储管理数据块的异构存储策略选举装置,包括指标数据获取模块、计算模块、平衡系数获取模块、比较模块、异构策略选取模块、异构策略对比模块、输出模块;

指标数据获取模块,用于获取集群上的数据的各项指标数据;

计算模块,用于根据获取的各项指标数据推演计算预测数据指标的综合终参;

平衡系数获取模块,用于根据数据从冷到热的异构策略获取不同异构策略的平衡系数;

比较模块,用于将数据指标的综合终参与获取的异构策略平衡系数进行比较;

异构策略选取模块,用于根据比较结果确定异构策略;

异构策略对比模块,用于将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变;

输出模块,用于若异构策略对比模块对比不一致,输出是否启动数据自动迁移的预警信息。

优选地,指标数据获取模块包括数据热度指标获取单元、数据大小指标获取单元、集群存算能力指标获取单元、数据血缘指标获取单元;

数据热度指标获取单元,用于通过集群数据库中AccessCount表获取当前数据热度指标文件访问频率,通过YARN任务平台中JOB执行情况获取计算任务调用频率;

数据大小指标获取单元,用于通过数据大小获取当前数据大小详细指标文件字节长短和存储格式;

集群存算能力指标获取单元,用于通过集群存储、计算性能测试指标获取当前集群存算能力详细指标;

数据血缘指标获取单元,用于通过大数据血缘关系获取当前数据血缘详细指标。

优选地,计算单元包括指标数据终参计算单元、综合终参计算单元;

指标数据终参计算单元,用于根据获取的各项指标数据计算(N+M)组各项详细指标数据的数据热度终参、数据大小终参、集群存储能力终参、集群计算能力终参、集群存算能力终参、数据血缘终参;其中,B

综合终参计算单元,用于根据计算的(N+M)组各项指标数据的终参得到每个时间的综合终参;还用于调用BP神经网络算法,输入time1-timeN每个时间的综合终参、数据热度终参、数据大小终参、集群存算能力终参、数据血缘终参,以及time(N+1)的数据热度终参、数据大小终参数、集群存算能力终参、数据血缘终参,预测time(N+1)的综合终参;循环计算time(N+x)综合终参,其中1

优选地,该装置还包括时间获取模块、判断模块和迁移模块;

时间获取模块,用于获取发出红色预警的时间x;

判断模块,用于判断数据自动迁移所需时间是否小于获取的发出红色预警的时间x,若是,输出模块发出红色预警;

迁移模块,用于当输出模块输出红色预警时,调用数据块自动迁移算法完成自动迁移数据块,数据迁移完成后关闭红色预警。

从以上技术方案可以看出,本发明具有以下优点:用于为生产环境中HDFS SSM智能存储核心技术数据热度感知数据块选举、推荐、预测最合适的异构策略,为HDFS此领域技术革新提供评估结果,提高企业平台存储利用率。

此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。

由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的数据各项详细指标示意图。

图3是本发明一个实施例的集群计算能力终参计算示意图。

图4是本发明一个实施例的方法的数据血缘终参计算示意图。

图5是本发明一个实施例的方法的综合终参计算示意图。

图6是本发明一个实施例的装置的示意性框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

如图1所示,本发明实施例提供一种智能存储管理数据块的异构存储策略选举方法,包括如下步骤:

S1:获取集群上的数据的各项指标数据;

S2:根据获取的各项指标数据推演计算预测数据指标的综合终参;

S3:根据数据从冷到热的异构策略获取不同异构策略的平衡系数;

S4:将数据指标的综合终参与获取的异构策略平衡系数进行比较;

S5:根据比较结果确定异构策略;

S6:将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持原有的异构策略不变,若不一致,输出是否启动数据自动迁移的预警信息。

需要说明的是,首先对集群上的数据各项指标数据采集,通过K最邻近分类算法纵向推演计算,通过BP神经网络算法横向推演计算,层层递归推演计算预测综合终参,根据综合终参和异构策略平衡系数比较后确定最后的异构策略,确定的异构策略具体包括:保持原有策略不变;发出预警,提示管理员是否启动数据自动迁移;发出红色预警,并自动启动数据自动迁移后关闭红色预警,以警告形式告知管理员。

在有些实施例中,获取集群上的数据的各项指标数据的步骤包括:

集群启动时间点为time1,每隔设定的时间获取一次集群上对应数据的数据热度、数据大小、数据血缘、集群存算能力各项指标;每隔设定的时间在这里可以设置每个3秒;

当前时间为timeN,即当前获取的集群上的数据的各项指标数据有N组。

需要说明的是,获取集群上对应数据的数据热度、数据大小、数据血缘、集群存算能力各项指标的步骤包括:

通过集群数据库中AccessCount表获取当前数据热度指标文件访问频率,通过YARN任务平台中JOB执行情况获取计算任务调用频率;

通过数据大小获取当前数据大小详细指标文件字节长短和存储格式;

通过集群存储、计算性能测试指标获取当前集群存算能力详细指标;

通过大数据血缘关系获取当前数据血缘详细指标。

在有些实施例中,根据获取的各项指标数据推演计算预测数据指标的综合终参的步骤包括:

根据获取的各项指标数据计算(N+M)组各项详细指标数据的数据热度终参、数据大小终参、集群存储能力终参、集群计算能力终参、集群存算能力终参、数据血缘终参;其中,B

根据计算的(N+M)组各项指标数据的终参得到每个时间的综合终参;

调用BP神经网络算法,输入time1-timeN每个时间的综合终参、数据热度终参、数据大小终参、集群存算能力终参、数据血缘终参,以及time(N+1)的数据热度终参、数据大小终参数、集群存算能力终参、数据血缘终参,预测time(N+1)的综合终参;

循环计算time(N+x)综合终参,其中1

在有些实施例中,根据获取的各项指标数据计算(N+M)组各项详细指标数据的数据热度终参、数据大小终参、集群存储能力终参、集群计算能力终参、集群存算能力终参、数据血缘终参的步骤之前包括:

选取距当前时间之前获取的N组数据;其中,N

在有些实施例中,将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变,若不一致,输出是否启动数据自动迁移的预警信息的步骤包括:

将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变,若不一致,则发出黄色预警,提示管理员是否启动数据自动迁移;

获取发出红色预警的时间x;

判断数据自动迁移所需时间是否小于获取的发出红色预警的时间x,若是,发出红色预警,调用数据块自动迁移算法完成自动迁移数据块,后关闭红色预警。

下面举例对本发明的技术方案进行说明,具体的步骤包括:

1、数据各项详细指标获取

1.1集群启动时间点为time1,获取集群上对应数据的数据热度、数据大小、数据血缘、集群存算能力各项指标。如图2所示;

通过智能存储管理集群mysql数据库中AccessCount表获取当前(时间轴time1-timeN)数据热度指标文件读写访问频率a1-aN,通过YARN任务平台中JOB执行情况获取计算任务调用频率b1-bN;

通过数据大小获取当前(时间轴time1-timeN)数据大小详细指标文件字节长短c1-cN和文件存储格式d1-dN;

通过集群存储、计算性能测试指标获取当前(时间轴time1-timeN)集群存算能力指标;不同存储方式存储效率、存储空间e1-eN;不同计算方式计算效率、计算能力f1-fN;

通过大数据血缘关系获取当前(时间轴time1-timeN)数据血缘指标:文件生成路径g1-gN,文件历史路径h1-hN,文件现在路径i1-iN;

每隔3秒(默认时间,可设置)获取一次数据各项指标;

当前时间为timeN,即当前有N组指标数据。

2、数据各项指标time(N+1)—time(N+M)终参计算

选取距当前时间之前获取的N组数据;其中,N

2.1数据热度终参计算

2.1.1数据热度终参等于各项指标乘各自权重后相加,计算所取N组数据得到每个时间的数据热度终参;

2.1.2调用K最邻近算法,输入数据热度指标time1-timeN的各项指标:文件读写访问频率:权重设置为0.5、计算任务调用频率:权重设置为0.5,分别预测time(N+1)的文件读写访问频率a(N+1)、计算任务调用频率b(N+1);

2.1.3调用BP神经网络算法,输入数据热度指标time1-timeN的各项指标:数据热度终参、文件读写访问频率、计算任务调用频率,以及time(N+1)的文件读写访问频率a(N+1)、计算任务调用频率b(N+1),预测time(N+1)的数据热度终参数据热度(N+1);

2.1.4循环重复步骤2.1.2和2.1.3M次计算数据热度终参:数据热度(N+2)-数据热度(N+M)。

2.2数据大小终参计算

2.2.1数据大小终参等于各项指标乘各自权重后相加,计算所取N组数据得到每个时间的数据大小终参;

2.2.2调用K最邻近算法,输入数据大小指标time1-timeN的各项指标:当前数据文件字节长短、文件存储格式,分别预测time(N+1)的文件字节长短c(N+1)、文件存储格式d(N+1);文件字节长短的权重设置为0.9、文件存储格式的权重设置为0.1;

2.2.3调用BP神经网络算法,输入数据大小指标time1-timeN的各项指标:数据大小终参、文件字节长短、文件存储格式,以及time(N+1)的文件字节长短c(N+1)、文件存储格式d(N+1),预测time(N+1)的数据大小终参:数据大小(N+1);

2.2.4循环重复步骤2.2.2和2.2.3M次,计算数据大小终参数据大小(N+2)-数据大小(N+M)。

2.3集群存算能力终参计算

2.3.1集群存储能力终参计算

2.3.1.1集群存储能力终参等于各项指标乘各自权重后相加,计算所取N组数据得到每个时间的集群存储能力终参;

2.3.1.2调用K最邻近算法,输入集群存储能力指标time1-timeN的各项指标:不同存储方式存储效率、不同存储方式存储空间、不同存储方式使用频率,分别预测time(N+1)的使用不同存储方式存储效率j(N+1)、不同存储方式存储空间k(N+1)、不同存储方式使用频率l(N+1);不同存储方式存储效率的权重设置为0.6、不同存储方式存储空间的权重设置为0.1、不同存储方式使用频率的权重设置为0.3;

2.3.1.3调用BP神经网络算法,输入time1-timeN的各项数据指标:集群存储能力终参、不同存储方式存储效率、不同存储方式存储空间、不同存储方式使用频率,以及time(N+1)的不同存储方式存储效率j(N+1)、不同存储方式存储空间k(N+1)、不同存储方式使用频率l(N+1),预测time(N+1)的集群存储能力终参:集群存储能力(N+1);

2.3.1.4循环重复步骤2.3.1.2和2.3.1.3M次,计算集群存储能力终参:集群存储能力(N+2)-集群存储能力(N+M)。

2.3.2集群计算能力终参计算

2.3.2.1集群计算能力终参等于各项指标乘各自权重后相加,计算所取N组数据得到每个时间的集群计算能力终参;

2.3.2.2调用K最邻近算法,输入集群计算能力指标time1-timeN的各项指标:不同计算方式计算效率、不同存储方式计算能力、不同计算方式使用频率,分别预测time(N+1)的使用不同存储方式计算效率m(N+1)、不同存储方式计算能力n(N+1)、不同计算方式使用频率o(N+1);在这里不同计算方式计算效率的权重设置为0.3、不同存储方式计算能力的权重设置为0.4、不同计算方式使用频率的权重设置为0.3;如图3所示;

2.3.2.3调用BP神经网络算法,输入CPU指标time1-timeN的各项指标:集群计算能力终参、不同计算方式计算效率、不同计算方式计算能力、不同计算方式使用频率,以及time(N+1)的不同计算方式计算效率m(N+1)、不同计算方式计算能力n(N+1)、不同计算方式使用频率o(N+1),预测time(N+1)的集群计算能力终参:集群计算能力(N+1);

2.3.2.4循环重复步骤2.3.2.2和2.3.2.3M次,计算集群计算能力终参:集群计算能力(N+2)-集群计算能力(N+M)。

2.3.3集群存算能力终参计算

2.3.3.1集群存算能力终参等于各项指标乘各自权重后相加,计算所取N组数据得到每个时间的集群存算能力终参;

2.3.3.2调用K最邻近算法,输入集群存算能力指标time1-timeN的各项指标:集群存储能力、集群计算能力,分别预测time(N+1)的集群存储能力e(N+1)、集群计算能力f(N+1);集群存储能力的权重设置为0.5、集群计算能力的权重设置为0.5;

2.3.3.3调用BP神经网络算法,输入CPU指标time1-timeN的各项指标:集群存算能力终参、集群存储能力、集群计算能力,以及time(N+1)的集群存储能力e(N+1)、集群计算能力f(N+1),预测time(N+1)的集群存算能力终参:集群存算能力(N+1);

2.3.3.4循环重复步骤2.3.3.2和2.3.3.3M次,计算集群存算能力终参:集群存算能力(N+2)-集群存算能力(N+M)。

2.4数据血缘终参计算

2.4.1数据血缘终参等于各项指标乘各自权重后相加,计算所取N组数据得到每个时间的数据血缘终参;如图4所示;

2.4.2调用K最邻近算法,输入网络指标time1-timeN的各项指标:文件生成路径、文件历史路径、文件现在路径,分别预测time(N+1)的文件生成路径g(N+1)、文件历史路径h(N+1)、文件现在路径i(N+1);文件生成路径的权重设置为0.2、文件历史路径的权重设置为0.3、文件现在路径权重设置为0.5;

2.4.3调用BP神经网络算法,输入数据血缘指标time1-timeN的各项指标:数据血缘终参、文件生成路径、文件历史路径、文件现在路径,以及time(N+1)的文件生成路径g(N+1)、文件历史路径h(N+1)、文件现在路径i(N+1);,预测time(N+1)的数据血缘终参:数据血缘(N+1);

2.4.4循环重复步骤2.4.2和2.4.3M次,计算数据血缘终参:数据血缘(N+2)-数据血缘(N+M)。

3、数据综合指标time(N+1)-time(N+M)终参计算

3.1综合终参time(N+1)计算

3.1.1综合终参等于各项详细指标乘各自权重后相加,各项详细指标计算由步骤2计算得到的(N+M)组各项详细指标数据得到每个时间的综合终参;如图5所示;

3.1.2调用BP神经网络算法,输入综合终参指标time1-timeN的各项指标:综合终参、数据热度终参、数据大小终参、集群存算能力终参、数据血缘终参,以及time(N+1)的数据热度终参A(N+1)、数据大小终参数B(N+1)、集群存算能力终参C(N+1)、数据血缘终参D(N+1),预测time(N+1)的综合终参:综合(N+1);在这里,数据热度终参的权重设置为0.8、数据大小终参的权重设置为0.06、集群存算能力终参的权重设置为0.11、数据血缘终参的权重设置为0.03;

3.1.3循环重复步骤2获取数据,循环重复3.1.2计算综合终参综合(N+2)-综合(N+M)。

4、异构策略平衡系数获取

4.1根据数据从冷到热的异构策略archive→onedisk→alldisk→onessd→allssd→ramdisk→cache共七种异构策略,分别对应异构策略平衡系数HS-archive、HS-onedisk、HS-alldisk、HS-onessd、HS-allssd、HS-ramdisk、HS-cache。

5、数据综合终参比较

5.1由步骤2和步骤3计算得到综合终参指标,步骤4获取异构策略平衡系数;

5.2综合终参综合(N+x)<(HS-archive+HS-onedisk)/2,则该数据块的异构策略选举为archive;

5.3(HS-archive+HS-onedisk)/2<综合终参综合(N+x)<(HS-onedisk+HS-alldisk)/2,则该数据块的异构策略选举为onedisk;

5.4(HS-onedisk+HS-alldisk)/2<综合终参综合(N+x)<(HS-alldisk+HS-onessd)/2,则该数据块的异构策略选举为alldisk;

5.5(HS-alldisk+HS-onessd)/2<综合终参综合(N+x)<(HS-onessd+HS-allssd)/2,则该数据块的异构策略选举为onessd;

5.6(HS-onessd+HS-allssd)/2<综合终参综合(N+x)<(HS-allssd+HS-ramdisk)/2,则该数据块的异构策略选举为allssd

5.7(HS-allssd+HS-ramdisk)/2<综合终参综合(N+x)

5.8HS-cache=<综合终参综合(N+x),则该数据块的异构策略选举为cache;

6、数据块自动迁移

6.1根据步骤5选举的异构策略,与数据原有异构策略对比,若一致则保持不变;若不一致则发出黄色预警,提示管理员是否启动数据自动迁移;

6.2从步骤5获取x,x小于数据块迁移所需时间,发出红色预警;

6.3调用数据块自动迁移算法完成自动迁移数据块,后关闭红色预警,以警告形式告知管理员。

如图6所示,本发明技术方案还提供一种智能存储管理数据块的异构存储策略选举装置,包括指标数据获取模块、计算模块、平衡系数获取模块、比较模块、异构策略选取模块、异构策略对比模块、输出模块;

指标数据获取模块,用于获取集群上的数据的各项指标数据;

计算模块,用于根据获取的各项指标数据推演计算预测数据指标的综合终参;

平衡系数获取模块,用于根据数据从冷到热的异构策略获取不同异构策略的平衡系数;

比较模块,用于将数据指标的综合终参与获取的异构策略平衡系数进行比较;

异构策略选取模块,用于根据比较结果确定异构策略;

异构策略对比模块,用于将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变;

输出模块,用于若异构策略对比模块对比不一致,输出是否启动数据自动迁移的预警信息。

在有些实施例中,指标数据获取模块包括数据热度指标获取单元、数据大小指标获取单元、集群存算能力指标获取单元、数据血缘指标获取单元;

数据热度指标获取单元,用于通过集群数据库中AccessCount表获取当前数据热度指标文件访问频率,通过YARN任务平台中JOB执行情况获取计算任务调用频率;

数据大小指标获取单元,用于通过数据大小获取当前数据大小详细指标文件字节长短和存储格式;

集群存算能力指标获取单元,用于通过集群存储、计算性能测试指标获取当前集群存算能力详细指标;

数据血缘指标获取单元,用于通过大数据血缘关系获取当前数据血缘详细指标。

在有些实施例中,计算单元包括指标数据终参计算单元、综合终参计算单元;

指标数据终参计算单元,用于根据获取的各项指标数据计算(N+M)组各项详细指标数据的数据热度终参、数据大小终参、集群存储能力终参、集群计算能力终参、集群存算能力终参、数据血缘终参;其中,B

综合终参计算单元,用于根据计算的(N+M)组各项指标数据的终参得到每个时间的综合终参;还用于调用BP神经网络算法,输入time1-timeN每个时间的综合终参、数据热度终参、数据大小终参、集群存算能力终参、数据血缘终参,以及time(N+1)的数据热度终参、数据大小终参数、集群存算能力终参、数据血缘终参,预测time(N+1)的综合终参;循环计算time(N+x)综合终参,其中1

在有些实施例中,该装置还包括时间获取模块、判断模块和迁移模块;

时间获取模块,用于获取发出红色预警的时间x;

判断模块,用于判断数据自动迁移所需时间是否小于获取的发出红色预警的时间x,若是,输出模块发出红色预警;

迁移模块,用于当输出模块输出红色预警时,调用数据块自动迁移算法完成自动迁移数据块,数据迁移完成后关闭红色预警。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号