公开/公告号CN112231294B
专利类型发明专利
公开/公告日2022-08-05
原文格式PDF
申请/专利权人 苏州浪潮智能科技有限公司;
申请/专利号CN202010988256.3
申请日2020-09-18
分类号G06F16/182(2019.01);G06F16/185(2019.01);G06F16/17(2019.01);
代理机构济南舜源专利事务所有限公司 37205;
代理人孙玉营
地址 215100 江苏省苏州市吴中区吴中经济开发区郭巷街道官浦路1号9幢
入库时间 2022-09-06 00:40:17
法律状态公告日
法律状态信息
法律状态
2022-08-05
授权
发明专利权授予
技术领域
本发明涉及异构存储策略选举技术领域,具体涉及一种智能存储管理数据块的异构存储策略选举方法、装置。
背景技术
智能存储管理Smart Storage Management(简称SSM),提出面向分布式存储的智能管理架构,提供面向新型存储设备、高速网络、新计算的存储优化与数据优化解决方案,实现了端到端的数据管理服务。Hadoop社区在HDFS-7343(HDFS smart storagemanagement)以及相关JIRA中提出了HDFS智能存储管理的设计,提供一个全面而灵活的存储策略引擎,把文件属性、元数据、数据温度、存储类型、EC编解码器、可用的硬件功能、用户、应用程序首选项等考虑在内,以方便、智能和有效地使用纠删码、副本或其他存储策略,以及HDFS缓存工具、HSM产品和各种工具大型集群中的均衡器、移动器、磁盘均衡器等,未实现未发布。智能存储的核心技术是数据热度感知,数据热度将有助于找出甚至预测数据访问模式,从而能够针对热数据进行相应地优化处理,特别是在新型存储设备上将获得更高的收益。同时,该技术也有助于利用大量的存储密集型设备或系统来存储冷数据,从而减轻集群性能的下降,降低存储成本。在智能存储管理系统中通过文件元数据信息获取数据热度,作为存储管理的指标之一。
Hadoop社区在HDFS-2832(Enable support for heterogeneous storages inHDFS-DN as a collection of storages)以及相关JIRA中提出了启用对HDFS-DN中的异构存储(作为存储集合)的支持,新增存储目录列表的异构存储支持,将DataNode支持单一存储策略更改为支持多种存储策略的集合,发布在Hadoop2.3.0版本;在HDFS-5682(Heterogeneous Storage phase 2-APIs to expose Storage Types)以及相关JIRA中跟踪异构存储工作的第二阶段,该阶段涉及将存储类型公开给应用程序,并为管理员添加配额管理支持,此阶段还将包括针对管理员、用户的工具支持,发布在Hadoop2.7.0版本;在HDFS-5851(Support memory as a storage medium)以及相关JIRA中提出了HDFS提供支持内存作为存储介质,以实现快速写入吞吐量,未实现未发布;在HDFS-6584(SupportArchival Storage)以及相关JIRA中提出了HDFS提供支持档案存储,将更多节点添加到冷存储可以独立于群集中的计算容量来扩展存储,发布在Hadoop2.6.0版本;在HDFS-4949(Centralized cache management in HDFS)以及相关JIRA中提出了HDFS中的集中式缓存管理,发布在Hadoop2.3.0版本;在HDFS-13069(Enable HDFS to cache data read fromexternal storage systems)以及相关JIRA中提出了启用HDFS缓存从外部存储系统读取的数据,即使用提供的存储(HDFS-9806),HDFS可以处理存储在外部存储系统中的数据,当对外部存储的访问带宽有限/延迟较高时,在HDFS中本地缓存此数据可以加快对数据的后续访问,将外部数据缓存在本地磁盘和SSD上,从而加速远程数据读取,未实现未发布;在HDFS-7343(HDFS smart storage management)以及相关JIRA中提出了HDFS智能存储管理的设计,提供一个全面而灵活的存储策略引擎,把文件属性、元数据、数据温度、存储类型、EC编解码器、可用的硬件功能、用户、应用程序首选项等考虑在内,以方便、智能和有效地使用纠删码、副本或其他存储策略,以及HDFS缓存工具、HSM产品和各种工具大型集群中的均衡器、移动器、磁盘均衡器等,未实现未发布。在实时监控系统的场景下,通常只会关注最新时间段的业务数据,根据业务需求可以是最近30分钟、最近1小时、甚至于最近几个小时的数据,这部分被关注的数据可以称之为热数据,当热数据失去时效性后,称之为冷数据。随着时间的推移,热数据会变为冷数据,最新接收到的数据变为热数据。根据热、冷数据特点,冷数据最佳存储策略为纠删码存储,热数据最佳存储策略为三副本存储。
HDFS smart storage management智能化管理存储策略仅实现框架设计并未发布,细节部分还未实现,该架构现在还在实验阶段。但此类以Hadoop系统生态圈为代表的大数据革命级技术,将会提高当前HDFS存储技术一个维度。将用户写入集群的数据直接就自适应地以最合适的异构策略存储到最合适的存储介质上,而且对于用户而言它是无感知的。随着大数据日益剧增,随着该功能的完善、Hadoop社区补丁的更新以及后续新版本的发布,HDFS smart storage management智能化管理存储策略会越来越完善,针对智能存储管理数据块的异构策略是否是最佳策略,集群中的数据是否已被智能化地管理,如何来给集群中数据块选举、推荐、预测最合适的异构策略,是现阶段所要解决的问题。
发明内容
针对智能存储管理数据块的异构策略是否是最佳策略,集群中的数据是否已被智能化地管理,如何来给集群中数据块选举、推荐、预测最合适的异构策略的问题,本发明提供一种智能存储管理数据块的异构存储策略选举方法、装置。
本发明的技术方案是:
一方面,本发明技术方案提供一种智能存储管理数据块的异构存储策略选举方法,包括如下步骤:
获取集群上的数据的各项指标数据;
根据获取的各项指标数据推演计算预测数据指标的综合终参;
根据数据从冷到热的异构策略获取不同异构策略的平衡系数;
将数据指标的综合终参与获取的异构策略平衡系数进行比较;
根据比较结果确定异构策略;
将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变,若不一致,输出是否启动数据自动迁移的预警信息。
首先对集群上的数据各项指标数据采集,通过K最邻近分类算法纵向推演计算,通过BP神经网络算法横向推演计算,层层递归推演计算预测综合终参,根据综合终参和异构策略平衡系数比较后确定最后的异构策略,确定的异构策略具体包括:保持原有策略不变;发出预警,提示管理员是否启动数据自动迁移;发出红色预警,并自动启动数据自动迁移后关闭红色预警,以警告形式告知管理员。
优选地,获取集群上的数据的各项指标数据的步骤包括:
集群启动时间点为time1,每隔设定的时间获取一次集群上对应数据的数据热度、数据大小、数据血缘、集群存算能力各项指标;
当前时间为timeN,即当前获取的集群上的数据的各项指标数据有N组。
优选地,获取集群上对应数据的数据热度、数据大小、数据血缘、集群存算能力各项指标的步骤包括:
通过集群数据库中AccessCount表获取当前数据热度指标文件访问频率,通过YARN任务平台中JOB执行情况获取计算任务调用频率;
通过数据大小获取当前数据大小详细指标文件字节长短和存储格式;
通过集群存储、计算性能测试指标获取当前集群存算能力详细指标;
通过大数据血缘关系获取当前数据血缘详细指标。
优选地,根据获取的各项指标数据推演计算预测数据指标的综合终参的步骤包括:
根据获取的各项指标数据计算(N+M)组各项详细指标数据的数据热度终参、数据大小终参、集群存储能力终参、集群计算能力终参、集群存算能力终参、数据血缘终参;其中,B 根据计算的(N+M)组各项指标数据的终参得到每个时间的综合终参; 调用BP神经网络算法,输入time1-timeN每个时间的综合终参、数据热度终参、数据大小终参、集群存算能力终参、数据血缘终参,以及time(N+1)的数据热度终参、数据大小终参数、集群存算能力终参、数据血缘终参,预测time(N+1)的综合终参; 循环计算time(N+x)综合终参,其中1 优选地,根据获取的各项指标数据计算(N+M)组各项详细指标数据的数据热度终参、数据大小终参、集群存储能力终参、集群计算能力终参、集群存算能力终参、数据血缘终参的步骤之前包括: 选取距当前时间之前获取的N组数据;其中,N 优选地,将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变,若不一致,输出是否启动数据自动迁移的预警信息的步骤包括: 将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变,若不一致,则发出黄色预警,提示管理员是否启动数据自动迁移; 获取发出红色预警的时间x; 判断数据自动迁移所需时间是否小于获取的发出红色预警的时间x,若是,发出红色预警,调用数据块自动迁移算法完成自动迁移数据块,后关闭红色预警。 另一方面,本发明技术方案还提供一种智能存储管理数据块的异构存储策略选举装置,包括指标数据获取模块、计算模块、平衡系数获取模块、比较模块、异构策略选取模块、异构策略对比模块、输出模块; 指标数据获取模块,用于获取集群上的数据的各项指标数据; 计算模块,用于根据获取的各项指标数据推演计算预测数据指标的综合终参; 平衡系数获取模块,用于根据数据从冷到热的异构策略获取不同异构策略的平衡系数; 比较模块,用于将数据指标的综合终参与获取的异构策略平衡系数进行比较; 异构策略选取模块,用于根据比较结果确定异构策略; 异构策略对比模块,用于将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持不变; 输出模块,用于若异构策略对比模块对比不一致,输出是否启动数据自动迁移的预警信息。 优选地,指标数据获取模块包括数据热度指标获取单元、数据大小指标获取单元、集群存算能力指标获取单元、数据血缘指标获取单元; 数据热度指标获取单元,用于通过集群数据库中AccessCount表获取当前数据热度指标文件访问频率,通过YARN任务平台中JOB执行情况获取计算任务调用频率; 数据大小指标获取单元,用于通过数据大小获取当前数据大小详细指标文件字节长短和存储格式; 集群存算能力指标获取单元,用于通过集群存储、计算性能测试指标获取当前集群存算能力详细指标; 数据血缘指标获取单元,用于通过大数据血缘关系获取当前数据血缘详细指标。 优选地,计算单元包括指标数据终参计算单元、综合终参计算单元; 指标数据终参计算单元,用于根据获取的各项指标数据计算(N+M)组各项详细指标数据的数据热度终参、数据大小终参、集群存储能力终参、集群计算能力终参、集群存算能力终参、数据血缘终参;其中,B 综合终参计算单元,用于根据计算的(N+M)组各项指标数据的终参得到每个时间的综合终参;还用于调用BP神经网络算法,输入time1-timeN每个时间的综合终参、数据热度终参、数据大小终参、集群存算能力终参、数据血缘终参,以及time(N+1)的数据热度终参、数据大小终参数、集群存算能力终参、数据血缘终参,预测time(N+1)的综合终参;循环计算time(N+x)综合终参,其中1 优选地,该装置还包括时间获取模块、判断模块和迁移模块; 时间获取模块,用于获取发出红色预警的时间x; 判断模块,用于判断数据自动迁移所需时间是否小于获取的发出红色预警的时间x,若是,输出模块发出红色预警; 迁移模块,用于当输出模块输出红色预警时,调用数据块自动迁移算法完成自动迁移数据块,数据迁移完成后关闭红色预警。 从以上技术方案可以看出,本发明具有以下优点:用于为生产环境中HDFS SSM智能存储核心技术数据热度感知数据块选举、推荐、预测最合适的异构策略,为HDFS此领域技术革新提供评估结果,提高企业平台存储利用率。 此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。 由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1是本发明一个实施例的方法的示意性流程图。 图2是本发明一个实施例的数据各项详细指标示意图。 图3是本发明一个实施例的集群计算能力终参计算示意图。 图4是本发明一个实施例的方法的数据血缘终参计算示意图。 图5是本发明一个实施例的方法的综合终参计算示意图。 图6是本发明一个实施例的装置的示意性框图。 具体实施方式 为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。 如图1所示,本发明实施例提供一种智能存储管理数据块的异构存储策略选举方法,包括如下步骤: S1:获取集群上的数据的各项指标数据; S2:根据获取的各项指标数据推演计算预测数据指标的综合终参; S3:根据数据从冷到热的异构策略获取不同异构策略的平衡系数; S4:将数据指标的综合终参与获取的异构策略平衡系数进行比较; S5:根据比较结果确定异构策略; S6:将确定的异构策略与数据原有的异构策略进行对比,若一致,则保持原有的异构策略不变,若不一致,输出是否启动数据自动迁移的预警信息。 需要说明的是,首先对集群上的数据各项指标数据采集,通过K最邻近分类算法纵向推演计算,通过BP神经网络算法横向推演计算,层层递归推演计算预测综合终参,根据综合终参和异构策略平衡系数比较后确定最后的异构策略,确定的异构策略具体包括:保持原有策略不变;发出预警,提示管理员是否启动数据自动迁移;发出红色预警,并自动启动数据自动迁移后关闭红色预警,以警告形式告知管理员。 在有些实施例中,获取集群上的数据的各项指标数据的步骤包括: 集群启动时间点为time1,每隔设定的时间获取一次集群上对应数据的数据热度、数据大小、数据血缘、集群存算能力各项指标;每隔设定的时间在这里可以设置每个3秒; 当前时间为timeN,即当前获取的集群上的数据的各项指标数据有N组。 需要说明的是,获取集群上对应数据的数据热度、数据大小、数据血缘、集群存算能力各项指标的步骤包括: 通过集群数据库中AccessCount表获取当前数据热度指标文件访问频率,通过YARN任务平台中JOB执行情况获取计算任务调用频率; 通过数据大小获取当前数据大小详细指标文件字节长短和存储格式; 通过集群存储、计算性能测试指标获取当前集群存算能力详细指标; 通过大数据血缘关系获取当前数据血缘详细指标。 在有些实施例中,根据获取的各项指标数据推演计算预测数据指标的综合终参的步骤包括: 根据获取的各项指标数据计算(N+M)组各项详细指标数据的数据热度终参、数据大小终参、集群存储能力终参、集群计算能力终参、集群存算能力终参、数据血缘终参;其中,B 根据计算的(N+M)组各项指标数据的终参得到每个时间的综合终参; 调用BP神经网络算法,输入time1-timeN每个时间的综合终参、数据热度终参、数据大小终参、集群存算能力终参、数据血缘终参,以及time(N+1)的数据热度终参、数据大小终参数、集群存算能力终参、数据血缘终参,预测time(N+1)的综合终参; 循环计算time(N+x)综合终参,其中1 在有些实施例中,根据获取的各项指标数据计算(N+M)组各项详细指标数据的数据热度终参、数据大小终参、集群存储能力终参、集群计算能力终参、集群存算能力终参、数据血缘终参的步骤之前包括:
机译: 智能仓库存储管理方法,装置,系统及无人智能仓库存储设备
机译: 数据存储装置,记录介质以及基于数据块大小和维度信息或获取数据的轴有选择地将数据块复制到另一种介质的方法
机译: 将选择性属性获取和条款评估用于基于策略的存储管理的方法和装置