首页> 中国专利> 用于在QOS感知云中管理合并的工作负载的性能干扰模型

用于在QOS感知云中管理合并的工作负载的性能干扰模型

摘要

本发明的各实施例涉及用于在QOS感知云中管理整合合并的工作负载的性能干扰模型。工作负载分析器和性能干扰(WPPI)系统使用识别的工作负载、资源估计分析器和影响矩阵的测试套件来表征未剖析的工作负载,以及从属关系规则以标识最佳和次佳的工作负载分配,以实现消费者服务质量(QoS)保证和/或提供方收益目标。WPPI系统使用性能干扰模型来预测对可用来实现云提供方和/或云消费者目标的各种合并方案的工作负载的性能影响,并且使用识别的工作负载、资源估计分析器和影响矩阵的测试套件、从属关系规则、以及性能干扰模型来执行离线建模以确定初始分配选择和合并策略以用来部署工作负载。WPPI系统使用在线合并算法、离线模型、以及在线监测来确定响应于实时条件的虚拟机到物理主机分配,以满足云提供方和/或云消费者目标。

著录项

  • 公开/公告号CN103383655A

    专利类型发明专利

  • 公开/公告日2013-11-06

    原文格式PDF

  • 申请/专利权人 埃森哲环球服务有限公司;

    申请/专利号CN201310139588.4

  • 发明设计人 朱倩;T·董;

    申请日2013-01-14

  • 分类号G06F9/50(20060101);G06F9/455(20060101);H04L29/08(20060101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人酆迅;辛鸣

  • 地址 爱尔兰都柏林

  • 入库时间 2024-02-19 20:21:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-10-03

    授权

    授权

  • 2015-02-11

    实质审查的生效 IPC(主分类):G06F9/50 申请日:20130114

    实质审查的生效

  • 2013-11-06

    公开

    公开

说明书

技术领域

本说明书涉及通过消费者的计算工作负载来估计和管理资源消耗, 以及标识和实现提高工作负载性能的工作负载合并和资源分配策略。本说明书 还涉及通过高效的工作负载合并策略提高用户体验并增加云提供方的收益。

背景技术

云计算使用户能够在需要时访问大型计算池以及存储资源,减轻商 家(例如,云消费者)的管理负担,并保持信息技术(IT)资产。云提供方使 用虚拟化技术(例如,)通过合并工作负载和应用资源分配来满足消 费者提交的工作负载。合并和分配设置通常是静态的,并依赖于固定的规则, 这些规则通常不考虑工作负载的实时资源使用特性,更不用说对工作负载的性 能影响。当前系统基于使用或者保留的资源量对云消费者进行收费,其中仅有 最低的关于云消费者的应用(例如,工作负载)体验的服务质量(QoS)以及由 此的应用用户的体验的保证。因此,云消费者寻求如下有吸引力的云提供方, 其提供资源(例如,足够量的硬件基础结构)以满足用于云消费者的工作负载 的最大等级的QoS保证。

随着虚拟化技术在云提供方中的激增,将多个云消费者的应用合并 到多核服务器上提高用于云提供方的资源利用。现有的工具使用具有静态规则 的随机供应,这可能引起不良工作负载性能(例如,不满足用于云消费者的工 作负载的QoS保证),和/或低效资源利用,并手动执行应用分析和资源调整。 此外,多个云消费者的应用(例如,工作负载)的合并在同地共置的(colocated) 工作负载之间引入了性能干扰,这明显影响每个合并的用户的应用工作负载的 QoS。

发明内容

工作负载分析器和性能干扰(WPPI)系统使用用于表征可能不被 云提供方识别的消费者工作负载的识别的工作负载(例如,一组基准工作负载)、 资源估计分析器和影响矩阵的测试套件,以及用于最大化(例如,优化)有效 工作负载分配的从属关系规则以满足工作负载QoS目标。WPPI系统可以重新 剖析WPPI系统没有识别的之前剖析的工作负载以便推断工作负载的特性,因 为提供方可能未直接识别或知晓消费者工作负载。WPPI系统还使用性能干扰模 型来预测(例如,预报)对各种合并方案的工作负载的性能影响。WPPI系统使 用从属关系规则和性能干扰模型来确定最佳的和次佳的分配和合并方案,其可 以被用来实现云提供方和/或云消费者目标。WPPI系统可以使用识别的工作负 载、资源估计分析器和影响矩阵的测试套件,从属关系规则,以及性能干扰模 型,来执行离线建模以确定初始分配选择和合并策略(例如,方案)以用来部 署工作负载。WPPI系统还可以是在线合并算法,其使用离线模型(例如,资源 估计分析器、影响矩阵、从属关系规则,和性能干扰模型)和在线监测来确定 响应于实时条件(例如,用户需求和资源的可用性)的最佳的和次佳的虚拟机 到物理主机分配,以便满足云提供方和/或云消费者目标。

根据对以下附图和具体实施方式的分析,其他系统、方法和特征对 于本领域技术人员将是或将变得显而易见。所有这些附加的系统、方法和特征 都旨在于被包括在本说明书中,在本公开内容的范围内,以及通过以下权利要 求进行保护。

附图说明

通过参考以下附图和说明,可以更好地理解用于QoS感知云的工作 负载分析器和性能干扰(WPPI)系统和方法。参考以下附图描述了非限制性和 非穷尽的描述。附图中的组件不一定是按照比例的,相反重点在于示例性的原 则。在附图中,除非另有说明,相同的参考数字贯穿不同附图指代相同部分。

图1示出了工作负载分析器和性能干扰(WPPI)配置。

图2示出了WPPI系统可以标识用于合并云消费者的工作负载(例 如,应用)的云提供方的类型。

图3示出了WPPI系统可以分析的资源和资源竞争的类型。

图4示出了WPPI系统用来确定工作负载性能干扰和合并方案的逻 辑的流程图。

图5示出了WPPI系统确定用来优化工作负载合并和资源利用的工 作负载简档的图形表示。

图6示出了WPPI系统可以用来确定资源使用简档估计的逻辑。

图7示出了WPPI系统可以用来标识用于资源的从属关系映射到工 作负载的映射的模糊逻辑。

图8示出了WPPI系统可以用来计算用于工作负载的扩大因子的影 响矩阵。

图9示出了WPPI系统可以用来优化工作负载的数量和最大化提供 方收益的逻辑。

图10示出了WPPI系统可以用来确定工作负载合并以及最大化云 提供方收益的虚拟机(VM)规范。

图11示出了展现识别的工作负载简档(工作负载签名)的测试套 件工作负载。

图12示出了由WPPI系统用来计算合并的工作负载的退化的性能 干扰模型验证。

图13示出了由WPPI系统用来计算合并的工作负载的退化的另一 性能干扰模型验证。

图14示出了WPPI系统可以生成以优化提供方收益的分析。

图15示出了在提议的工作负载合并之前和之后的工作负载映射。

图16示出了云消费者提交的应用的软截止期限。

图17示出了由WPPI系统确定用于多个云消费者提交的应用的合 并置换。

图18示出了指示合并策略是否满足工作负载的QoS保证的视觉指 示符。

图19示出了提交给WPPI系统以确定合并策略的附加应用。

图20示出了合并策略,其中至少一个云消费者提交的工作负载未 能满足工作负载的QoS保证。

图21示出了合并和工作负载迁移策略,其满足云消费者提交的工 作负载的QoS保证,并最大化云提供方的收益。

图22示出了第2种情况的合并策略,其满足云消费者提交的工作 负载的QoS保证,并最大化云提供方的收益。

具体实施方式

这里描述的原则可以按照多种不同形式进行具体化。然而,并不要 求全部描述的组件,并且某些实现方式可以包括附加的、不同的、或者更少的 组件。可以对布置和组件类型进行变化,而不脱离如这里阐明的权利要求的精 神或范围。此外,可以提供不同的或者更少的组件。

图1示出了工作负载分析器和性能干扰(WPPI)配置100,其包括 WPPI系统102。WPPI系统102包括耦合到存储器106的处理器104,其使用 通信接口108经由网络110(例如,因特网)与WPPI配置100中的各种组件进 行通信。工作负载WPPI系统102使用识别的工作负载112、资源估计分析器 114和影响矩阵116的测试套件以表征工作负载(118、120),以及用于标识最 佳的和次佳的工作负载分配124的从属关系规则122以实现消费者服务质量 (QoS)保证126和/或提供方收益目标128。WPPI系统102使用性能干扰模型 130来预测对可用于实现云提供方134和/或云消费者136目标(126、128)的 各种合并方案(例如,合并策略132)的工作负载(118、120)的性能影响,并 使用识别的工作负载112、资源估计分析器114和影响矩阵116的测试套件、从 属关系规则122,以及性能干扰模型130来执行离线建模以确定初始分配124 选择和合并策略132以用来部署工作负载(118、120)。WPPI系统102使用在 线合并算法138,离线建模工具(114、116、122、130)和在线监测来确定响应 于实时条件的虚拟机到物理主机分配140以满足云提供方134和/或云消费者 136目标(126、128)。

WPPI系统102可以调整从属关系规则122以平衡云消费者136的 目标126和服务提供方134的目标128。最大化提供方的收益可以被计算为被收 集用于运行工作负载(118、120)和满足QoS保证126的费用小于用于提供用 于满足QoS保证126的硬件基础结构资源(144、146、148、150、160)的成本 142。云消费者136可以支付额外费用来影响一个或多个从属关系规则122的实 施。备选的,并非支付一定量的金钱作为额外费用,云消费者136可以评价云 消费者的工作负载(118、120)以标识用于云消费者136的工作负载的优先级 排序152。

从历史上说,在使用多个应用的运行时期间监测,当观察到两个应 用展现出资源竞争问题时,则设置规则指示应用应该从使用相同的资源分离出 来。通常,这种观测的展现出资源竞争和规则设置是人工(human-in-the-loop) 进行的。相反,WPPI系统102使用性能干扰模型130来自动确定可以使用相同 或者不同硬件基础结构资源(144、146、148、150、160)而被最佳执行的工作 负载类型(118、120、112、154)。干扰模型130向使用硬件基础结构资源(144、 146、148、150、160)来一起分析以用于执行的多个工作负载(118、120、112、 154)提供估计的扩大因子156(例如,乘法器,其指示性能退化,该性能退化 可以根据性能干扰164的百分比来表示,该百分比通过一起执行多个工作负载 而产生)。WPPI系统102应用扩大因子到资源使用简档,WPPI系统102将该 简档翻译为保持QoS保证所需的所需的要求的资源,包括用于处理的时间或者 准确度(例如,使用从训练退回的资源时间关系)。

除了时间作为QoS度量,QoS度量还可以包括其他度量,诸如工 作准确度(例如,在Monte Carlo仿真中,当没提供了不充足的资源时,在固定 时间量之后,与分配了所需要的扩大资源的情况相比,仿真的准确度会更低)。 时间作为QoS度量,还可以应用到完成交易、处理请求或者完成批任务所要求 的时间。扩大比较单独运行在机器上的工作负载的QoS与当该工作负载在共享 的并置环境中操作时保持相同QoS所需的要求的资源。

与测量CpU或者多个工作负载所要求的存储器的最后级缓存的历 史性能干扰模型相比,当前的性能干扰模型130跨用于多个工作负载(112、118、 120)的多类型的资源(例如,CpU、缓存、网络带宽、储存器)(144、146、 148、150、160)提供定量分析,以及用于满足工作负载的多个置换的QoS保证 126的那些硬件基础结构资源(144、146、148、150、160)的时间变量特征。 工作负载资源利用配置文件可以被表示为时间序列资源简档向量158,从而使得 例如被标识为CPU密集型的两个工作负载(118、120)可以被组合以使用CPU, 因为相应的两个工作负载(118、120)的时间序列CPU利用在不同时间要求 CPU。

例如,当同地共置第一工作负载118和第二工作负载120以使用相 同集合的物理资源(144、146、148、150、160)执行时,扩大156指示工作负 载(118、120)可能如何相互干扰。WPPI系统102捕获这种干扰,作为在用于 独自执行单个工作负载所需的那些资源之上的执行两个工作负载所需的附加物 理资源量。

例如,当工作负载‘A’独自需要10%的资源,并且B独自需要10%, 但是当组合时,‘A’需要15%并且‘B'需要12%。在这个示例中,由于与‘B’并置, ‘A’的扩大因子是1.5,并且由于‘A’,‘B’的扩大因子是1.2。当并置时,工作负载 ‘A'和‘B'一起消耗了27%的物理资源。应用相同的逻辑,通过在用于独自执行单 个工作负载所需的那些资源之上的执行全部工作负载(例如,主体工作负载和 来自群组的其他工作负载)所需的附加物理资源量捕获一组其他的工作负载的 干扰。

当物理资源不能容纳用于工作负载的附加的扩大因子时,那么干扰 的结果是退化的QoS,这可能包括性能退化、准确度缺失、或者用于工作、交 易或工作负载的时间的附加延迟。WPPI系统102可能不直接将合并方案与QoS 度量相关。WPPI系统102将合并方案映射到用于使用预测模型来预测QoS度 量的应用资源使用简档(通过扩大因子)。

例如,当第一应用(例如,工作负载118)是CPU密集型并且第二 应用(例如,工作负载120)是存储器密集型时,同地共置第一应用和第二应以 使用相同的服务器(例如,资源146)将导致所需物理资源总量的增加(例如, 扩大值156),用作在用于执行第一应用的工作负载所需的资源中的采取百分比 增加形式的乘数。

扩大因子是资源使用简档中度量的乘数,并且WPPI系统102使用 扩大因子调整资源使用简档,WPPI系统102继而使用新的简档来预测应用性能。 例如,当单独操作时第一应用所需资源R0在将第二应用分配给相同服务器时被 影响增加15%扩大(156)到所需资源量R1,其被计算为R0乘以扩大(156)1.15, 或者R0×1.15=R1,其为当第一应用和第二应用被同地并置以使用相同基本物理 资源时第一应用的所需资源。由第一应用使用的资源(R0)将被扩大为R1= 1.15×R0,这里1.15是扩大因子,扩大因子、R0和R1是标量。

通常,扩大因子可以是与资源度量相同维度的向量,所以每个资源 度量存在一个扩大值。例如,考虑到扩大因子向量(例如,1.15和1.05),其中 第一资源度量被扩大15%并且第二资源度量被扩大5%。资源向量可以是时间或 者时间序列的函数(例如,RO(t))。WPPI系统可以训练函数以将资源使用映射 到执行时间。当WPPI系统更新资源使用简档时,WPPI系统将资源使用简档插 入到资源-时间关系中以用于估计新应用执行时间。从属关系规则122使用扩大 156,工作负载类型(118、120、112、154),以及对资源(144、146、148、152、 160)的工作负载类型的映射的置换(例如,合并策略132)以便确定最佳映射 以满足工作负载的QoS保证126,并提高提供方134的收益目标128。对于每个 工作负载类型(118、120、112、154)向资源简档向量158应用扩大156乘数 标识工作负载的组合的最佳映射以及满足工作负载的QoS保证126的资源映射 (例如,合并策略132)。给定由工作负载(118、120、112、154)展现出的工作 负载的类型,WPPI系统102使用从属关系规则122提供最佳映射以确定满足工 作负载的QoS保证的工作负载的组合和资源映射。

WPPI系统102使用离线分析来配置工作负载的初始部署(140)并 监测工作负载随时间的变化(例如,工作负载简档可以随时间改变工作负载类 型)。资源估计分析器114使用时间序列方式以预测工作负载简档。例如,工作 负载(118、120、112、154)可能具有季节性简档(例如,用于web服务器应 用的假日零售购物对比夏季交易)。

对比WPPI系统102,当前的虚拟化环境(例如,web服务器农场) 监测系统(例如,系统)实时监测工作负载性能,而无如提议的由工 作负载简档提供的离线分析的益处。这些当前的虚拟化环境监测系统基于需求 实时反应并进行调整(例如,以保守方式再平衡工作负载)。然而,在当前的虚 拟化环境监测系统再平衡工作负载之后,提供方仍可以观察随时间过去(例如, 时间序列系数)的工作负载的资源使用(例如,虚拟机VM)变化,而无自动 预期此类变化和/或提前有效地前摄地进行调整。因此,当前的虚拟化环境监测 系统不提供与由WPPI系统102提供的资源供应相同水平的资源供应。

WPPI系统102实时调整资源估计(例如,当应用被在线执行时工 作负载简档改变)。工作负载可以包括web服务器应用、数据库服务器、应用服 务器和批处理任务。在在线模式中,WPPI系统102开始对提交的工作负载(118、 120)的部署,并且WPPI系统102应用模型(例如,资源估计分析器模型114、 性能干扰模型130、影响矩阵116、以及从属关系规则122)以开始执行工作负 载(118、120),继而使用由工作负载(118、120)的实时表征调整的历史资源 估计简档166实时调整工作负载(118、120)。在在线模式期间,使用实时数据 再校准工作负载简档(例如,资源使用简档估计166),并且工作负载签名可以 因此被修正和/或更新。用于工作负载的资源估计简档166,以及由工作负载 (118、120)使用的资源(例如,硬件基础设施资源-服务器故障切换到另一个服 务器)可以在在线模式期间改变。因此,在在线模式期间,从属关系规则122 实时映射(例如虚拟机到物理主机分配140)资源(144、146、148、150、160) 到一组计算需求(例如,对CPU、RAM和缓存存储器和磁盘储存器的数量以 及网络带宽的工作负载需求)。资源(144、146、148、150、160)可以改变用 于计算需求所映射到的可用资源数量(容量)和类型(特性)。然而,因为WPPI 系统102在离线模式期间对工作负载(例如,计算需求)所映射到的的资源变 化进行再计算,WPPI系统102立即并且有效地适配从属关系规则将计算需求映 射到的资源的数量(容量)和类型(特性)的变化。

云消费者136可以影响由WPPI系统102执行的优化功能以标识用 于使用的从属关系规则映射,这根据目标是否容纳尽可能多的工作负载,或者 基于用于标识优选的工作负载的排序优先级(排序152)的应用于由云消费者 136提交的工作负载的某些加权,以便基于由云提供方资源执行的工作负载标识 最大化云提供方收益的资源映射。

WPPI系统102提供性能干扰模型,其可以由云提供方用来优化收 益以及改善资源利用。云消费者的工作负载(118、120)(例如,应用)可以包 括多个从属业务,每个从属业务可以被映射到独立的VM(140)中。WPPI系 统102可以评估云消费者的工作负载(例如,应用)的一个或多个服务质量(QoS) 度量126(例如,响应时间)。如果应用在工作负载的截止期限(126)之前完成, 则云消费者136和/或WPPI系统102向提供方134分配值。从历史上说,资源 管理系统考虑到由于资源竞争产生的性能退化,其中资源竞争是由合并多个应 用到单个处理器上而产生的。然而,WPPI系统102提供一种方法来标识由同地 共置以共享资源(例如,I/O资源、存储器和/或最后级缓存)的使用的多个工作 负载(例如,两个I/O密集型应用)所经历的性能干扰164。用于工作负载的资 源使用(166)是随时间变化的,因为工作负载随时间是动态的。当工作负载竞 争相同类型的资源时,多个同地共置的应用(例如,工作负载118、120)的性 能是否被严重影响取决于工作负载的资源使用简档(158、166)(例如,工作负 载简档158、166)的特性。例如,WPPI系统102可以使用资源使用估计简档 166来确定是否合并工作负载(118、120),因为工作负载的各自的峰值资源利 用(126)在不同时间达到峰值。

云提供方134接受云消费者提交的工作负载(118、120)以用于使 用云提供方134的资源(144、146、148、150、160)执行。云提供方134可以 试图容纳尽可能多的工作负载,并同时满足用于每个云消费者136的QoS保证 126。云消费者的QoS要求126可以包括用于完成特定工作或任务的截止期限, CPU数量、存储器数量、在特定时间量中使用的实际资源。

WPPI系统102向云提供方134提供一种方式来递送更高的用于消 费者工作负载的QoS126的保证,同时增强用于满足用于消费者136工作负载 (118、120)的QoS保证126的资源分配(140)的效率。工作负载分析器114 自动表征消费者提交的工作负载(118、120),并且优化用于满足用于消费者136 工作负载(118、120)的QoS126的保证所需要的工作负载到资源分配(138、 140)。WPPI系统102使用工作负载资源估计分析器114,从属关系规则122、 影响矩阵116和性能干扰模型130,并可以提供工作负载(118、120)的自动供 应。WPPI系统102在线执行对合并配置(124、132、140)的实时调整以便实 现更好的资源利用,并由此允许云提供方136优化资源利用(例如,避免由于 低效资源利用造成的资源成本142并执行工作负载来提高提供方的收益)。

云提供方134可以不知晓预期的工作负载(例如,需求),或者云 消费者的工作负载的工作负载资源使用简档166,直到云消费者136提交工作负 载(118、120)以用于由云提供方的资源执行。WPPI系统102向云消费者136 提供一种方式来估计(例如,建模)用于所提交的工作负载的工作负载资源使 用简档166并将提交的工作负载映射(124、132、140)到实际物理资源(144、 146、148、150、160)。WPPI系统102应用从属关系规则122以确定资源到工 作负载映射(140、122、132)以标识满足一个或多个功能(126、128)的最佳 的和次佳的映射。例如,WPPI系统102使用模型(114、130、116)和从属关 系规则122来优化满足的工作负载的QoS保证126的数量,或者当成本与每个 工作负载相关联时,则优化可以通过处理工作负载生成收益(例如,128)。优 化工作负载的数量可以包括相等地加权工作负载的优先级值,或者基于可以通 过执行每个工作负载生成的收益加权工作负载的优先级值(152),或者这两者。

WPPI系统102使用离线模式和在线模式在对分配的(140)提供方 资源(144、146、148、150、160)进行部署之前确定用于云消费者的工作负载 的优化资源映射,并在运行时期间作为响应调整资源分配(124、132、140)、 合并以及迁移决定。WPPI系统102执行分析以训练一个或多个模型(例如,工 作负载资源估计分析器114模型、性能干扰模型130、影响矩阵116、以及从属 关系规则122)以针对每个云消费者提交的工作负载(118、120)确定最佳和次 佳的资源映射(124、132、140)以用来满足QoS保证126和/或提供方收益目 标(128)。

代替基于服务器为中心的供应,工作负载资源估计分析器114模型 标识资源(例如,展现出某种特性、容量和/或能力的服务器)以满足服务为中 心的QoS度量126。WPPI系统102使用一个或多个模型来预测云消费者的工作 负载的性质和特性的变化,用户的需求,和云资源可用性。工作负载资源估计 分析器114模型提供一种能力,其根据基于监测的数据的资源使用来估计消费 者提交的工作负载(118、120)。工作负载资源估计分析器114模型将由云消费 者136提交的工作负载(118、120)在时间上(例如CPU、存储器、磁盘和网 络的利用)表征为工作负载利用资源(例如资源使用度量168)。云提供方134 可能预先不知道工作负载(118、120)或者表征工作负载(118、120)所必须 的信息。工作负载资源估计分析器114模型表征每个工作负载,以便通过随着 WPPI系统102处理器执行(例如,测试和/或建模)工作负载监测工作负载来 确定资源利用要求。工作负载资源估计分析器114模型基于消耗的资源以及这 些资源如何被消耗(例如,以何种方式)计算用于每个工作负载的资源简档向 量158。工作负载简档(166)可以被表示为时间序列资源简档向量(158),其 提供资源利用特征(例如,平均CPU使用,或者最大CPU使用,以及最小CPU 使用)以及用于针对工作负载完成工作或任务的时间。资源简档向量(158)提 供工作负载签名,其标识对于实现用于工作负载的QoS保证126很重要的一个 或多个资源(例如,使用影响矩阵来表示一个或多个重要资源)。工作负载签名 可以将提供者资源的CPU、网络带宽、存储器或组合标识为重要(例如,展现 出敏感性的资源和/或影响实现用于工作负载的QoS保证的资源)。工作负载分 析器114通过标识用于实现用于工作负载的QoS保证126的资源以及用于仪器 和测量的度量(例如,资源利用度量168)来表征工作负载以便确保QoS保证 126。测量的度量(例如,资源利用度量168)的数量和类型可以变化以便标识 用于表征工作负载签名的充分重要的统计(例如,作为CPU密集型、网络带宽 密集型、或者加强存储器、或其组合)。

使用工作负载简档166,从属关系规则122可以自动分配(214、132、 140)工作负载到主机(例如,资源)。WPPI系统102使用覆盖不同资源使用简 档的范围的所识别的工作负载“基准”的测试套件来训练从属关系规则122(例 如,CPU密集型、存储器密集型、磁盘存储密集型、网络密集型)。模糊逻辑 170通过计算用于每个从属关系规则的置信水平来制订每个从属关系规则。具有 较高概率的置信水平指示更加可信,通过应用由相应的从属关系规则指定的资 源映射将实现用于相应的工作负载的QoS。

WPPI系统102确定最佳和次佳工作负载合并(例如,分配多个工 作负载以共享资源)以降低资源数量(例如,服务器、CPU、储存器、网络带 宽)并增进供应商效率(例如,最大化云提供方利润)。性能干扰模型标识工作 负载(例如,相同的和/或不同的工作负载类型)如何因为由合并引起的资源竞 争172相互干扰(例如,扩大或退化性能)。性能干扰模型计算标识消费者的工 作负载资源使用(例如服务器、CPU、存储器、网络)的扩大因子以在工作负 载与一个或多个工作负载合并时实现QoS度量。WPPI系统102使用工作负载 资源估计模型、影响矩阵、从属关系规则和性能干扰模型来确定工作负载到物 理资源(例如,云提供方服务器)的分配的离线初始映射。

WPPI系统102可以使用在线合并算法以在运行时期间调整分配以 保持工作负载性能退化中产生的未预期的变化。因为工作负载资源估计模型可 以依靠监测的实时使用,因此用于工作负载的确定的表征(例如,工作负载类 型)对于不可预测的或者新的工作负载而言可能是不精确的。WPPI系统102(例 如,使用合并算法)搜索合并配置以优化提供方的收益和/或最大化实现QoS保 证的提交的工作负载的数量。使用实时数据作为对WPPI系统的输入,WPPI系 统102可以作为响应在WPPI系统102确定工作负载合并配置没有实现QoS保 证或者具有低概率来实现用于工作负载的QoS保证时进行调整(例如,再次表 征工作负载类型,和/或移动工作负载到另一个同地共置,或者迁移到另一个云 提供方的资源),当。WPPI系统102提供一个或多个最佳分配(132),以及次 佳分配,以分配工作负载到物理资源(例如,主机)(140)以用于在运行时利 用虚拟化工具(例如,)(162)进行部署。

云消费者136可以指定和/或WPPI系统102可以确定工作负载的需 求(例如,工作负载资源估计简档,以及工作负载类型)并且云提供方134可 以使用工作负载资源估计简档来确定如何满足服务要求(例如,QoS保证)。 WPPI系统102帮助增进消费者136和云提供方134之间的通信以便提供双赢局 面。WPPI系统102提供一种方式来剖析由云消费者提交的工作负载,从而使得 云提供方134可以预期估计的应用资源利用(166),并且可以响应于工作负载 来应用从属关系规则以标识最佳部署以及工作负载合并和/或迁移策略。

WPPI系统102提供性能干扰模型,其分析从同地共置多个工作负 载、不同类型的工作负载、以及那些工作负载的时间变量特征产生的资源利用 竞争。WPPI系统102可以对接到提供方资源管理系统(例如,工具) 并且WPPI系统102使用识别的工作负载来校准WPPI系统102的模型。

图2示出了WPPI系统102可以标识以用于合并和/或迁移云消费者 的工作负载(例如,应用)的云提供方(202、204、206)的类型。云提供方(202、 204、206)的类型可以提供软件即服务(SaaS208)、平台即服务(PaaS210)、 基础设施即服务(laaS212)、或其组合。工作负载分析器114向云消费者提供 工作负载预测、用于工作负载的资源使用简档(应用负载214、216、218),以 及用于实现QoS度量的置信区间(174)。工作负载分析器114向云提供方提供 一种方式来估计消费者136的工作负载的资源消耗(例如,标识云计算瓶颈), 预测合并的含义(例如,使用训练的性能干扰模型)以及关于工作负载性能的 资源分配策略(例如,从属关系规则),增进提供方的消费者体验的服务,并通 过有效的工作负载合并和移动策略(例如,对再平衡和缩放工作负载的实时响 应)增加提供方的收益。

工作负载分析器114可以使用于云提供方的云环境内的应用工作负 载的合并自动化。工作负载分析器114包括性能干扰模型,其估计应用性能退 化,这可能是在同地共置(例如,在单个物理服务器上放置)多个工作负载时 产生的。工作负载分析器114与实时使用的优化搜索算法(例如,138)组合允 许云提供方最大化收益和资源利用,并加强云提供方的竞争能力以及在其他云 提供方中的市场地位。

云消费者136向WPPI系统102提供一个或多个应用(例如,一组 应用-工作负载)。每个应用(例如,工作负载)可以包括一系列从属业务,其可 以是面向数据的(例如,服务可以不开始,直到从另一服务接收数据)或者是 面向控制的(例如,服务可以不开始,直到另一服务完成)。每个服务暴露出不 同的资源使用特性(例如,CPU密集型、存储器密集型、磁盘密集型和网络密 集型)。由每个应用处理的工作负载量可以是动态的并作为结果影响由应用消耗 的资源。每个应用(例如,工作负载)与截止期限(例如,硬截止期限或软截 止期限)以及工作完成值相关联,工作完成值指示工作(例如,工作负载)是 否在工作的截止期限内完成。云消费者136可以向每个应用分配优先级值,其 标识应用(例如,工作负载)对用户的重要性给。被标识为重要应用的应用(例 如,工作负载)可以要求在不超过工作负载的截止期限的情况下完成,因为重 要的应用可能具有增进和/或增加云消费者的收益的潜力。应用的完成时间的重 要性还可以通过效用函数捕获,效用函数分配完成时间t的值大于0,该值指示 在时间t完成的重要性的权重。资源能力、定价策略、虚拟机(VM)开始时间、 VM调度、以及云提供方的从属关系规则可以变化。作为结果,云提供方提供 不同的置信水平以用于主控不同类型的应用(例如,工作负载)。工作负载分析 器114分析应用QoS执行时间,以及其他应用QoS区域,以最大化云提供方134 的收益,并增进云提供方资源的资源利用。

用户应用的退化程度依赖于与用户的应用同地共置的应用的组合,。 对于有效的合并策略,工作负载分析器量化干扰水平,该干扰水平可能在多个 应用和/或VM中产生。

WPPI系统102使用影响矩阵来估计由于资源竞争172带来的性能 干扰,并且使用资源使用简档来预测当用户的应用与其他同地共置的应用合并 时的性能退化,。WPPI系统102包括性能干扰模型,其考虑所有类型的资源竞 争172,以及跨不同类型的资源的相互关系。此外,资源使用简档中的每个度量 被表示为时间序列以代表资源使用的时间变量特征。

WPPI系统102可以预测(例如,预报)合并的(例如,同地共置 的)应用的性能以便通过使用影响矩阵将对资源竞争172的影响从新增加的应 用映射到合并以作为对当前应用的资源使用的扩大因子,来为工作负载生成调 整的资源使用简档。WPPI系统102使用资源使用来通过回归函数预测(例如, 预报)具有同地共置的应用的应用性能。

在WPPI系统训练阶段,WPPI系统102可以在单个物理服务器上 的专用VM上独立分析应用(例如,识别的工作负载)的测试套件。WPPI系 统102分析工作负载的资源使用数据和应用执行时间。WPPI系统102可以输入 数据(例如,经由对调整的迭代处理适应数据)到支持向量机(SVM)回归量 中以便对用于工作负载的资源使用和执行时间之间的关系建模。WPPI系统102 使用过滤的度量来降低回归的回归复杂性。WPPI系统102在测试套件中合并(同 地共置)应用。WPPI系统102测量,从工作负载和一个或多个其他工作负载的 合并中产生的资源使用简档以及退化的性能(如果存在)。

例如,其中App1和App2代表两个同地共置的应用(例如,工作 负载),并且Mji是来自APPj的资源简档中的第i个度量,WPPI系统102分析 每对M1i和M2k的比率。度量值被用来针对相同度量(例如,CPU、内存、存储 器或网络带宽/吞吐量)在工作负载与一个或多个其他工作负载合并之前以及之 后的的变化进行回归。回归系数组成影响矩阵,其估计在考虑到同地共置的应 用时用于应用的资源用度量中的变化(例如,扩大-性能干扰)。WPPI系统102 调整资源使用简档以预测(例如,预报)由于合并带来的应用的变缓。WPPI 系统102可以选择性地使用对web服务器(例如,SPECWeb2005TM)进行仿真 的识别的工作负载以评估和确定模型的有效性,并确认性能估计误差小于可配 置性能估计误差阈值(例如,8%的性能估计误差)。

云计算为随需计算提供前所未有的机会。然而,每一方(例如,云 消费者136和云消费者)在提供方-消费者信息技术(IT)模型中面对不同的目 标。云消费者面对一种选择,即使用多个云提供方来满足用于云消费者的工作 负载的需求。云提供方力争提供最佳服务来吸引尽可能多的消费者。在典型的 提供方-消费者模型中,没有一方拥有全部信息。实际上,双方可能隐藏了用于 另一方进行最佳决策所需的信息。消费者无权访问提供方一侧上的主机的当前 资源状态。消费者136可能不控制向哪里部署消费者的工作负载,即使消费者 136可能对应用的服务质量(QoS)的资源消耗的影响拥有更好的了解。在了解 消费者的资源使用的情况下,提供方的部署和调度策略可能更加有效。

例如,考虑到这样的场景,其中消费者136提交有时候展现出磁盘 密集型特征的工作负载。当在执行之前不知晓工作负载类型时,云提供方134 可能将该工作负载另一个具有繁重磁盘负载的工作负载一起部署。在磁盘I/O竞 争期间两个工作负载的性能退化可能来自这样的分配。当前,云提供方提供有 限的保证,其产生云消费者136的性能退化,或者可能导致提供方效率低下的 过度供应。WPPI系统102向提供方提供一种洞察力,从而使得提供方可以避免 同地共置如下工作负载,这些工作负载同时达到峰值或者展现出其他的竞争情 况(例如,性能退化),并增进消费者136的体验的性能同时优化消费者的资源 使用。

图3示出了资源的类型(主机302、CPU304和306、存储器308、 网络接口插卡-NIC310、磁盘储存器312和操作系统314、316、318),以及资 源竞争(172、326、328、330、332),WPPI系统102可以分析何时确定用于应 用(例如,工作负载320、322、324)的合并策略。WPPI系统102确定用于工 作负载的最佳和次佳的资源映射。云提供方134可以接收WPPI系统102合并 策略并实施该合并策略(例如,通过虚拟化技术同地共置在多核服务器上主控 的多个应用)以增进服务器资源利用,最大化云提供方134收益,并降低资源 成本。WPPI系统102合并策略提供应用可以考虑为应用自身的资源堆栈的每个 应用资源分配。由于资源可以在同地共置的应用中动态地调整,WPPI系统102 作为响应实时计算合并调整。

图4示出了WPPI系统102用来确定用于一个或多个消费者136云 工作负载(例如,应用414)的工作负载性能干扰(164)和合并方案(例如, 策略132)的逻辑400的流程图。WPPI系统102提供多个操作模式,包括离线 模型训练402,以及工作负载的在线(404)部署和合并。在离线训练402期间, WPPI系统102使用包括资源使用简档估计器408、从属关系规则模型410、以 及性能干扰模型412的测试套件识别的工作负载406收集数据以训练WPPI系 统102模型。资源使用简档估计器408估计用于工作负载的基础设施资源(例 如,CPU、存储器、磁盘和网络能力和性能)利用。WPPI系统102使用从属关 系规则410来标识用于云消费者的应用(例如,工作负载)的资源映射(例如, 最佳和次佳的映射)的置换。WPPI系统102使用性能干扰模型412来预测由于 合并(例如,工作负载的同地共置)带来的应用性能退化(例如,扩大)。在在 线404合并阶段期间(例如,在云提供方的物理资源上的工作负载的部署)(424), WPPI系统102为应用(例如,工作负载)提供分布策略(例如,映射工作负载 到硬件基础设施资源上)。WPPI系统102可以使用搜索算法(例如,合并算法 416)来优化收益和降低资源成本(418)(例如,标识云提供方的资源以映射云 消费者的提交的工作负载)。当WPPI系统102接收由消费者提交的新应用(420) (例如,工作负载)时,WPPI系统102为工作负载确定最佳和次佳的映射置换。 WPPI系统102可以对接到提供方的资源管理系统(162)以基于WPPI系统102 训练的模型部署合并策略(例如,映射一个或多个工作负载到服务器上)。然而, 当提议的合并策略违反应用的截止期限(例如,不满足工作负载的QoS保证) 时,WPPI系统102可以标识满足工作负载的QoS保证的迁移目的地(例如, 另一云提供方的资源)。

图5示出了WPPI系统102可以确定以优化工作负载合并 (518-520-524、522-526、528)以及资源(530、532、534)利用的工作负载简 档的图形表示500(例如,时间序列向量,表征工作负载-502、504、506、508、 510、512、514、516)。当没有用户(例如,行为502、506、510、514)与工作 负载(例如,应用)交互时,对比于当一个或多个消费者(例如,行为504、508、 512、516)与工作负载交互时,工作负载的行为可以不同。基于工作负载(例 如,应用)的资源需求,工作负载的行为可以与云提供方不同出现。工作负载 分析器114确定用于未剖析的工作负载的工作负载简档166,其包括工作负载所 展示出的工作负载简档的类型(例如,工作负载签名作为CPU密集型、网络带 宽密集型、存储器密集型或组合)。

图6示出了逻辑600,WPPI系统102可以使用该逻辑来确定资源 使用简档估计(166、602)。工作负载(例如,应用的服务)的资源使用简档估 计166包含分配给工作负载的VM的资源消耗度量(例如,资源利用度量168、 604)。资源使用简档估计166可以通过监测资源使用度量同时执行工作负载而 获得(例如使用vCenterTM)。例如,资源使用度量可以包括CPU使用%、CPU 等待%、CPU系统%、CPU保留容量%、存储器使用、消耗的存储器、磁盘读 取、磁盘写入、消耗的网络带宽、以及接收的网络分组。每个资源度量包括时 间序列(606)成分,其代表资源使用如何随着时间流逝而改变。为了估计服务 (例如,工作负载)的资源使用简档,WPPI系统102可以从每个度量的时间序 列采样数据点(例如,每个时间增量一个数据点)。WPPI系统102采样点代表 时间序列的模式。WPPI系统102使用的采样率(例如,特征降维608)是在精 确性和复杂性之间的权衡(例如,可以增加采样点的数量来增进资源使用估计 的精确性,或者可以减少采样点的数量以便简化用于模型的计算)。WPPI系统 102可以应用Kalman过滤器以基于历史数据来预测服务的资源消耗。Kalman 过滤器是一种数学方法,其使用一系列随时间观测的测量,包含噪音(例如, 随机变量)和其他误差,并且产生估计,该估计与基于将仅仅基于单个测量的 那些值相比,更加趋近于接近真实的未剖析的值。应用(例如,工作负载)执 行时间是沿着用于工作负载的关键路径的服务执行时间的总和。

WPPI系统102(例如,工作负载资源估计分析器114模型)生成 由工作负载分析器测量的度量的资源向量(158、604)。例如,工作负载分析器 114测量用特定敏感性、关键性或影响,或其组合标识的一个或多个度量以用于 满足特定QoS保证。某些工作负载可以展现出如下工作负载签名,其被标识为 CPU、网络带宽密集型、存储器密集型或组合。通过标识具有敏感性、关键性、 或影响、或其组合的资源使用度量,统计上最重要的度量可以被测量并且用来 确定工作负载签名(例如,作为CPU密集型、网络带宽密集型、存储器密集型、 或其组合)。

图7示出了如下模糊逻辑(170、702、704、706),WPPI系统102 可以使用该模糊逻辑来标识用于资源的从属关系映射以映射到工作负载。WPPI 系统102可以生成从属关系规则(708),诸如服务器j上的合并应用i和k是否 将产生重大的性能退化。WPPI系统102可以执行应用i(例如,工作负载), App_i,在服务器j上,Server_j,并记录工作负载的执行时间为T^j_i。对于来 自测试套件的每对应用(例如,工作负载),App_i和App_k,WPPI系统102 合并工作负载到服务器j上。每个应用(例如,工作负载)的执行时间被测量并 且WPPI系统102将执行时间指代为T’^j_i和T’^j_k。WPPI系统102应用模糊 逻辑来生成规则。条件部分中的信息包括服务资源使用简档(例如,作为时间 序列)和主机资源简档。结果部分的信息包括根据应用执行时间的性能退化。 WPPI系统102计算用于每个模糊规则的置信概率,从而使得从属关系规则提供 关于在哪里主控应用服务的指引(例如,具有合并或者不合并)。

基于物理资源的已知特性(例如,资源量和/或容量、资源的类型和 能力),WPPI系统102使用从属关系规则分配剖析的工作负载到实际的物理资 源。当WPPI系统102的工作负载简档114模型确定资源需求估计166时,可 以知道用于实现用于工作负载的QoS保证126的资源利用(例如,对于CPU、 网络带宽和存储器的要求),以及哪个资源展现出用于实现QoS保证的特定敏感 性、关键性、或影响、或其组合。

WPPI系统102包括从属关系规则,其使用模糊逻辑170来映射一 个或多个工作负载到云提供方的可用基础设施,该可用基础设施被WPPI系统 102确定为满足用于云消费者的工作负载的所需QoS保证。例如,云提供方134 可以提供两个服务器,其可以具有相似的或者不同的资源能力(例如,磁盘存 储量、CPU数量、随机存取存储器(RAM))。从属关系规则标识基于可用物理 资源表征的、将把工作负载映射到的工作负载的一个或多个资源映射(例如, 优化的一个或多个方式以映射工作负载需求到可用资源)。

从属关系规则使用模糊逻辑170来应用规则,该规则包括QoS保证 概率值,该概率值标识工作负载将接收用于满足对应工作负载QoS保证(例如, 完成时间)的置信区间(174)或者成功概率。例如,指定了将映射工作负载的 优选目的地(例如,物理资源)时,从属关系规则的模糊逻辑170可以使用满 足对应工作负载QoS保证的概率以便确定是否应用目的地偏好。从属关系规则 的模糊逻辑170可以评估用于每个从属关系规则的保证概率值以确定一个或多 个规则以应用来满足工作负载的工作负载QoS保证。

性能建模包括执行资源使用到服务执行时间关系。WPPI系统102 使用来自资源使用简档的采样的数据点的统计(例如,平均和方差)作为到支 持向量机(SVM)回归量中的输入以训练资源使用和服务执行时间之间的关系。 WPPI系统102执行相关性测试以过滤出从属度量,并且可以丢弃回归中的不重 要的度量。性能干扰模型可以使用转译新应用(例如,新提交的消费者136未 剖析的工作负载)的资源消耗的影响矩阵以计算用于当前应用(例如,之前提 交的工作负载)的扩大因子,并获取来自所有类型的资源的资源竞争172的影 响。性能干扰模型估计由于工作负载合并带来的性能退化,以用作输入主体工 作负载的工作负载资源使用简档,并输出用于每个合并的工作负载的性能估计 和时间-变量资源使用(例如时间序列向量,其标识用于诸如CPU、存储器、磁 盘和网络之类的资源的竞争)。性能干扰模型可以使用动态贝叶斯网络(Dynamic  Bayesian Network(DBN))计算用于建模的工作负载的性能干扰的置信水平, DBN将性能干扰表示为变量的时间序列(time series sequence of variables)(例如, 对应于CPU、存储器、磁盘和网络的时间-变量资源使用)。性能干扰模型还可 以使用影响矩阵和模糊逻辑170以映射同地共置的附加工作负载与当前工作负 载的的影响,以观测性能退化。

图8示出了WPPI系统102可以用来计算用于工作负载的扩大因子 (156、802、804)的影响矩阵(116、800)。影响矩阵是M×M维度矩阵,其中 每行/每列表示一个过滤的资源消耗度量(例如,CPU、存储器、磁盘和网络)。 例如,WPPI系统102可以计算合并相同服务器(主机)上的第二服务(例如, 工作负载)作为当前运行在主机上的第一服务的影响。矩阵元素V_i,j是系数, 其表示资源_i和资源_j在第一服务和第二服务(例如,工作负载)之间竞争的 多厉害,有助于第一服务的资源消耗的扩大。一旦WPPI系统102使用影响矩 阵计算资源消耗的扩大(802、804、806、810、812、814)估计,则WPPI系 统102可以增加调整到第一服务的资源使用简档806。当在相同的服务器上合并 时(例如,共享资源的同地共置的工作负载),WPPI系统102使用调整的资源 使用简档来预测第一服务和第二服务(例如,工作负载)的执行时间。

WPPI系统102可以使用影响矩阵来计算由于将在相同主机上同地 共置的合并应用(例如,工作负载)而产生的对当前应用的资源消耗的扩大因 子802。给定应用Appl,当Appl运行在专用服务器上时,WPPI系统102涉及 资源使用简档R1806。当WPPI系统102与另一应用App2合并到相同的服务器 上时,因为由于合并带来的潜在资源竞争172,每个应用(例如,工作负载)的 性能可能被退化816。

WPPI系统102将Appl在合并之后的资源使用简档称为R1’816, 并且WPPI系统102可以使用影响矩阵M计算资源使用简档816。

影响矩阵M是m×m矩阵,其中m是资源使用简档中度量的数量。 每行或每列对应于R1806中的度量。元素aij代表度量i对度量j的影响系数。 以第一CPU度量为例,由同地共置的应用引起的扩大因子(808、810)取决 于来自所有类型的资源的影响。例如,应用可以具有运行在专用服务器上的资 源使用简档812,假定存在WPPI系统考虑的六个度量,包括三个CPU度量、 两个存储器度量和一个磁盘度量。由于来自合并的应用的资源竞争172,资源使 用简档已经被扩大(814、816)。接着在应用影响矩阵之后,新的简档将是R1’818。

WPPI系统102使用应用(例如,识别的工作负载)的测试套件覆 盖资源使用特征的范围(例如,CPU密集型、存储器密集型、磁盘密集型、网 络密集型)。在每个资源使用特征类别中,密集型可以变化。例如,CPU消耗百 分比可以从10%到100%变化。采取消费者136提交的应用,WPPI系统102首 先分离地运行应用(例如,工作负载)并将应用(例如,工作负载)的资源使 用简档测量为R1806。WPPI系统102合并在测试套件中的每个应用与消费者 136提交的应用,并且WPPI系统102将新资源使用简档指示为R1i818,这意味 着WPPI系统102合并消费者136提交的应用与来自测试套件的的第i个应用。

d_factori804提供扩大因子向量。应用回归技术,y作为扩大因子 804,x作为资源使用简档R1806,WPPI系数102估计影响系数aij,其中组成 影响矩阵M。一对合并的应用对应于独立的影响矩阵,作为合并的应用的资源 竞争172。因此,性能退化取决于合并在一起的工作负载而变化,WPPI系统102 可以将共享类似影响矩阵的应用对一起分组以降低WPPI系统102生成并存储 的矩阵数量。

当WPPI系统102确定是否同地共置新应用(例如,消费者136新 提交的工作负载)与已有应用时,WPPI系统102使用资源估计分析器114估计 应用的资源使用简档166。WPPI系统102比较资源使用简档和来自测试套件的 已有应用的简档。WPPI系统102可以通过使用标准化欧几里得(Euclidean)距 离来选择K个最相似资源简档,因为不同资源度量在不同单元中。WPPI系统 102可以将K设置为等于3,但是k也可以被设置为其他值。小数值K影响估 计的资源使用简档的精确性,而大数值K增加估计系统开销。WPPI系统102 应用对应于三个应用(例如,工作负载和/或工作负载类型)的影响矩阵。WPPI 系统102计算三个估计的均值作为新应用的工作负载资源使用简档的最终估计。 作为增强,当新应用呈现如下资源使用简档其中WPPI系统102确定与已有的 资源使用简档不同时,WPPI系统102训练工作负载的对应影响矩阵并增加简档 到工作负载资源使用简档数据库,从而使得WPPI系统102可以使用存储的工 作负载资源使用简档以对其他应用建模并确定合并策略。

图9示出了逻辑900,其可供WPPI系统102用来优化工作负载的 数量并最大化提供方的收益。WPPI系统102使用在线合并算法138来响应实时 事件。对于应用(例如,工作负载)的每个服务(例如,工作、任务、子工作 负载),WPPI系统102使用训练的资源估计分析器来估计资源使用简档(902)。 WPPI系统102将一个服务映射到一个服务器(904)上,并应用从属关系规则 来标识最佳和次佳的服务器以用来主控每个服务。WPPI系统102在线合并算法 138监测服务并调整合并策略,使用性能干扰模型,以预测性能退化(906),从 而使得实施的合并策略实现应用QoS度量(例如,响应时间截止期限)保证 (908)。当WPPI系统102在线合并算法138确定合并具有很高的概率不能(910) 实现QoS度量保证或者提供方的收益可以被增加时,WPPI系统102在线合并 算法138应用基于爬山法的搜索算法(910)以查找更好的(例如,一个或多个 优化的)合并配置。当在线合并算法确定新应用已经被提交(912)给云提供方 时,在线合并算法为新应用估计资源使用简档(902),并使用WPPI系统102 来容纳(例如,合并或移动)新应用。

图10示出了虚拟机(VM)说明1000,其可供WPPI系统102用 来确定工作负载合并并最大化云提供方收益。VM说明1000可以包括用于各种 资源(例如,NGSA刀片1002、以及实验室刀片1和2-1004、1006)的说明。 用于每个资源的说明可以包括CPU容量1008、存储容量1010、磁盘储存器容 量1012、以及支持的操作系统类型1014。

图11示出了测试套件工作负载1100,其展现出识别的工作负载简 档(例如,工作负载签名1102)。工作负载分析器114可以被用于基准外的未剖 析的工作负载。工作负载分析器114可以使用SPEC2005TM作为未剖析工作负载 的示例以确定用于未剖析工作负载的工作负载简档,并校准工作负载分析器114 和/或工作负载模型。使用识别的工作负载帮助工作负载分析器114提前为未剖 析的工作负载建模并且基于如何和哪个云消费者的工作负载被表征以使用来预 测在时间周期的变化(例如,资源利用要求)。测试套件包括识别的工作负载和 硬件基础设施资源组合。WPPI系统102可以使用具有相应的签名的一个或多个 识别的工作负载(例如,来自多个工作负载签名类型的每一个工作负载签名类 型的识别的工作负载)。网络密集型工作负载签名类型可以包括文件传输协议 (FTP)函数,其执行文件传输,展现出已知的特性(例如,时间序列带宽要求 和存储要求)。

图12示出了由WPPI系统102用来计算合并的工作负载1204的退 化1202的性能干扰模型验证1200。WPPI系统102可以执行识别的工作负载(例 如,SPECWeb2005)作为背景噪音工作负载,同时在合并来自识别的工作负载 的测试套件的每个应用之后预测性能退化(例如,扩大因子)。WPPI系统102 向云提供方和/或工作负载的云消费者136报告测试的和预测的执行时间。

性能干扰模型评估满足组合执行的工作负载(同地共置和/或共享硬 件设施资源)的多个置换的QoS保证的概率。例如,可以比较用于第一应用从 独立资源接收请求的存储器的流逝的时间以及在第二应用也请求存储器、除了 存储器以外的内容(例如,磁盘储存器或网络带宽)或这二者时用于第一应用 从独立资源接收请求的存储器的流逝的时间。应用可以观测由独立资源提供的 服务中的轻微退化。因此,取决于服务器,具有附赠的资源需求的工作负载可 以被分配给独立资源,而具有非附赠的资源的其他工作负载需求可以被分配给 不同的资源(例如,服务器和/或硬件基础设施资源)。性能干扰模型标识用于共 享特定硬件基础设施资源的多个工作负载的扩大因子。由于其他同地共置和/或 使用共享资源的工作负载带来的干扰,扩大标识工作负载可能还需多久来执行。

随着提交工作负载,工作负载分析器114标识云消费者提交的工作 负载的工作负载类型(工作负载签名)。例如,第一应用是CPU密集型,第二 应用是网络带宽密集型,并且第三应用是磁盘储存器密集型。从属关系规则使 用物理基础设施资源的映射置换计算满足每个工作负载的QoS保证的概率。为 了确定优化满足的或者其中成本与每个工作负载相关联的工作负载的数量的映 射,优化可以通过处理工作负载生成的收益,性能干扰模型评估用于满足工作 负载的QoS保证的组合的工作负载和硬件基础设施资源的置换的概率。优化工 作负载数量可以包括相等地加权工作负载的优先级值,或者基于可以通过处理 每个工作负载生成的收益加权工作负载的优先级值,或其组合。例如,三个应 用的组合的置换被分配给两个资源(例如,硬件基础设施资源)。

图13示出了由WPPI系统102用来计算合并的工作负载1304的退 化1302的另一性能干扰模型验证1300。然而,代替将一个识别的工作负载(例 如,SPECWeb2005)运行作为背景噪音,WPPI系统102可以运行三个识别的 工作负载的处理。

图14示出了度量优化分析1400,其可由WPPI系统102生成以优 化供应方收益1402和提交的工作负载的数量1404。WPPI系统102使用模型的 结果(例如,工作负载资源估计分析器114模型,性能干扰模型和从属关系规 则)来计算各种可能的部署(映射)(包括次佳映射),以便标识最佳的一个或 多个映射以用来部署云消费者提交的工作负载(118、120)。将通信传达到自动 化云提供方资源管理系统162以部署分配(140、138、124)。

图15示出了在提议的工作负载合并之前(1502-1504,1506-1508) 和之后(1502-1508-1504)的工作负载映射1500。

图16示出了用于云消费者136提交的应用(例如,工作负载1602、 1604、1606)的软截止期限1600(例如,QoS保证126)。云消费者136提交具 有QoS保证126(例如,响应时间)的每个应用(例如,工作负载1602、1604、 1606),QoS保证126包括截止期限(硬截止期限或软截止期限(1602、1604、 1606),以及应用(例如,工作负载)准时完成(1614、1616、1618)的重要性 的优先级排序(1608、1610、1612)。WPPI系统102向云提供方134一种方式 来最小化资源利用使用消耗142并最大化收益128(1620)。例如,WPPI系统 102可以分析提交到两个云提供方的三个应用,并评估估计随机分配相对于基于 模型的分配,并执行应用(例如,工作负载)和显示观测结果(1622、1624、 1626)(例如,CPU、磁盘、存储器、网络利用)。WPPI系统102为每个提供方 标识资源使用和资源成本。

图17示出了由WPPI系统102确定的用于多个云消费者提交应用 (例如,工作负载1702、1704、1706)的合并置换1700。第一云提供方1708可 以按照每小时$10的成本提供一个刀片(1712)和两个虚拟机(VM),而第二 云提供方1710可以按照每小时$8的成本提供两个刀片(1714、1716)和八个 虚拟机(VM)(例如,每个刀片四个VM)。在随机分配情况(情况1-1720)下, 使用全部的三个服务器(1714、1716、1718)。在基于模型的分配情况(情况 2-1722)下,app21704和app31706被合并在服务器上,从而使得3个服务器 中的2个(1714、1716)被启动并运行。

图18示出了视觉指示符1800,其指示合并策略是否满足工作负载 的QoS保证。图形表示(例如,笑脸1802、1804、1806)指示应用是否满足用 于应用(例如,工作负载1814、1816、1818)的时间截止期限(1808、1810、 1812)。在情况1中,报告测量的时间,而在情况2中,WPPI系统102报告测 量的时间以及由WPPI系统102模型预测的执行时间两者。没有分配违反应用 的截止期限。在情况1中,资源没有被充分利用,并且由于情况1使用3个服 务器,资源成本(1826、1828、1830)较高。WPPI系统102可以图形地指示云 提供方收益(1820、1822、1824)(例如,用于收益的笑脸,或者用于损耗的哭 脸)已指示分配是否实现提供方的收益目标。对于情况1和情况2,WPPI系统 102确定可以为云提供方实现相同的收益量。

图19示出了向WPPI系统102提交1900附加应用以确定合并策略。 在所有情况(1902、1904)中,云提供方(1906、1908)试图使用三个服务器 (1910、1912、1914)容纳所有新提交的应用(1910、1912、1914)。

图20示出了合并策略2000,其中至少一个云消费者的提交的工作 负载不满足工作负载的QoS保证(2002)。在情况1(1902)中,WPPI系统102 确定合并/分配错过了app1(1922)、app2(1924)、app5(1910)和app6(1914) 各自的截止期限(6个应用中的4个)。同时,在情况2(1904)中,WPPI系统 102确定违反用于app1(1922)的截止期限的合并/分配,并且与情况2收益 (2006)相比,情况1获得较少的收益(2004)。

图21示出了合并和工作负载迁移策略2100,其满足云消费者提交 的工作负载的QoS保证126,并且最大化云提供方的收益(例如,情况1-2102 对比情况2-2104)。

图22示出了用于云消费者提交的工作负载的QoS保证的完成时间 和最大化的收益(2204)对比云提供方的收益(2202)的图形表示2200。

WPPI系统102可以被部署为在网络化部署中使用的通用计算机系 统。计算机系统可以在服务器容量中操作,或者在服务器-客户端用户网络环境 中作为客户端用户计算机操作,或者在对等式(或分布式)网络环境中作为对 等体计算机系统操作。计算机系统还可以被实现为或者结合在各种设备中,诸 如个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动 设备、掌上型计算机、膝上型计算机、台式计算机、通信设备、无线电话、固 定电话、控制系统、照相机、扫描仪、传真机、打印机、传呼机、个人可信设 备、Web用具、网络路由器、交换机或网桥、或能够执行指定由机器执行的动 作的一组指令(依序或以其他方式)的任意其他机器。在特定实施例中,计算 机系统可以使用提供声音、视频或数据通信的电子设备实施。此外,尽管示出 了单个计算机系统,但术语“系统”还应该包括独立地或者结合地执行一组或多 组指令来实现一个或多个计算机功能的系统或子系统的任意汇集。

计算机系统可以包括处理器、诸如中央处理单元(CPU)、图形处 理单元(GPU)或二者。处理器可以是各种系统中的组件。例如,处理器可以 是标准个人计算机或工作站的一部分。处理器可以是一个或多个通用处理器、 数字信号处理器、专用集成电路、现场可编程门阵列、服务器、网络、数字电 路、模拟电路及其组合,或者现在已知的或以后开发的用于分析和处理数据的 其他装置。这里所讨论的处理器和存储器以及以下的权利要求书,可以体现在 或者实施在一个或多个物理芯片或电路组合中。处理器可以执行软件程序,诸 如手动生成(即,编程的)的代码。

计算机系统可以包括能够经由总线通信的存储器。存储器可以是 主存储器、静态存储器或者动态存储器。存储器可以包括但可以不限于计算机 可读存储介质,诸如各种类型的易失性和非易失性存储介质,包括但不限于随 机存取存储器、只读存储器、可编程只读存储器、电可编程只读存储器、电可 擦除只读存储器、闪存、磁带或磁盘、光介质等。在一种情况中,存储器可以 包括缓存或者用于处理器的随机存取存储器。备选地或者附加地,存储器可以 与处理器(诸如处理器的缓存、内存或其他存储器)分离,。存储器可以是外部 存储设备或用于存储数据的数据库。示例可以包括硬盘驱动器、压缩光盘 (“CD”)、数字视频光盘(“DVD”)、存储卡、记忆棒、软盘、通用串行总线(“USB”) 存储器设备、或者操作以存储数据的任意其他设备。存储器可以可操作用于存 储由处理器可执行的指令。附图中所示的或者这里所述的功能、动作或者任务 可以由执行存储在存储器中的指令的编程的存储器来执行。功能、动作或任务 可以独立于特定类型的指令集、存储介质、处理器或处理策略,并且可以通过 软件、硬件、集成电路、固件、微代码等执行,无论是独立操作或者组合操作。 同样的,处理策略可以包括多处理、多任务、并行处理等。

计算机系统还可以包括显示器,诸如液晶显示器(LCD)、有机发 光二极管(OLED)、平板显示器、固态显示器、阴极射线管(CRT)、投影仪、 打印机、或者其他的现在已知的或今后开发的用于输出确定的信息的显示设备。 显示器可以作为用于用户的接口以查看处理器的功能,或者特别作为与存储在 存储器中或者驱动单元中的软件的接口。

此外,计算机系统可以包括输入设备,配置为允许用户与系统的 任意组件交互。输入设备可以是数字键区、键盘或者光标控制设备,诸如鼠标、 或者操纵杆、触摸屏显示器、远程控制或者操作为与系统交互的任意其他设备。

计算机系统还可以包括磁盘或光盘驱动单元。磁盘驱动单元可以 包括计算机可读介质,其中可以嵌入一组或多组指令,例如,软件。此外,指 令可以执行这里所述的一个或多个方法或逻辑。在由计算机系统执行期间,指 令可以完全驻留,或者至少部分驻留在存储器内和/或在处理器内。存储器和处 理器还可以包括上述计算机可读介质。

本公开内容设想一种计算机可读介质,其包括指令或者响应于传 播的信号接收和执行指令,从而使得连接到网络的设备可以在网络上传达声音、 视频、音频、图像或任意其他数据。此外,指令可以经由通信接口在网络上被 传输或者被接收。通信接口可以是处理器的一部分,或者可以是单独的组件。 通信接口可以在软件中创建,或者可以是硬件的物理连接。通信接口可以被配 置为与网络、外部介质、显示器、或系统中的任意其他组件、或其组合连接。 与网络的连接可以是物理连接,诸如有线Ethernet连接,或者可以如下所述无 线地建立。同样的,与DCBR系统102的其他组件的其他连接可以是物理连接 或者可以无线地建立。在服务提供方服务器的情况下,服务提供方服务器可以 通过通信接口与用户通信。

网络可以包括有线网络、无线网络或其组合。无线网络可以是蜂 窝电话网络,802.11、802.16、802.20或者WiMax网络。此外,网络可以是公 共网络(诸如因特网)、私有网络(诸如内联网)、或其组合,并且可以利用现 在可获得的或以后开发的各种联网协议,包括但不限于基于TCP/IP的联网协议。

计算机可读介质可以是单个介质,或者计算机可读介质可以是单 个介质或多介质,诸如集中式或者分布式数据库、和/或存储一组或多组指令的 相关缓存和服务器。术语“计算机可读介质”还可以包括能够存储、编码或执行 用于由处理器执行的一组指令,或者可以使得计算机系统执行这里所述的任意 一个或多个方法或操作的任意介质。

计算机可读介质可以包括固态存储器,诸如存储卡,或保存一个 或多个非易失性只读存储器的其他封装。计算机可读介质还可以是随机存取存 储器或其他易失性可再写入存储器。此外,计算机可读介质可以包括磁光或者 光介质,诸如磁盘或磁带,或者用于捕获载波信号(诸如在传输介质上传达的 信号)的其他存储设备。附在电子邮件或其他自包含信息存档或存档集合的数 字文件可以被认为是可以作为有形存储介质的分布介质。计算机可读介质优选 地是有形存储介质。因此,本公开内容可以被认为包括任意一个或多个计算机 存储介质,或者分布式介质以及其他等同物和后继介质,其中可以存储数据或 者指令。

备选地或者附加地,专用硬件实施方式(诸如专用集成电路、可 编程逻辑阵列和其他硬件设备)可以被构建以实现这里所述的一个或多个方法。 可以包括各种实施例的装置和系统的应用可以广泛地包括各种电子和计算机系 统。这里所述的一个或多个实施例可以使用的两个或更多特定互连硬件模块或 者设备利用可以在模块之间和通过模块传达有关控制和数据信号来实现功能些 信号,或者作为专用集成电路的部分。因此,本发明可以包括软件、固件和硬 件实施方式。

这里所述的方法可以通过计算机系统可执行的软件程序实施。此 外,实现方式可以包括分布式处理、组件/对象分布式处理以及并行处理。备选 地或者此外,虚拟计算机系统处理可以被构建来实施如这里所述的一个或多个 方法或功能。

尽管描述了组件和功能,而其可以参考特定标准和协议在特定实 施例中实施,但是组件和功能并不限于这些标准和协议。例如,用于因特网和 其他分组交换网络传输的标准(例如,TCP/IP、UDP/IP、HTML和HTTP)代 表本领域的状态的示例。这些标准被具有基本上相同功能的更快或者更有效的 等同物周期性的替代。因此,具有与这里所述的那些相同或者相似的功能的替 换标准和协议被认为是其等同物。

这里所述的图示旨在提供对各种实施例的结构的一般性理解。这 些例示并非旨在作为利用这里所述的结构和方法的装置、处理器和系统的所有 元件和特征的完整说明。通过回顾本公开内容,许多其他的实施例对于本领域 技术人员可以是显而易见的。可以利用其他实施例,并且可以从本公开内容导 出其他实施例,从而使得可以进行结构和逻辑代替和变化,而不脱离本公开内 容的范围。此外,这些图示仅仅是代表性的,并不被按比例绘制。这些图示中 的某些比例可以被放大,同时其他部分可以被缩小。因此,本公开内容和附图 被认为是示意性的,而不是限制性的。

上述主题被认为是示例性的,而不是限制性的,并且所附权利要 求旨在覆盖全部这些修改、改善、以及其他实施例,而这些落入本说明书的精 神和范围内。因此,在法律允许的最大范围内,本范围是通过以下权利要求及 其等同物的最广泛的可允许解释而确定的,而不应该被前述具体实施方式约束 或限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号