首页> 中国专利> 优化资源配置方案的方法及装置

优化资源配置方案的方法及装置

摘要

本说明书实施例提供一种优化资源配置方案的方法及装置,在优化资源配置方案的过程中,通过少量先验配置方案及其估计收益,训练全局代理模型,并基于全局代理模型确定优化的初始配置方案,从而在初始配置方案基础上进行配置方案优化,提高优化效率。进一步地,在某个初始配置方案开始的优化过程结束时,比较最终优化的配置方案与所有先验配置方案之间的估计收益的大小关系,以进一步避免得到的是局部最优配置方案。总之,以上优化资源配置方案可以提高资源配置方案的优化效率。

著录项

  • 公开/公告号CN113222302A

    专利类型发明专利

  • 公开/公告日2021-08-06

    原文格式PDF

  • 申请/专利权人 支付宝(杭州)信息技术有限公司;

    申请/专利号CN202110661883.0

  • 发明设计人 严佳;奇峰;华志刚;周俊;

    申请日2021-06-15

  • 分类号G06Q10/04(20120101);G06Q10/06(20120101);G06K9/62(20060101);G06F30/27(20200101);G06F30/23(20200101);G06N20/00(20190101);G06F111/04(20200101);

  • 代理机构11309 北京亿腾知识产权代理事务所(普通合伙);

  • 代理人陈霁;周良玉

  • 地址 310000 浙江省杭州市西湖区西溪路556号8层B段801-11

  • 入库时间 2023-06-19 12:07:15

说明书

技术领域

本说明书一个或多个实施例涉及计算机技术领域,尤其涉及优化资源配置方案的方法和装置。

背景技术

资源是指社会经济活动中人力、物力和财力的总和,是社会经济发展的基本物质条件。在社会经济发展的一定阶段上,相对于人们的需求而言,资源总是表现出相对的稀缺性,从而要求人们对有限的、相对稀缺的资源进行合理配置,以便用最少的资源耗费,生产出最适用的商品和劳务,获取最佳的效益。资源配置合理与否,对一个国家经济发展的成败有着极其重要的影响。资源配置(resource allocation)是指对相对稀缺的资源在各种不同用途上加以比较做出的选择。

常规技术中,通常可以在资源配置方案和收益之间建立模型,以估计各种资源配置方案的收益。在资源配置方案和收益之间建立的模型是规则集、决策树之类的不可导模型的情况下,想要获得最佳收益,可能需要在资源配置方案的各种可能情况下利用模型进行试验估计。每种资源配置方案的试验都对应着一次模型运算,从而带来巨大的时间成本和计算成本。因此,如何使用通过外部优化的资源配置方案,结合模型进行收益估计,从而高效地优化资源配置方案,是具有重大实践意义的技术问题。

发明内容

本说明书一个或多个实施例描述了一种优化资源配置方案的方法及装置,用以解决背景技术提到的一个或多个问题。

根据第一方面,提供了一种优化资源配置方案的方法,用于针对多种预定资源,以收益最大化为目标优化其配置份额;所述方法包括:利用若干个先验资源配置方案,确定估计收益关于各种预定资源的组合份额的联合高斯分布,其中各个先验资源配置方案分别对应有经由预先训练的收益估计模型得到的各个估计收益;在所述联合高斯分布的最小均值处采样得到当前的初始配置方案;将所述初始配置方案作为初始的当前配置方案,基于当前步长迭代更新所述当前配置方案;基于更新后的当前配置方案对应的估计收益与已采样配置方案对应的最大估计收益之间的对比,确定更新后的当前配置方案是否使得收益最大化的最优配置方案。

在一个实施例中,所述收益估计模型为规则集或决策树。

在一个实施例中,所述在所述联合高斯分布的最小均值处采样得到初始配置方案包括:以最小化联合高斯分布中的均值函数为目标,调整各种预定资源对应的配置份额,其中,所述均值函数包含的各个自变量分别描述各种预定资源的配置份额;按照调整后的分配份额,确定所述初始配置方案。

在一个进一步的实施例中,所述联合高斯分布还对应有包含各种预定资源分别对应的各个自变量的协方差函数,所述以最小化联合高斯分布中的均值函数为目标,调整各种预定资源对应的配置份额进一步包括:以最小化所述均值函数的同时最大化所述协方差函数为目标,调整各种预定资源对应的配置份额。

在一个实施例中,所述将所述初始配置方案作为初始的当前配置方案,基于当前步长迭代更新所述当前配置方案包括:将当前配置方案沿其梯度方向,按照所述当前步长移动,得到备选配置方案;基于所述备选配置方案更新当前配置方案。

在一个进一步的实施例中,所述当前配置方案的梯度通过以下方式确定:在当前配置方案的设定邻域采样若干个配置方案,并分别利用预先确定的收益估计模型确定所采样的若干个配置方案分别对应的各个估计收益;

根据所采样的若干个配置方案分别对应的各个估计收益,通过有限差分方式估计当前配置方案对应的梯度。

在一个更进一步的实施例中,所述当前配置方案的梯度为,所采样的若干个配置方案相对于当前配置方案的各个有限差分结果的平均值、中位数、最大值或最小值中的一项。

在另一个进一步的实施例中,各种预定资源对应有关于配置份额的至少一个约束条件,在将当前配置方案沿其梯度方向,按照所述当前步长移动得到的配置方案超出所述约束条件的情况下,将满足所述约束条件的配置方案中,与移动得到的配置方案的距离最近的第一配置方案作为所述备选配置方案。

在一个实施例中,所述与移动得到的配置方案的距离为由各种预定资源对应配置份额确定的欧几里得距离。

在又一个更进一步的实施例中,所述基于所述备选配置方案更新当前配置方案包括:对比所述备选配置方案对应的备选收益,与所述当前配置方案对应的当前收益;在所述备选收益大于所述当前收益的情况下,用所述备选配置方案更新所述当前配置方案。

在一个更进一步的实施例中,在所述备选收益小于所述当前收益的情况下,利用当前的参考步长调整所述当前步长,并利用调整后的当前步长,和所述当前配置方案更新所述备选配置方案。

在一个更进一步的实施例中,参考步长具有预定的初始值,并在备选配置方案对应的备选收益大于当前配置方案对应的当前收益的情况下迭代更新,更新后的参考步长为确定所述备选配置方案所使用的当前步长。

在一个更进一步的实施例中,在所述备选收益大于所述当前收益的情况下,所述当前步长按预定比例增大。

在一个更进一步的实施例中,在当前的参考步长和所述当前步长的差值小于步长阈值的情况下,将当前的备选配置方案作为针对当前配置方案的优化配置方案,并用来更新所述当前配置方案。

在一个实施例中,所述基于更新后的当前配置方案对应的估计收益与已采样配置方案对应的最大估计收益之间的对比,确定更新后的当前配置方案是否为使得收益最大化的最优配置方案包括:在更新后的当前配置方案对应的估计收益与已采样配置方案对应的最大估计收益之间的差异小于收益阈值的情况下,将迭代更新后的当前配置方案,作为使得收益最大化的最优配置方案。

在一个进一步的实施例中,在更新后的当前配置方案对应的估计收益与已采样配置方案对应的最大估计收益之间的差异大于收益阈值的情况下:根据更新后的当前配置方案及其对应的估计收益扩充先验配置方案,以更新所述联合高斯分布,从而进一步更新所述初始配置方案,并利用更新的所述初始配置方案迭代进行资源配置方案的优化。

根据第二方面,提供一种优化资源配置方案的装置,用于针对多种预定资源,以收益最大化为目标优化其配置份额;所述装置包括:

代理单元,配置为利用若干个先验资源配置方案,确定估计收益关于各种预定资源的组合份额的联合高斯分布,其中各个先验资源配置方案分别对应有经由预先训练的收益估计模型得到的各个估计收益;

采样单元,配置为在所述联合高斯分布的最小均值处采样得到当前的初始配置方案;

更新单元,配置为将所述初始配置方案作为初始的当前配置方案,基于当前步长迭代更新所述当前配置方案;

确定单元,配置为基于更新后的当前配置方案对应的估计收益与已采样配置方案对应的最大估计收益之间的对比,确定更新后的当前配置方案是否使得收益最大化的最优配置方案。

根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。

根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。

通过本说明书实施例提供的方法和装置,利用基于估计模型为先验资源配置方案确定的估计收益,训练代理模型,通过代理模型估计收益关于各种预定资源的组合份额的联合高斯分布,并根据联合高斯分布的性质在最小均值处采样得到当前的初始配置方案,这样,可以有效基于先验配置方案确定配置方案优化的初始配置方案,在当前初始配置方案基础上确定的优化配置方案的估计收益用来和先验配置方案中的最大估计收益对比,如此优化的配置方案可以尽可能避开局部最优方案,更接近全局最优方案,从而提高优化资源配置的有效性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1示出本说明书的技术构思中优化资源配置方案的实施架构示意图;

图2示出根据一个实施例的优化资源配置方案的方法流程图;

图3示出根据一个实施例的优化资源配置方案的装置的示意性框图。

具体实施方式

下面结合附图,对本说明书提供的方案进行描述。

资源配置问题是日常生活中经常会遇到的问题。这里的资源可以是任意可以分割和配置的资源,例如可以是时间、数据流量、资产、保险份额、混合物组分等等中的一种或多种。相应的资源配置问题可以涉及这些资源之间相互结合的配置问题。资源配置通常可以对应到相应收益。这里的收益,不局限于资产收益,其可以体现为各种通过资源配置获取的利益、达到的效果等等。

举例而言,上述资源为数据流量,则资源配置问题例如可以是流量包产品的配置,收益例如可以是流量包产品销量。如50GB数据流量包的一种资源配置方案为某直播平台定向流量10GB、通用流量40GB,另一种资源配置方案为某直播平台定向流量30GB、通用流量20GB。对应收益为50GB数据流量包在相应资源配置方案下的销量,或在各种流量包产品中的用户选择率,等等。

假设上述资源是某种混合物的组分,例如复合化肥中的有效组分氮、五氧化二磷、氧化钾等,资源配置方案例如可以为各种有效组分的百分含量,收益可以为作物对肥料的吸收利用率,或者作物增产比例等等。

假设上述资源是保险份额,对于一定保额的保险产品,资源配置方案可以是对于重大疾病、伤残、教育、死亡等各种情况下的赔付额度分配。收益可以是该资源配置方案对应的保险销量、保险公司的利润率等等。

假设上述资源为资产,例如包括基金、股票、债券、外汇、保险、定存等等多种资产形式,则资源配置方案可以是资产在各种资产形式下的分配比例。此时的收益对于不同角度的用户也不相同。如,从理财产品售卖方的角度,资源配置方案可以对应着组合型理财产品,收益可以是相应资源配置方案下的理财产品销量、利润率等,从用户角度来说,资源配置方案可以对应着其所持有资产的投资方案,收益可以是相应投资方案在预定时间段内带来的资产增值额度,或增值率等。

可以理解,实践中,在各种不同的资源配置场景下,资源配置方案和收益各不相同,在此不再一一举例。

图1示出了本说明书中的一个实施架构的示意图。图1示出的是关于一种理财过程中的优化资产配置方案的实施架构。如前文所述,理财过程中的资源,可以包括基金、股票、债券、保险等多种资产形式。各种资产形式例如可以按照相应的金额百分比进行配置。对于组合型理财产品的出售方而言,收益可以是该理财产品的销量等,对于用户来说,收益可以是理财产品的回报率等。在一个具体问题中,例如是出售方优化理财产品配置的场景,收益为该理财产品的预估销量,期望找到达到最佳销量的资产配置方案。

可以理解,在资源配置过程中,在资源总量一定的情况下,各种资源的配置份额可以相互牵制,形成约束。而一种资源对于收益的影响也不一定是配置份额与收益正相关的。例如,对于理财产品来说,收益越大的资源形式,往往对应着更高的风险,所以为独立收益最大的资源形式(如基金)分配尽可能大的份额,未必会带来更高的销量。因此,需要对各种资源进行份额的合理配置。

如图1所示,在该实施架构中,可以保存有预先利用历史资源配置方案和历史收益的对应关系作为样本,构建的收益估计模型。收益估计模型可以用于针对输入的资源配置方案,给出预估的收益值。作为收益估计模型的输入的资源配置方案可以利用向量表示,例如,向量的各个维度分别表示基金、股票、债券、保险,各个维度上的值分别表示相应的资源形式在当前的资源配置方案中所占的配置份额,如向量[5%,40%,40%,15%]表示基金占5%、股票占40%、债券占40%、保险占15%。

该收益估计模型例如可以是规则集、决策树等各种形式的机器学习模型。以收益估计模型是决策树为例,其通常是条件性的,例如某个分支可能对应条件“基金比例大于10%且小于80%”。规则集则可能是类似条件与收益之间映射关系类型的模型。类似这种收益估计模型通常具有断点,从而不可导(无法直接利用求导方法确定梯度)。并且收益估计模型可能存在局部最优值和全局最优值,是非凸函数。因此,为了确定全局最优值,甚至可能通过穷举查询来得到最佳资源配置方案。

另一方面,在很多场景中,收益估计模型往往是现有的,并且相应数据具有隐私性。例如,某理财产品售卖业务方要在某个业务平台上架其理财产品,并且在不愿将收益估计模型及其自身的数据提供给业务平台的情况下,希望业务平台对其理财产品中的资源配置方案进行优化。此时,业务平台方无法知道收益估计模型的具体结构及参数。对于业务平台方而言,其可以看作一个可以进行资源配置方案的收益查询的“黑盒”。并且该黑盒在每次查询过程中都要进行一次模型运算。显然,业务平台方要经过穷举查询来确定最佳配置方案是不现实的。

为了得到最佳资源配置方案,在本说明书中,可以采用如图1所示的实施架构。计算平台(可以是对应于上述的业务平台方或者理财产品售卖方的设备平台等)可以通过已知的配置方案和估计收益的对应关系,给出更优的配置方案,向收益估计模型请求预估收益结果。根据预估收益,可以进一步优化当前的配置方案,并迭代执行优化步骤,直至得到满足条件的配置方案,作为最佳资源配置方案。

在本说明书的技术构思下,可以使用代理模型对收益估计模型的估计结果进行模拟,从而由代理模型的模拟结果,先粗略估计较优的初始配置方案作为当前配置方案,再沿一定方向,根据步长向最优配置方案靠近。亦即,在当前的初始配置方案的基础上行优化。优化结果与已知的各个先验配置方案进行估计收益的对比,从而确定全局最优配置方案,并确定是否结束循环。经过如此循环迭代,直到某个周期确定的配置方案的估计收益满足全局最优的条件,则可以确定当前找到的配置方案为最佳配置方案。可以理解,这里向最优配置方案靠近的方向,可以通过当前配置方案对应的梯度表示。在进一步的技术构思下,由于收益估计模型的不可导性,可以采用有限差分的方式估计当前配置方案下的梯度。此外,在一些进一步的技术构思下,还可以不断优化步长。

如图1所示,计算平台可以提供最佳配置方案。该最佳配置方案可以提供给理财产品的售卖方以达到销售收益最大化的目的,或者提供给购买理财产品的普通用户以达到投资收益最大化的目的,等等。值得说明的是,图1示出的实施架构结合理财场景进行了说明,然而,实践中,本说明书提供的技术架构可以适应于任何关于资源配置和目标收益的优化配置场景,例如前文提到的数据流量配置、化肥组分配置、时间配置等等。

下面详细描述本说明书技术构思下的优化资源配置方案的方法。

图2示出了根据本说明书一个实施例的优化资源配置方案的流程示意图。该流程的执行主体可以是任一具有一定计算能力的计算机、设备或服务器等,例如图1示出的计算平台。该流程用于以收益最大化为目标,优化针对多种预定资源进行组合的份额分配方案。这里的资源例如可以是前文提到的可以分割和组合的资源。由图1可以看出,在优化资源配置过程中,存在不断优化的循环过程,可能需要多个循环周期来优化资源配置方案。也就是说,根据本说明书的技术构思,优化资源配置过程具有周期性。

图2示出了其中一个优化周期中,优化资源配置方案的流程。如图2所示,该优化资源配置方案的流程包括:步骤201,利用若干个先验资源配置方案,确定估计收益关于各种预定资源的组合份额的联合高斯分布,其中各个先验资源配置方案分别对应有经由预先训练的收益估计模型得到的各个估计收益;步骤202,在联合高斯分布的最小均值处采样得到当前的初始配置方案;步骤203,将初始配置方案作为初始的当前配置方案,基于当前步长迭代更新当前配置方案;步骤204,基于更新后的当前配置方案对应的估计收益与已采样配置方案对应的最大估计收益之间的对比,确定使得收益最大化的最优配置方案。

步骤201,利用若干个先验资源配置方案,确定估计收益关于各种预定资源的组合份额的联合高斯分布。其中各个先验资源配置方案分别对应有经由预先训练的收益估计模型得到的各个估计收益。收益估计模型可以预先经由历史资源配置方案和历史收益之间的关联关系训练。其可以预先存储在图2示出的流程的执行主体上,也可以存储在其他设备,在此不做限定。

可以理解,先验资源配置方案是已知估计收益的资源配置方案。为了模拟资源配置方案和估计收益之间的关联关系,在本说明书中可以采用结合全局代理模型的粗略估计来进行。单个先验资源配置方案和其对应的估计收益可以构成一个样本。

通常,各种资源的配置份额之间可能存在一些约束条件,这些约束条件可以限制各种资源形式的份额配置。举例而言,对于仅有两种资源的配置而言,其配置比例x和y可以具有以下约束:x+y=1,x>0,y>0。假如映射到二维坐标系,可以看作值域为(0,0)、(0,1)、(1,0)限定的等腰直角三角形。该值域也是相应资源配置问题的定义域。在更多维度的情况下,限定条件可以有多种,例如,基金比例不高于25%,且股票+债券之和为70%,等等。特别地,各个维度之间还可以具有范数约束、对数约束等等。相应地,定义域抽象到相应维度空间内可以体现为球体、椭球、曲面等等各种情形。各个先验资源配置方案需在相应资源配置问题的定义域内生成。

在初始周期,各个先验资源配置方案可以人为确定或者根据一定规则选择。例如,为了训练出更好地表征资源配置方案和估计收益之间的关联关系的全局代理模型,在一个实施例中,可以分散地确定多个配置方案。例如在可选的实现中,可以针对多种资源中的每种资源,在定义域的最大值点处、最小值点处、中间点处分别取样。根据各个先验资源配置方案调用收益估计模型,可以根据收益估计模型的输出结果确定各个估计收益。这些配置方案用于获取预估收益,从而用来作为先验知识训练全局代理模型,因此也可以称为先验配置方案。其中,为了避免过多调用估计模型导致的优化效率降低,先验配置方案的数量可以是较少数量,例如是预设的较小的值,如5、10等。

在后续周期,先验资源配置方案不仅可以包含初始时确定的各个先验资源配置方案,还可以包括在其他周期优化资源配置方案过程中获得估计收益的各个资源配置方案。

全局代理模型可以采用诸如高斯过程(Gaussian Processes,GP)、支持向量机、神经网络之类的方式实现。以下以贝叶斯优化中的高斯过程GP为例进行说明。根据高斯过程的定义,在定义域上,对于所有x=[x

这里μ(x)表示均值函数(Mean function),描述各个维度的均值;κ(x,x)为协方差函数Covariance Function(也叫核函数Kernel Function)描述两个向量各个维度之间的协方差矩阵。一个高斯过程可以由一个均值函数和协方差函数唯一地定义,并且一个高斯过程的有限维度的子集都服从一个多元高斯分布。

在资源配置场景下,采样的每种资源配置方案可以对应一个向量x,及一个估计收益f(x)。其中,x的各个维度分别对应各种资源。更具体地,x的各个维度分别可以对应各种资源的配置份额。假设估计收益f服从联合高斯分布,则每个采样点(对应单个先验资源配置方案)都服从一个多元高斯分布。利用前文随机采样的先验资源配置方案及其各自对应的预估收益,可以通过高斯过程,确定均值函数μ(x)以及协方差函数κ(x),从而得到预估收益满足的联合高斯分布,亦即,预估收益在各种资源的配置份额下的条件分布。由于采样的先验配置方案数量较少,因此,联合高斯分布不是非常精确的分布。随着采样数量增多,联合高斯分布可能逐渐逼近真实分布。

接着,通过步骤202,在联合高斯分布的最小均值处采样得到当前的初始配置方案。可以理解,根据本说明书的技术构思,这里的初始配置方案是当前优化周期进行优化的起始配置方案。也就是说,当前周期在该初始配置方案基础上进行优化。

理论上来说,初始配置方案可以根据经验人为设置,或者按照预定规则选择。例如在初始周期,根据经验,在历史配置方案中,某些较接近的配置方案可以产生较大的收益,例如图1中,历史收益较大的资产配置方案,大约集中在基金配比在25%左右,债券配比在8%左右,股票配比在45%左右,保险配比在22%左右,则可以人为地将资产配置方案[25%,8%,45%,22%]确定为初始配置方案。

在本说明书的技术构思下,为了充分利用代理模型得到更加合理的初始配置方案,可以利用当前的代理模型来预测当前周期的初始配置方案。可以理解,利用高斯过程GP确定的联合高斯分布,可以进行数据预测。结合到本说明书的技术场景,是一个预测最大收益的过程,也就是预测预估模型的最大值的过程。在本说明书的技术架构下,可以通过联合高斯分布采样初始配置方案。采样数据点来自高斯过程GP确定的联合高斯分布的后验分布。

通常,在样本数据点较为密集的地方,模型预测的不确定性较低,而在训练数据点比较稀疏的区域,模型预测不确定性较高。也就是说,在一个数据点附近不断采样,可以得到该点附近更接近真实的分布。然而,本说明书实施例更希望了解各种不同情形下的概率分布。可以理解,对于高斯过程的联合概率分布(即联合高斯分布)而言,均值处对应着正态分布的极值点。为了避开局部极值点,可以在均值的极值点采样。均值越小,就越接近预估收益的全局最大值。因此,在一个实施例中,可以在最小均值处采样,得到初始配置方案。最小均值例如可以对应着使得均值函数μ(x)最小化的配置方案。具体地,将x在各个维度的值看作待调整的参数,以令均值函数μ(x)尽可能小为目标,调整x在各个维度的值,得到采样数据点对应的向量。该向量对应的配置方案可以作为采样的初始配置方案。

另外,由于高斯过程的联合概率分布中,方差越大,意味着更大的采样潜力,即样本具有更高的多样性,因此,在进一步可选的实施方案中,还可以以均值尽可能小,方差尽可能大为目标采样对应初始配置方案的数据点。例如在一个具体例子中,可以将采样过程中的目标函数设为与均值正相关,与协方差负相关,如μ(x)-3[κ(x,x)]

在其他可选的实施方式中,初始配置方案还可以通过其他方式确定,在此不再赘述。在当前周期为初始周期的情况下,可以将初始配置方案作为本周期中的当前配置方案。

进一步地,在步骤203中,将初始配置方案作为初始的当前配置方案,基于当前步长迭代更新当前配置方案。其中,配置方案的优化过程通常是一步步递进的。初始配置方案描述的是正在进行的当前优化周期最初的参考方案,这里的当前配置方案用于描述在当前优化周期正在进行的优化所依据的参考方案。随着优化过程的步步递进,当前配置方案不断被更新,或者说被更优的配置方案替代。

其中,当前步长可以用于描述各种配置资源的配置份额的增减。为了进一步将当前配置方案向最优配置方案(极值点)靠近,需要进一步确定当前配置方案向最优配置方案靠近的方向及幅度(与步长正有关)。可以理解,各种资源份额的增减可以一致也可以不一致。实践中,基于各种约束条件,各种资源份额的增减通常是不一致的,甚至是相反的。例如前文两种资源的例子中,两种资源配置份额之和是固定的,则一种资源配置份额增加,另一资源配置份额必然减少相应额度。

在一个可能的设计,可以用当前步长同时描述各种资源的移动方向及移动幅度。此时,当前步长可以包括多个维度(例如为向量或数组等),每个维度对应一种资源对应的增减份额。如此,在当前配置方案的基础上叠加当前步长,就可以得到新的配置方案。其中,此时的步长可以是根据经验设定的。

根据另一个可能的设计,可以用当前步长描述各种资源的移动幅度,用梯度描述各种资源的移动方向。此时,当前步长可以用标量形式表示,也就是说,其可以是一个数值,如0.1。当前配置方案向最优配置方案靠近的方向可以通过有限差分估计的梯度描述。可以理解,在梯度趋近于0的情况下,当前配置方案趋近于极值点。

为了使用有限差分估计当前配置方案对应的梯度,可以针对在当前配置方案的邻域采样若干(如N)个配置方案。其中当前配置方案的邻域可以用当前配置方案叠加趋近于0的改变量描述。例如,对于配置方案x

其中,在邻域内采样的配置方案可以是随机数量,也可以是预先设定的数量,如5、7等。然后,对于各个采样到的配置方案,可以将其分别利用收益估计模型确定这若干个配置方案各自对应的估计收益。根据若干个配置方案分别对应的各个估计收益,通过有限差分方式估计当前配置方案对应的梯度。可以理解,针对单个采样到的配置方案,针对各种资源,在相应维度可以得到梯度数据。

以当前配置方案x

针对单个采样到的配置方案,可以确定一组各个维度的有限差分。在一个实施例中,当前配置方案对应的梯度可以是各个采样到的配置方案分别对应的各组有限差分的平均。在另一个实施例中,当前配置方案对应的梯度中,单个维度i的梯度是各组有限差分中维度i对应的有限差分的最小值。在其他实施例中,当前配置方案对应的梯度还可以通过其他方式确定,例如在各个维度分别取各组有限差分中位数、最大值等,在此不做限定。如此,可以根据梯度和当前步长,生成新的配置方案。例如,将当前配置方案记为x

可以理解,以上新的配置方案可能优于当前配置方案,也可能不优于当前配置方案,因此,可以将以上利用各种方式生成的新的配置方案作为备选配置方案。在一些情况下,新的配置方案还可能超出资源配置的定义域。因此,在可选的实现方式中,还可以检测根据梯度和步长得到的配置方案是否超出资源配置方案对应的约束条件,即x

可以理解,当前配置方案是按照代理模型描述的概率分布采样到的可能接近最佳配置方案的点,其沿梯度方向按照当前步长确定的备选配置方案的估计收益是否按照预期增加,是指示备选配置方案是否优于当前配置方案的重要指标。因此,可以通过调用收益估计模型,确定备选配置方案对应的备选收益。在备选收益大于当前配置方案对应的当前收益的情况下,表明备选配置方案与当前配置方案相比,向着更优方向移动。此时,可以用备选配置方案更新当前配置方案,并继续优化当前配置方案。可选地,在备选配置方案与当前配置方案相比,向着更优方向移动的情况下,为了加快收敛速度,还可以按第一预定比例(如2倍)更新当前步长,即将当前步长增加为其第一预定比例。

另一方面,在备选收益小于当前配置方案对应的当前收益的情况下,表明备选配置方案与当前配置方案相比,并未向着更优方向移动,或者向更优方向移动超过了最优配置方案,导致得到配置方案向其他方向移动。此时,可以向减小方向调整当前步长,例如可以用按照第二预定比例(如0.5)减少当前步长,并利用调整后的当前步长和当前配置方案更新备选配置方案。

在一些可选的实现方式中,当前步长的调整可以依赖参考步长。参考步长可以用于表示当前配置方案向更优配置方案更新的目前最优步长。实践中,参考步长可以具有预定的初始值,例如0,并在对当前配置方案的优化过程中更新。通常,参考步长可以与当前最优配置方案相对应。具体而言,当确定出优于当前配置方案的备选配置方案时,用确定备选配置方案所使用的当前步长更新参考步长。也就是说,在发现比初始配置方案更优的配置方案之后,当前参考步长与确定当前配置方案所使用的步长保持一致,直至发现更优的配置方案。这样,在一个实施例中,可以在找到更优的配置方案时,用相应的当前步长更新参考步长,否则,参考步长可以保持不变。此时,在备选配置方案不比当前配置方案更优的情况下,可以基于参考步长更新当前步长,以继续以优化当前配置方案为目的寻找新的备选配置方案。例如,将当前步长更新为当前步长和当前的参考步长的加权平均结果(在两者权重相等时可以理解为求平均)等。

可选地,调整当前步长之后,可以重复检测根据梯度和更新后的当前步长得到的备选配置方案是否超出资源配置方案对应的约束条件,即x

如果不断更新当前步长,但仍然一直得不到优于当前配置方案的备选配置方案,则可以在当前步长和参考步长的差值低于步长阈值的情况下,结束对当前步长的更新,并用当前的备选配置方案更新当前配置方案。

如果更新当前步长,并得到了优于当前配置方案的备选配置方案,则可以用当前的备选配置方案更新当前配置方案。另外可选地,还可以用当前步长更新参考步长。

值得说明的是,以上过程中,为了有效评估配置方案对应的估计收益,无论何阶段,在得到的配置方案超出定义域的范围的情况下,均可以先将其映射到定义域内。其中映射方法可以为诸如前文中的距离最近的配置方案代替之类的方式进行。

通常,步长足够小的情况下,表明当前配置方案接近当前优化周期的最优配置方案,因此,进一步优化对结果影响不大,反而会增加计算资源的消耗。因此,在可选的实施例中,在当前步长被更新后,还可以检测更新后的当前步长是否小于预定阈值,如果小于预定阈值,则停止本步骤203的当前配置方案迭代优化流程,否则,继续选择新的备选配置方案更新当前配置方案。

在步骤204中,基于更新后的当前配置方案对应的估计收益与已采样配置方案对应的最大估计收益之间的对比,确定更新后的当前配置方案是否使得收益最大化的最优配置方案。在本步骤204中,基于步骤202中选择的初始配置方案的最终优化结果,即步骤203中最终确定的当前配置方案,与已采样配置方案对应的最大估计收益之间进行对比,以进一步确定当前配置方案是否全局最优的配置方案。

针对当前配置方案,可以检测其对应的估计收益与已经得到的所有估计收益中的最大收益之间的关系。如果当前配置方案对应的估计收益与已知的最大收益之间的差异小于预定的收益阈值,例如0.0001,则表明当前配置方案是较优的配置方案,或者说接近全局最优的配置方案。如此,可以停止迭代,而将当前配置方案作为最优配置方案。否则,表明当前配置方案至少不是全局最优配置方案。

根据一个可能的设计,在当前配置方案不是全局最优配置方案的情况下,可以根据更新后的当前配置方案及其对应的估计收益扩充先验配置方案,从而利用步骤201,更新估计收益在各种资源的配置份额下的联合高斯分布。由于扩充了样本数量,更新后的联合高斯分布相较于前一周期,更接近真实分布。此时,可以利用步骤202,继续选择新的初始配置方案,并经过步骤203,在初始配置方案的基础上,优化当前配置方案。如此,通过对步骤201-步骤203的循环执行进行优化,直至得到最优配置方案。

回顾以上流程,在优化资源配置方案的过程中,通过少量先验配置方案及其估计收益,训练全局代理模型,并基于全局代理模型确定优化的初始配置方案,从而在初始配置方案基础上进行配置方案优化,提高优化效率。进一步地,在某个初始配置方案开始的优化过程结束时,比较最终优化的配置方案与所有先验配置方案之间的估计收益的大小关系,以进一步避免得到的是局部最优配置方案,从而有利于寻找全局最优方案。总之,以上优化资源配置方案可以提高资源配置方案的优化效率。

根据另一方面的实施例,还提供一种优化资源配置方案的装置。该装置可以以收益最大化为目标,优化针对多种预定资源进行组合的份额分配方案。图3示出了根据一个实施例的优化资源配置方案的装置的示意性框图。如图3所示,装置300包括:

代理单元31,配置为利用若干个先验资源配置方案,确定估计收益关于各种预定资源的组合份额的联合高斯分布,其中各个先验资源配置方案分别对应有经由预先训练的收益估计模型得到的各个估计收益;

采样单元32,配置为在联合高斯分布的最小均值处采样得到当前的初始配置方案;

更新单元33,配置为将初始配置方案作为初始的当前配置方案,基于当前步长迭代更新当前配置方案;

确定单元34,配置为基于更新后的当前配置方案对应的估计收益与已采样配置方案对应的最大估计收益之间的对比,确定更新后的当前配置方案是否使得收益最大化的最优配置方案。

其中,收益估计模型为规则集或决策树。

在一个实施例中,采样单元32通过以下方式在联合高斯分布的最小均值处采样得到初始配置方案:以最小化联合高斯分布中的均值函数为目标,调整各种预定资源对应的配置份额,其中,均值函数包含的各个自变量分别描述各种预定资源的配置份额;按照调整后的分配份额,确定初始配置方案。

进一步地,联合高斯分布还对应有包含各种预定资源分别对应的各个自变量的协方差函数,采样单元32以最小化联合高斯分布中的均值函数为目标,调整各种预定资源对应的配置份额的同时,还最大化协方差函数。

根据一个可能的设计,更新单元33,通过以下方式更新当前配置方案包括:将当前配置方案沿其梯度方向,按照当前步长移动,得到备选配置方案;基于备选配置方案更新当前配置方案。

可选地,当前配置方案的梯度可以通过以下方式确定:在当前配置方案的设定邻域采样若干个配置方案,并分别利用预先确定的收益估计模型确定所采样的若干个配置方案分别对应的各个估计收益;根据所采样的若干个配置方案分别对应的各个估计收益,通过有限差分方式估计当前配置方案对应的梯度。

其中,当前配置方案的梯度中,单种资源对应梯度为,所采样的若干个配置方案相对于当前配置方案的各个有限差分结果中相应维度的平均值、中位数、最大值或最小值中的一项。

假设各种预定资源对应有关于配置份额的至少一个约束条件,在将当前配置方案沿其梯度方向,按照当前步长移动得到的配置方案超出约束条件的情况下,将满足约束条件的配置方案中,与移动得到的配置方案的距离最近的第一配置方案作为备选配置方案。

其中,与移动得到的配置方案的距离为由各种预定资源对应配置份额确定的欧几里得距离等。

在一个可选的实现方式中,更新单元33通过以下方式基于备选配置方案更新当前配置方案:对比备选配置方案对应的备选收益,与当前配置方案对应的当前收益;在备选收益大于当前收益的情况下,用备选配置方案更新当前配置方案。

另一方面,在备选收益小于当前收益的情况下,利用当前的参考步长调整当前步长,并利用调整后的当前步长,和当前配置方案更新备选配置方案。

其中,参考步长具有预定的初始值,并在备选配置方案对应的备选收益大于当前配置方案对应的当前收益的情况下迭代更新,更新后的参考步长为确定备选配置方案所使用的当前步长。

在可选的实施例中,在备选收益大于当前收益的情况下,当前步长按预定比例增大。

根据一个实施方式,在当前的参考步长和当前步长的差值小于步长阈值的情况下,更新单元33可以将当前的备选配置方案作为针对当前配置方案的优化配置方案,并用来更新当前配置方案。

在一个可能的实现中,确定单元34进一步配置为:在更新后的当前配置方案对应的估计收益与已采样配置方案对应的最大估计收益之间的差异小于收益阈值的情况下,将迭代更新后的当前配置方案,作为使得收益最大化的最优配置方案。

在一个实施例中,在更新后的当前配置方案对应的估计收益与已采样配置方案对应的最大估计收益之间的差异大于收益阈值的情况下,更新单元34可以根据更新后的当前配置方案及其对应的估计收益扩充先验配置方案,以由代理单元31更新联合高斯分布,从而进一步由采样单元32更新初始配置方案,并通过更新单元33利用更新的初始配置方案进一步进行资源配置方案的优化。

值得说明的是,图3所示的装置300是与图2示出的方法实施例相对应的装置实施例,图2示出的方法实施例中的相应描述同样适用于装置300,在此不再赘述。

根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。

根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,存储器中存储有可执行代码,处理器执行可执行代码时,实现结合图2的方法。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号