首页> 中国专利> 借助于贝叶斯优化方法确定技术系统的调节策略的模型参数的方法和装置

借助于贝叶斯优化方法确定技术系统的调节策略的模型参数的方法和装置

摘要

本发明涉及用于借助于贝叶斯优化方法来确定技术系统(2)的调节策略的方法,其中基于调节模型的模型参数()创建和能实施调节策略,其中为了优化调节实施以下步骤:提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数()评估技术系统(2)的调节质量;基于质量函数执行贝叶斯优化方法,以便在说明模型参数()的允许值范围的模型参数域(I)内迭代地确定具有模型参数()的模型参数组;并且根据质量函数的所属的最大后验估计值()来确定模型参数中至少一个模型参数的模型参数域(I)。

著录项

  • 公开/公告号CN113874865A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 罗伯特·博世有限公司;

    申请/专利号CN202080041182.0

  • 申请日2020-05-27

  • 分类号G06F30/27(20200101);G06N7/00(20060101);G06F111/08(20200101);G06F119/10(20200101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人杜荔南;刘春元

  • 地址 德国斯图加特

  • 入库时间 2023-06-19 13:27:45

说明书

技术领域

本发明涉及一种尤其是在使用贝叶斯优化方法的情况下为技术系统寻找出合适的调节策略的方法。尤其是,本发明涉及一种用于更有效地优化调节模型的模型参数以实现技术系统的调节策略的计算机实现的方法。此外,本发明涉及用于加速贝叶斯优化方法的实施以减少调节策略的参数化的计算开支的措施。

背景技术

用于调节或运行技术系统的调节策略或调节模型的确定视技术系统的复杂性而定是耗费的。虽然在技术系统的线性动态行为情况下可以通过经典方法确定最佳调节,但是尤其是在非线性物理系统情况下,基于物理相互关系创建或参数化相对应的调节模型是耗费的。

可替换地,可以使用所谓的强化学习来寻找出合适的调节策略。强化学习包括观察技术系统与环境之间的相互作用,并从中学习相对应的函数模型,该函数模型描述技术系统在其与环境交互时的行为。通过最小化由成本函数或质量函数说明的成本值来进行学习过程,所述成本值评估调节系统的性能以获得用于在环境中自动化地经调节地引导技术系统的调节模型的模型参数。

尤其是无模型的强化学习方法是有利的,因为不需要关于环境以及环境与系统的相互作用的知识,但是在学习过程期间系统与环境的交互时间非常长。相比之下,在传统的基于模型的方法情况下,模型结构在最初被预先给定,该模型结构基本上描述了调节系统在环境中的行为。由此可以映射出调节系统和环境之间的交互的影响。通过参数适配来适配模型结构可以简单且有效地执行。然而,传统方法具有缺点,因为选择的模型结构可能不合适,并且由此通过调节模型的优化进行参数适配并不能导致最佳结果。

与强化学习相关的调节模型的创建和优化可以结合贝叶斯优化来执行,其中质量函数被建模为高斯过程模型。这使得能够为调节模型创建一个高效的黑盒优化器,所述调节模型在其他情况下会很耗费地创建/参数化。但是,由于此类调节模型的模型参数的数量众多,因此优化非常复杂,从而大量的测量过程是必要的,并且由于测量数据量大,长训练时间成为规则。

发明内容

根据本发明,提供了根据权利要求1的用于借助于贝叶斯优化方法来确定技术系统的调节策略的方法以及根据并列独立权利要求的相对应的装置、调节系统和调节方法。

在从属权利要求中说明了进一步的构型方案。

根据第一方面,提供了一种借助于贝叶斯优化方法来确定技术系统的调节策略的方法,其中基于调节模型的模型参数创建和能实施调节策略,其中为了优化调节实施以下步骤:

- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数评估技术系统的调节质量;

- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数的允许值范围的模型参数域内迭代地确定具有模型参数的模型参数组;并且

- 根据质量函数的所属的最大后验估计值来确定模型参数中至少一个模型参数的模型参数域。

创建调节模型以对调节系统的调节进行建模。调节模型定义了一种调节策略并表示一种函数关系,利用该函数关系可以基于调节的一个或多个输入参量来计算操纵参量。输入参量中至少一个输入参量在此对应于要调节的技术系统的状态参量。

可以通过多种方式预先给定调节模型的形式。因此,调节模型可以包含基于物理定律的公式关系,例如运动方程、振动方程、阻尼行为等。调节模型也可以基于自由选择的公式关系。公式关系通常必须考虑技术系统的非线性行为。

用于确定调节模型的贝叶斯优化方法与技术系统迭代地应用不同的调节策略,并以有效的方式优化调节。在此,质量函数借助于高斯过程回归建模,以便将系统模型的性能建模为调节模型的模型参数的函数,其中高斯过程回归基于有噪声的状态参量来创建。基本上,问题涉及寻找出一种将系统状态映射到输入参量向量上的调节策略。为此,基于状态参量向量(来自多个状态参量)和输入参量向量(来自多个输入参量)在预定时间范围内评估取决于调节策略的模型参数的质量函数(成本函数)。

一般在应当最小化未知函数

在某些假设条件下,例如未知函数的连续性,可以在函数模型中用高斯过程回归来近似未知函数。为此,在多个评估点

优化未知函数

代替这种方案,使用高斯过程来选择新的评估点。为此,将用于评估未知函数的新评估点选择为,使得由此一方面改进了模型,从而降低了质量函数的估计期望值的不确定性。为此,通常在未知功能尚未被评估(Exploration(探索))的区域中选择评估点。另一方面,将用于评估未知函数的新评估点选择为,使得尽可能快地或以在评估点处的少量测量来实现最小化函数的目标。为此,优选基于高斯过程(Exploitation(采用))承诺低函数值的评估点。这两个对立的标准由所谓的获取功能来权衡。

获取函数使用通过高斯过程模型描述的质量函数的参数,例如期望值

根据上述方法,将贝叶斯优化方法用于通过最小化最初未知的质量函数来寻找出调节策略的模型参数。目标是以这样一种方式创建调节模型,即技术系统的行为尽可能精确地符合希望的规范。如有必要,质量函数可以根据调节系统的性能根据相应的模型参数被不断更新。为了更新质量函数,需要对相应模型参数进行评估,这使得有必要在真实环境中利用相应的模型参数来运行调节系统。由于需要实际运行调节系统,通过不断要更新的质量函数来改进成本评估变得非常耗费。因此,值得希望的是,在实际技术系统处尽可能地将测量过程的数量最小化。

分别在一个或多个测量过程之后,可以利用最近测量的模型参数和结果得到的成本来更新质量函数,并且可以选择一组新的测试模型参数,在其中评估质量函数的参数的预先给定的采集函数被最小化或最大化。预先给定获取函数,以便在权衡探索和采用的情况下通过最小化/最大化来确定新的测试模型参数组。在根据本发明的方法的上下文中,探索意味着为了选择新的测试模型参数优选可能的模型参数空间的如下区域,在所述区域中成本尚未通过先前的测量过程进行评估。在根据本发明的方法的上下文中采用意味着通过测量过程为下一次成本评估选择模型参数组,该模型参数组被估计为一组最佳的模型参数。

上述方法的思想在于,在先前受限的优化域中借助于贝叶斯优化方法来确定调节模型的模型参数。虽然在传统的贝叶斯优化方法情况下不容易确定各个模型参数的在其中应当执行对调节策略的搜索的模型参数域,使得以更有效的方式、即利用更少数量的评估过程/测量来实施优化,但是可以根据来自最初实施的系统识别的先前确定的最大后验估计值(MAP估计)来确定模型参数的用于其优化的值范围。

这样,用于质量函数的贝叶斯优化的模型参数域可以自动缩小,即无需手动地预先给定模型参数的值范围,从而可以显着减少用于优化的测量过程的数量。

此外,参数回归模型可以将输入参量向量和系统状态映射到随后的系统状态上,并且尤其是可以被相应地训练以获得加权矩阵。

此外,模型参数可以借助于用于 LQR 调节器的 AB 学习方法来确定,其中针对至少一个最大后验估计值分别确定不确定性度量,其中至少一个模型参数的值范围被规定在最大后验估计值周围。

除了最大后验估计值之外,还可以确定最大后验估计值的不确定性度量,并且所述不确定性度量允许确定所分配的模型参数的相应值范围的大小。这使得能够单独适配模型参数的优化的搜索范围,即将受高度不确定性影响的模型参数的搜索范围规定为大于受较低不确定性影响的模型参数的情况。

可以规定,借助用于 LQR 调节器的 K 学习方法来确定模型参数,其中至少一个模型参数的值范围被规定在最大后验估计值周围。

此外,在最大后验估计值周围以如下度量确定至少一个模型参数的值范围,所述度量被确定为0 和 1 之间的预先给定的因子与相关最大后验估计值的乘积。

根据另一实施方式,优化方法可以以通过对先验平均值函数最小化得出的初始模型参数开始,其中所述技术系统的非参数近似模型被训练来获得先验平均值函数。

根据另一方面,提供了一种借助于贝叶斯优化方法来确定技术系统的调节策略的装置,其中基于调节模型的模型参数创建和能实施调节策略,其中所述装置被构造用于为了优化调节实施以下步骤:

- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数评估技术系统的调节质量;

- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数的允许值范围的模型参数域内迭代地确定具有模型参数的模型参数组;

- 根据质量函数的所属的最大后验估计值来确定模型参数中至少一个模型参数的模型参数域。

根据另一方面,提供了一种具有技术系统和用于调节技术系统的调节单元的调节系统,其中在调节单元中实现用于根据技术系统的状态参量来提供输入参量向量的调节模型,其中设置模型创建块以便基于在优化块中实施的贝叶斯优化方法来确定调节模型的模型参数,其中基于调节模型的模型参数创建和能实施调节策略,其中为了优化调节实施以下步骤:

- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数评估技术系统的调节质量;

- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数的允许值范围的模型参数域内迭代地确定具有模型参数的模型参数组;

- 根据质量函数的所属的最大后验估计值来确定模型参数中至少一个模型参数的模型参数域。

附图说明

下面根据附图更详细地解释实施方式。其中:

图1示出了具有调节单元和待调节的技术系统的调节系统的示意图;和

图2是流程图,用于说明借助强化学习方法创建调节模型的方法。

具体实施方式

图1示出了构造用于调节技术系统2的自适应调节系统1的示意图。技术系统2例如可以是机动车辆的内燃机或其子系统。调节单元 3 用一系列输入参量

借助于作为技术系统2的一部分的一个或多个传感器21,可以检测一个或多个测量参量

输入参量

在一个实施例中,调节单元3被用于调节作为技术系统的内燃机。为此,可以将节气门位置、燃料输送和/或类似的作为输入参量预给定到节气门执行器或喷射阀的操控装置,并且接收相对应的状态参量,例如转速、负载、发动机温度。

在一个实施例中,调节单元3被用于调节作为技术系统2的至少部分自主的机器人,尤其是至少部分自主的机动车辆。传感器21可以是例如优选地布置在机动车辆中的一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个LiDAR(激光雷达)传感器和/或一个或多个位置传感器(例如 GPS)。替代地或附加地,传感器21还可以包括确定关于技术系统(机动车辆)的状态的信息的信息系统,例如确定机动车辆附近的当前或未来天气状态的天气信息系统。

在另一实施例中,调节单元3被用于调节作为技术系统的机动车辆中的功能。为此,可以将加速踏板位置、以手腕力矩或转向位置为形式的转向干预、诸如周围对象的位置的环境信息、制动干预和/或类似的预先给定为输入参量并且接收相对应的状态参量,所述状态参量说明机动车辆的驾驶行为,例如车速、转弯位置、与周围对象的距离等。

调节单元3可以利用多个测量参量

可替代地,至少部分自主的机器人还可以是另一移动机器人(未示出),例如通过飞行、游泳、潜水或步行来移动的机器人。移动机器人还可以是例如至少部分自主的割草机或至少部分自主的清洁机器人。

在另外的替代方案中,至少部分自主的机器人还可以是家用电器(未示出),尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机。利用传感器21、例如光学传感器,可以检测用家用电器处理的对象的状态,例如在洗衣机的情况下,位于洗衣机中衣物的状态。然后可以利用调节单元3来确定该对象的类型或状态并且通过测量参量

在另一实施方式中,调节单元3可用于操控生产系统的生产机器(技术系统3),其方式是控制该生产机器的致动器22通过输入参量被操控。生产机器11可以是例如用于冲压、锯切、钻孔、铣削、车削和/或切割的机器。

传感器21则可以是例如检测生产产品的特性的光学传感器。可能的是,控制生产机器的致动器32根据生产产品的所确定的特性被操控,从而生产机器相对应地实施该生产产品的后续处理步骤。还可能的是,传感器31确定由生产机器处理的生产产品的特性,并据此针对后续生产产品来适配对生产机器的操控。

调节单元3的调节遵循调节策略。调节策略应当通过动态过程来适配,使得系统行为在质量函数方面变得最佳。为此,实施优化方法,即调节策略所基于的调节模型的模型参数优化为使得对经调解的技术系统2的性能进行优化。为此,在模型创建块 4 中创建调节模型(动态模型),该调解模型是调节单元 3的调节策略的基础。模型创建块 4 基于在优化块 5 中实施的贝叶斯优化方法确定调节模型的模型参数。这基于在质量函数块 6 中确定或预给定的预给定质量函数进行。

在进一步优选的实施方式中,调节单元3、模型创建块4、优化块5和成本函数块6在计算单元中实现。计算单元包括控制设备 2、一个或多个处理器和至少一个机器可读存储介质,指令存储在所述机器可读存储介质上,所述指令当其在处理器上实施时促使所述计算单元实施根据本方法的发明。

技术系统2对应于动态系统,该动态系统借助于调节单元3以合适的调节策略以优化的方式被调解,所述调节策略应当相对应地借助于贝叶斯优化方法来创建。贝叶斯优化方法用于确定调解模型,其方式是在优化方法期间迭代地应用各种测试模型参数组来调解技术系统2并基于结果得到的状态参量来适配模型参数。在此,质量函数借助于高斯过程回归来建模,通过所述高斯过程回归,技术系统的调解性能被定义为模型参数的函数。调节的性能从预给定的质量标准中得出,该质量标准将调节的品质分配给结果得到的状态参量。状态参量具有容差,使得质量函数优选地通过高斯过程回归创建。

基本上,该问题涉及寻找出一种调节策略,该调解策略将系统状态

其中

贝叶斯优化方法用于通过最小化质量函数来寻找到调节策略的优化模型参数

因此,质量函数因此提供了在时间窗口

可以借助于 LQR 调节器实施对调节的创建,所述LQR调节器需要待调节系统的线性动态模型。该 LQR 调节器可以通过反馈矩阵 K 来描述,而反馈矩阵的元素可以作为模型参数完全或部分地针对优化被适配。

下面假设,调节策略对应于

线性调节策略所具有的优点是,它们与其他调节模型相比具有少的维度。此外,线性调节策略使其能够以简单的方式在调节器中实现并且从而提高贝叶斯优化的效率。

结合贝叶斯优化,可以使用线性二次调节器,即所谓的 LQR 调节器,如在创建调节策略的领域中已知的那样。在 LQR 调节器情况下,测量过程中的系统行为和与环境的交互通过具有一组变化的输入参量向量和结果得出检测的状态参量向量的受控运行来确定。在此,系统动态性根据

被线性化,并且成本相应地被乘方

通过这些近似,可以在模型创建块 4 中创建 LQR 反馈矩阵,该矩阵表示动态模型并且一般地称为

可替代地,在没有矩阵 Q 和 R(加权矩阵)的反馈矩阵 K 中可以假设为要优化的模型参数。在此,仅适配具有以下形式的权重矩阵的对角线项就足够了:

其中

根据模型参数与上述矩阵的从属关系,这些方法被称为K学习(K-Learning)、AB学习(AB-Learning)和QR学习(QR-Learning)。在贝叶斯优化情况下,必须充分关于质量函数的长度尺度覆盖参数空间,以便找出优化的模型参数的良好估计。

然而,在没有先验知识的情况下,很难为优化选择各个模型参数的值范围,即模型参数域。然而,这对于没有过多数量的测量过程的有效优化方法来说是重要的。因此,上述方法规定选择模型参数的合适的搜索范围,从而可以减少测量过程的数量。这尤其是在高维的情况下是必要的,因为在那里不容易手动设置模型参数中每一个模型参数的值范围。因此,模型参数的值范围首先通过学习动态模型上的分布来确定,并且然后使用该分布来选择模型参数中每个模型参数的值范围。该分布通过贝叶斯线性回归通过状态参量向量和输入参量向量的所记录的数据值来获得,以便获得系统动态性的近似线性模型。这导致模型上的高斯分布

其中

在选择模型参数取值范围之后,可能的是,在某些维度中模型参数的值范围选择过于保守。例如,如果缩放参数 ß 太小或由于模型偏差,就可能发生这种情况。因此可能发生的是,最优模型参数向量并不位于所选择的模型参数域内。因此,模型参数域可以在优化期间动态地适配。

在贝叶斯优化的过程期间,存在对模型参数值的最优值的估计,即在当前的模型参数域中近似质量函数的最小值。如果从贝叶斯优化得出所估计的最优值的位置位于模型参数域的范围边界处,则更好的模型参数有可能位于当前模型参数域之外。因此提出,对其值位于模型参数域的边界处的模型参数的值范围进行扩大。模型参数域的这种动态适配可以通过不同方式实施。

模型参数的值范围的适配使得能够从有限的值范围出发,在优化期间仅针对模型参数向量的那些优化满足模型参数域的边界范围的维度来动态适配所述值范围。由此,可以整体上更有效地进行优化,从而显着改善收敛性。此外,可以更好地补偿潜在的模型误差,从而经优化的系统模型变得性能更高。通过改善效率,可以将贝叶斯优化缩放到高维调节策略。

为了与模型参数组有关地创建针对调节系统的性能的质量函数,首先提供数据

因此,初始高斯过程模型被训练为质量函数,该初始高斯过程模型以一定代价映射测试模型参数

其中 K 对应于协方差矩阵,其中

因此,高斯过程模型既提供了预期值,即成本 J,又提供了该预期值的不确定性。

现在可以由此确定初始模型参数域,因为在没有先验知识的情况下很难为优化选择各个模型参数的值范围,即模型参数域。选择合适的模型参数域对于没有过多数量的测量过程的有效优化方法来说是重要的。在步骤S3中,因此为模型参数选择合适的搜索范围,从而可以减少测量过程的数量。这在高维的情况下尤其必要,因为在那里不容易手动调整模型参数中每个模型参数的值范围。因此,基于先前训练的高斯过程模型来确定模型参数的值范围,并且随后使用该分布来选择模型参数中每个模型参数的值范围。

该分布通过贝叶斯线性回归通过状态参量向量和输入参量向量的所记录的数据值获得,以便获得系统动态性的近似线性模型。这导致模型上的高斯分布

其中

图1的装置1还包括优化单元22。优化单元22可以设置在控制设备2中,或者可替代地与控制设备2分开地设置。优化单元22的目的是为调节器21确定调节模型,通过该调节模型可以调节动态技术系统3。为此,优化单元22执行迭代优化方法,通过该迭代优化方法创建调节模型,其方式是对质量函数进行最小化。质量函数的最小化可以表达为:

其中初始条件通过

得出上述最小化问题的近似静态解,其中最后提到的方程对应于时间离散代数Riccati 方程 (DARE),其可以有效地根据

最后提到的方程的解在调节理论中已知为 LQR 调节器(LQR:线性二次调节器)。由于系统动态性的线性近似,LQR 调节器的建模通常导致不令人满意的结果,所述系统动态性的线性近似通常只是在工作点附近的足够精确的近似。

下面应基于贝叶斯优化方法执行调节策略搜索。所述贝叶斯优化方法规定了高斯过程回归。高斯过程回归是对先验未知函数

假设 n 个有噪声的观察值:

其中

并且对称 Gram 矩阵

高斯过程回归被用于对技术系统 2 的行为建模并评估其最优性。由调节器和技术系统2构成的装置的行为由质量函数表示,该质量函数表示模型参数与基于由模型参数定义的调节策略所调节的技术系统的结果得到的成本之间的函数关系。然后应用贝叶斯优化方法来优化质量函数。该质量函数在分析上是不可能的,并且因此必须反复执行。因此,用于优化的耗费应限制于尽可能小的迭代次数。

迭代对应于将调节策略应用到实际的技术系统2的测量过程,所述调节策略由要考虑的模型参数

在每个测量过程之后,通过最大化获取函数

对于贝叶斯优化,仅评估通过测量过程所运行的技术系统的整体行为,而通常丢弃轨迹数据或进程数据。对于借助于贝叶斯线性回归的系统识别,可以高频采样状态参量,以获得待估计模型的不确定性度量。

在经典参数回归情况下假设模型

假设噪声遵循精度(反方差)为

其中n对应于数据点的数量,

权重 w 的最大后验估计值(MAP 估计)对应于后验分布的平均值,即

调节模型的确定通过强化学习进行,以便借助于贝叶斯优化方法确定线性状态反馈控制器的参数化。

下面提出了用于加速优化过程的收敛的措施。

作为初步假设,假定非线性技术系统 2 被线性模型逼近,并且使用贝叶斯优化方法来优化系统矩阵

该方法称为AB学习方法。

可替代的学习方法是所谓的K学习方法,其中直接优化成反馈增益矩阵。这里,调节模型对应于

根据图2的流程图,现在借助于贝叶斯优化方法来描述用于创建调节模型的方法。

在步骤S1中,首先确定MAP加权矩阵

最大后验估计(MAP 估计)对应于权重

使用贝叶斯线性回归的优点在于,所述贝叶斯线性回归不仅接收到平均值

在步骤S2中,确定调节模型的待确定模型参数的值范围。贝叶斯优化必须也在质量函数的长度尺度方面尽可能充分地覆盖模型参数的值范围。先验地,通常很难确定为了实现良好的调节行为必须在哪些值范围中优化模型参数、即矩阵 K 的项。

为此,借助来自步骤 S1 的系统识别的 MAP 估计值

对于AB学习过程,从矩阵K的MAP估计值

其中 i 可以优选地假定在 1 和 4 之间,尤其是假定为 2。

因此,在贝叶斯优化方法期间,具有更高不确定性的模型参数被分配了更大值范围用于优化,并且相反地,被良好识别的模型参数、即具有低不确定性的模型参数被分配了更小的值范围。

在 K 学习方法情况下,借助于 LQR 调节器为估计系统构建值范围:

调节模型的模型参数的值范围可以在此情况下设置在0与相应模型参数的MAP估计值的两倍之间

一般来说,可以预给定调节模型的模型参数的值范围:

其中

在步骤S3中,确定先验平均值函数。这使用技术系统 2 的近似模型来确定技术系统 2 的简单模拟器。该模拟器用于估计质量函数的形式。技术系统2的近似模型例如借助于高斯过程基于几个测量点来确定。为此使用的测量点的数量可以在 10 到 100 之间。然后可以例如通过高斯过程回归构建成本的近似先验平均值函数。

然后在步骤S4中通过最小化先验平均值函数来确定初始的模型参数

借助初始的模型参数

随后,在步骤 S6 中,在考虑最后确定的数据对

借助于当前模型参数

然后,在步骤S8中,将最后确定的数据对添加到训练数据中

然后在步骤S9中检查终止标准,该终止标准例如说明是否已经实现调节模型的足够性能或者是否存在足够的收敛。如果满足终止标准(二选一:是),则该方法以步骤S10结束,否则(二选一:否)系统跳回到步骤S6。

在步骤S10中,最后确定的模型参数被应用于调节策略。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号