首页> 中国专利> 用于机器状况监视的条件多输出回归的系统和方法

用于机器状况监视的条件多输出回归的系统和方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及用于机器状况监视的条件多输出回归的系统和方法。一种用于预测传感器监视系统的传感器输出值的方法，包括：提供去往传感器系统的测试输入值的集合，以及来自所述传感器系统的一个或多个已知传感器输出值，其中，其他传感器输出值是未知的；根据测试输入值和已知输出传感器值，针对每个未知传感器输出值计算预测高斯分布函数；以及通过关于测试输入值和其他未知输出传感器值对预测高斯分布函数与未知输出传感器值的条件高斯分布的乘积进行积分，来预测每个未知输出

著录项

公开/公告号CN102445902A

专利类型发明专利
公开/公告日2012-05-09

原文格式PDF
申请/专利权人西门子公司;
展开▼

申请/专利号CN201110301575.3
发明设计人袁超;
展开▼

申请日2011-09-30
分类号G05B13/04;
代理机构中国专利代理(香港)有限公司;
代理人马永利
地址美国新泽西州
入库时间 2023-12-18 04:59:56

法律信息

法律状态公告日

法律状态信息

法律状态
2018-09-18

未缴年费专利权终止 IPC(主分类):G05B13/04 授权公告日:20160210 终止日期:20170930 申请日:20110930

专利权的终止
2016-02-10

授权

授权
2013-04-24

实质审查的生效 IPC(主分类):G05B13/04 申请日:20110930

实质审查的生效
2012-05-09

公开

公开

说明书

相关美国申请的交叉引用

本申请要求保护Chao Yuan于2010年9月30日提交的美国临时申请No. 61/388,127 “Conditional Multi-Output Regression For Machine Condition Monitoring”的优先权，其内容通过参考整体并入此处。

技术领域

本公开涉及用于基于传感器输出来监视机器的状况的方法。

背景技术

近年来，监视昂贵设备或机器（如发电厂或飞机）的状况已经受到越来越多的关注。目的是在早期阶段检测到这些机器的故障以避免后续灾害性损失。这可以通过对来自在机器的不同部件中安装的一组传感器的值进行分析而实现。当传感器值之间的相关性被破坏时，很可能存在故障。对这种相关性进行建模的一个重要方面是基于过程输入来准确地预测过程输出的能力。这自然形成了多输出回归，该多输出回归旨在学习从输入空间至M维输出空间的映射。

多输出回归旨在学习从输入空间至M维输出空间的映射。考虑到输出通常彼此依赖的事实，先前的研究集中于对输出的联合预测分布或相关性进行建模。然后，可以将所学习的联合预测分布应用于各种各样的问题。

以下条件多输出回归得到了关注。对于测试输入，如果另外知道一些输出，则可以如何使用该额外信息来改进对其余输出的预测？例如，在一地理位置处，给定了测量起来不太昂贵的金属的浓度，那么可以估计别的金属的浓度吗？在金融市场中，公司A的盈利报告有助于更好地预测公司B的盈利报告吗？在许多现代监视系统中，将传感器值从机器实时传送至诊断中心。但是，由于网络问题，使得这些传感器值通常是顺序地到来的而不是同时到来的。

这些可用传感器值可以用于帮助预测其他丢失的传感器值吗？如果输入是输出的马尔科夫毯（Markov blanket），例如在其中存在以输入x为条件的两个输出y₁和y₂的图1（a）中，这样做没有优势。这是由于在给定x的情况下y₁和y₂是条件独立的，从而P( y₁| x, y₂) = P( y₁|)。因此，使用另一输出y₂作为输入没有帮助。然而，如图1（b）所示可以隐藏某些输入，其中，从未观察到输入z。这是更现实的情形，原因在于测量实际数据集中的所有输入是富有挑战性的。在这些情况下，y₂携带关于丢失的z的信息并被期望在用作输入的情况下改进对y₁的预测。

先前的方式通常通过基于已知输出的联合预测分布从已知输出有条件地推断未知输出来解决该任务。然而，学习联合预测分布是相当富有挑战性的，尤其是在回归映射为非线性时。由于多输出回归可以被视为多任务学习的特殊情况，因此当回归任务共享相同输入时，许多多任务技术也适用于多输出回归任务。然而，这些技术中的大多数集中于在M个单输出任务之间共享表示和参数。在预测中，所有单输出模型独立工作而不考虑其相关性。

发明内容

这里描述的本发明的示例性实施例一般包括用于条件多输出回归的方法和系统。根据本发明实施例的方法包括两个模型。在根据本发明实施例的条件模型中，给定了M个输出，每个输出依赖于输入和所有其他M-1个输出。通过这样做，其他输出可以被视为与输入相同，并且因此可以将原始多输出任务分为更简单的单输出任务。如果所有其他M-1个输出是已知的，则该条件模型单独给出对目标输出的预测。否则，根据本发明实施例的生成（generative）模型可以用于基于输入来推断未知输出，并且然后将不确定性传播至条件模型以进行最终预测。注意，术语“条件”和“生成”所针对的是输出而不是输入。

根据本发明实施例的框架是非常普通的。根据本发明的其他实施例，可以在条件模型中使用各种现有回归技术。根据本发明的其他实施例，甚至更宽范围的算法也可以用于生成模型，只要这些算法提供了针对它们的预测的误差棒。

根据本发明的一方面，提供了一种用于预测传感器监视系统的传感器输出值的方法，包括：提供去往传感器系统的一个或多个测试输入值的集合，以及来自所述传感器系统的一个或多个已知传感器输出值，其中，其他传感器输出值是未知的，根据测试输入值，针对每个未知传感器输出值计算预测高斯分布函数

其中，维数为d的向量x表示测试输入值，维数为M的向量y_U表示未知输出传感器值的集合，y_my_U，是由训练阶段确定的集合y_U的均值的向量，是由训练阶段确定的集合y_U的对角协方差矩阵；以及根据，预测每个未知输出y_m，其中，向量y_O表示已知传感器输出值，向量表示y_U中除y_m之外的未知输出传感器值，并且是由定义的条件高斯分布，其中，C= -(0.5d)log(2π) ，并且K是在测试输入值对x_i, x_j之间定义的N×N核矩阵，其中，N是其元素K_i,j是由高斯核函数定义的测试输入值的数目，其中，，其值λ_i由另一训练阶段确定。

根据本发明的另一方面，针对每个未知输出y_m的预测高斯分布函数P(y_m|x)是通过关于超参数=最大化来训练的，其中，Y_m是传感器输出值的维数为M的N_m个训练样本的集合，其与传感器输入值的N个训练样本的集合X_m相对应。

根据本发明的另一方面，使用共轭梯度方法来最大化。

根据本发明的另一方面，条件高斯分布是针对输入值X和输出值Y的训练集合通过关于超参数 = 最大化来训练的，其中，是表示除y_m之外的所有输出的训练集合的(M-1)×N矩阵，其中，高斯核函数，其中，z是将向量xX和进行组合的(d+M-1)输入向量。

根据本发明的另一方面，该方法包括：当输出值的集合Y_m中存在N-N_m个丢失值时，针对Y_m中的每个丢失值对来自预测高斯分布P( y_m| x)的多个输出值进行采样，以及关于超参数最大化多个采样值的平均值，其中，T是针对Y_m中的每个丢失值的多个采样值的数目，其中，Y_m中的每个丢失值被采样值代替。

根据本发明的另一方面，该方法包括：重复计算直到收敛为止，其中，每个Q⁽¹⁾(y_m)被初始化为。

根据本发明的另一方面，提供了一种计算机可读的程序存储设备，有形地体现了所述计算机可执行的指令的程序，以便执行用于预测传感器监视系统的传感器输出值的方法步骤。

附图说明

图1（a）-（b）图示了根据本发明实施例何时可以将输出用作额外输入。

图2（a）-（b）以图形方式表示了根据本发明实施例的建模框架。

图3是根据本发明实施例的用于条件多输出回归的迭代方法的流程图。

图4是根据本发明实施例的对Jura数据集的三个测试的主要变量和辅助变量的表。

图5是根据本发明实施例的归纳式设置下对于Jura数据测试的不同方法的MAE结果的表。

图6是根据本发明实施例的直推式设置下对于Jura数据测试的不同方法的MAE结果的表。

图7示出了根据本发明实施例的Puma560测试中的不同方法的标准化MSE结果。

图8（a）-（b）图示了根据本发明实施例的卡车数据测试。

图9是根据本发明实施例的用于实现用于条件多输出回归的方法的示例性计算机系统的框图。

具体实施方式

这里描述的本发明的示例性实施例一般包括用于条件多输出回归的系统和方法。相应地，虽然本发明可具有各种修改和备选形式，但在附图中以示例的方式示出了本发明的具体实施例并且这里将详细描述这些具体实施例。然而，应当理解，并不意在将本发明限于所公开的特定形式，而是相反，本发明应当涵盖落在本发明的精神和范围内的所有修改、等同物和备选方案。

模型：

标准多输出回归可以学习从输入至输出的映射P(y|x)。在根据本发明实施例的条件多输出回归中，附加地给出了一些所观察的输出y_O。根据本发明实施例，期望预测y_m，其余未知输出y_U中的每一个：

P( y_m| x, y_O) (1)

O和U二者均为索引集合，从而形成全索引集合的分区。等效地，具有y = { y_U, y_O}。在本文中以下可以使用标记来表示不包括m的索引集合U。因此，表示y_U中除y_m之外的所有输出。类似地，指示不包括m的全索引集合，使得。注意，对于回归（相对于密度估计），不需要计算P( y_U| x, y_O)的预测联合分布（或考虑输出y_U之间的预测协方差），这是由于回归的目的是给出每个y_m的与其基本（ground）真值接近的估计。

在在先单个生成模型中，学习联合预测分布P(y|x) ，这解决更一般的任务。一旦已知P(y|x)（例如，多元高斯分布），就可以直接导出P( y_U| x, y_O)的全联合预测分布。然而，学习P(y|x)是相当富有挑战性的。在没有稀疏逼近的情况下，流行的在先方法需要难以应付的复杂度O(M³N³)，并且所学习的分布通常是不准确的。

提出以下问题是有吸引力的：可以仅使用标准回归算法来解决该回归任务吗？直接的方式是在训练期间学习针对每个P( y_m| x, y_O)的回归模型。然而，由于事先不知道哪些输出将在测试期间未知或可用，因此在训练期间需要考虑所有可能的情形。这需要总共M×2^M-1个预测器，随着M的增大，这很快会变得难以处理。

根据本发明实施例，两模型框架将原始多输出回归任务变换为2M个单输出回归任务。具体地，为了预测每个未知输出y_m，其中mU，对其他未知输出执行贝叶斯积分：

(2)。

在根据本发明实施例的条件模型中，直接对等式(2)的被积函数中的第一因子进行建模。指定了总共M个条件概率，其中，每个输出y_m以输入x和其余输出为条件。

在根据本发明实施例的生成模型中，对等式(1)的被积函数中的第二因子进行建模。生成模型用于推断其他未知输出。然后通过贝叶斯积分将其他输出的不确定性传播至条件模型，以进行最终预测。

给出联合预测分布的先前生成方式是根据本发明实施例的生成模型的直接候选。然而，由于上述限制，考虑了独立生成模型，其中，在给定了输入的情况下，所有输出是独立的。等式(2)的被积函数中的第二部分现在变为：

. (3)

在等式(3)的右侧省略了y_O，这是由于在给定了输入x的情况下其独立于。因此，根据本发明实施例的生成模型包括M个回归预测器，每个都根据输入来预测输出。这在计算上比完全生成模型更高效。如将要示出的，即使利用这种简单模型，根据本发明实施例的方法也可以实现显著的性能改进。此外，根据本发明实施例的迭代算法使用该简单生成模型作为对的初始逼近，并通过迭代来改善该逼近。

图2（a）-（b）以图形的方式表示了根据本发明实施例的框架，其中，箭头指示依赖性。在图2（a）所图示的根据本发明实施例的条件模型中，对每个输出对于输入和其余M-1个输出二者的依赖性进行建模。在图2（b）所图示的根据本发明实施例的生成模型中，仅对每个输出对于输入的依赖性进行建模。

根据本发明实施例，将高斯过程用作2M个回归任务中的每一个的基本预测器。给定了分别包含对于输入x和输出y的N个样本的训练数据X和Y，为了学习从x至y的映射，高斯过程假定Y具有以下高斯分布：

, (4)

其中，Y是输出训练样本的N维向量，X是d维输入训练样本x_i的向量，其中，i=1、……、N，I是单位矩阵，并且是预测噪声方差。这里考虑的核矩阵K是N×N矩阵，其包括输入对x_i和x_j之间的高斯核函数：

, (5)

其中，包括平方长度尺度，允许每个输入维度的自动相关性确定，以预测输出y_m。因此，高斯过程的超参数是。

一般地，P( y| x)的高斯形式可以被写为：

(6)

其中，和是由训练过程确定的恒定参数。

一旦已经学习了根据本发明实施例的条件模型和生成模型，就可以估算等式(2)。使用高斯核函数的该选择有益于允许以分析的方式估算等式(2)。在本发明的其他实施例中可以使用多种其他概率回归算法，只要它们使用使贝叶斯积分易于处理的高斯核函数即可。这种技术的示例性非限制性列表包括相关向量机、贝叶斯支持向量回归和高斯过程。

训练：

存在总共2M个高斯过程要学习，其中，M个过程用于根据本发明实施例的生成模型，并且其他M个过程用于根据本发明实施例的条件模型。对模型进行训练分为对2M个高斯过程预测器中的每一个进行独立训练。假设存在针对输入的N个训练样本，由表示，以及针对输出y_m的N_m个训练样本，由表示。每个Y_m与由表示的N_m个输入训练样本相对应，其中。

可以考虑两种情况。在第一种情况中，训练数据是完整的：对于所有输出，X_m=X和N_m=N。换言之，对于每个输入样本x_n以及对于每个输出y_m，存在对应的训练样本y_m,n。因此，所有输入和输出训练数据形成(d+M)×N矩阵。在第二种情况中，训练数据包含丢失的条目（entry）：一些输出y_m可以仅与其特定输入训练集合X_m相对应而不是与公共输入训练集合X相对应。在这种情况中，Y_m的大小或者N_m < N。这等效于以下说法：在Y_m中存在N-N_m个丢失值。

A. 训练生成模型

对于根据本发明实施例的生成模型，学习用于预测输出y_m的高斯过程等效于学习最大化以下对数似然的超参数向量：

, (7)

其中，协方差矩阵K包含θ并且C是常数项。根据本发明实施例，C=-(0.5d)log(2π)，其中，d是输入样本的维数。根据本发明实施例，可以使用共轭梯度方法来搜索θ。

B. 训练条件模型

根据本发明实施例，第一种情况假定训练数据是完整的(X_m = X)。在条件模型中，每个预测器具有要被最大化的新对数似然：

(8)

其中，是(M-1)×N矩阵，表示除y_m之外的所有输出的训练集合。等式(8)与等式(7)非常相似，除了使用了将x和进行组合的新(d+M-1)维输入向量z之外。因此，在对应的和中存在d+M-1个长度尺度。这里，可以由等式(6)的高斯形式表示，具有高斯核，其中，。

根据本发明实施例，第二种情况考虑了丢失的数据。在这种情况中，对于某个输出y_m，在Y_m中存在N-N_m个丢失值。根据本发明实施例，可以使用已经学习的生成模型来对这些丢失条目进行采样。具体地，对于每个Y_m中的每个丢失条目，根据生成模型的对应预测分布可以用于对值进行采样并将其置于Y_m中的丢失位置处。重复这种采样T次。T的示例性非限制性值是10。现在，存在T个输出训练数据集合，每一个都由表示，其中，t = 1, 2, …; T。每个现在包含N个值。我们还使用来表示不包括的第t个输出训练数据集合。现在，利用来自T个采样回归问题的平均循证（evidenece）项来最大化对数似然：

. (9)

高斯过程具有训练复杂度O(N³)。训练2M高斯过程具有总成本O(MN³)，这明显比先前生成方式所需的O(M³N³)更小，但对于较大的N可能仍然较高。根据本发明实施例，各种稀疏高斯过程可以实现更小的训练复杂度O(N)，这可以代替在根据本发明实施例的模型中使用的高斯过程。这种技术的示例性非限制性列表包括稀疏在线（online）高斯过程、稀疏贪婪高斯过程回归和使用伪输入的稀疏高斯过程。

预测：

A. 一遍（one-pass）算法

在预测中，给定测试输入x和附加已知输出y_O，任务是使用等式(2)来预测每个未知y_m。根据本发明实施例，首先根据生成模型来计算对于所有未知输出y_U的预测分布：

(10)

这是均值为且对角协方差矩阵为的高斯分布，其可以由训练过程确定。等式(10)具有由于独立假定而得到的因式分解形式。其次，进而使用等式(2)来预测每个未知输出y_m。将在下一部分中描述如何以分析的方式执行贝叶斯积分的问题。

备选地，可以简化等式(10)，使得每个y_m的分布收缩至以下点：

(11)

delta函数δ( )可以被视为概率密度函数，其中。如果，则将其定义为；并且否则，将其定义为。这等效于假定等式(10)中的高斯分布的所有方差归于零。在这种情况下，等式(2)仅为，它是均值为的高斯分布。

B. 迭代算法

如果上述一遍算法的结果P( y_m| x, y_O)被视为对来自生成模型的预测分布P( y_m| x)的改善，那么可以以迭代方式继续改善结果吗？为了实现这一点，根据本发明实施例，假定P( y_U| x, y_O)是未知的并可以被因式分解为：

. (12)

Q(y_m)是对基本真后验分布P( y_m| x, y_O)的逼近。现在可以将等式(2)写为以下迭代形式：

. (13)

Q^(l+1)(y_m)表示l+1次迭代后的结果。在第l+1次迭代中，使用第l次迭代的结果来更新所有后验分布Q(y_m)，其中mU。

可以通过设置来自生成模型的预测分布Q⁽⁰⁾(y_m) = P( y_m| x)，初始化根据本发明实施例的迭代算法。因此，第一次迭代与根据本发明实施例的一遍算法中的第一次迭代相同。在此之后，不需要生成模型。一旦算法。

图3是根据本发明实施例的用于条件多输出回归的迭代方法的流程图。现在参照该图，在步骤30处提供一个或多个测试输入值的集合以及已知传感器输出值的集合之后，根据本发明实施例的迭代算法在步骤31通过初始化来自生成模型的每个预测分布Q⁽⁰⁾(y_m) = P( y_m| x)而开始。然后，在步骤32，使用条件分布来计算。在步骤33，针对收敛将Q⁽¹⁾(y_m)和Q⁽⁰⁾(y_m)进行比较，并且，如果差不足够小，则使用右手侧的乘积中Q的先前结果，针对每个y_m重复步骤32。一旦Q^(l+1)(y_m)已经收敛，就在步骤34输出P( y_m| x, y_O) = Q(y_m)。

如果将狄拉克 delta函数用于生成模型，则将的高斯结果的方差设置为0，并且结果所得到的delta函数用于初始化等式(13)的右手侧的乘积中的Q^(l)(y_m)。在每次迭代之后重复这些，使得等式(13)的左侧的每个高斯分布变为下一次迭代中等式(13)的右侧的delta函数。

根据本发明实施例的该迭代算法实际上非常好地收敛。与需要指定变量的全联合分布（例如，以贝叶斯网络或马尔科夫网络的形式）的在先逼近推断方法不同，根据本发明实施例的方法不需要找到变量之间的实际依赖性。

存在当不已知附加输出（即，O为空）的特殊情况。在这种情况下，失去了使用条件模型（使用来自额外输出的信息）的优势。因此，在这种情形下，不期望根据本发明实施例的方法比其他生成模型执行得更好。

还存在当已知M-1个输出的无价值情况。在这种情况下，仅存在一个输出要预测，并且不存在来自其他输出的不确定性。因此，不需要生成模型，并且贝叶斯积分产生与点估计相同的结果。根据本发明实施例的迭代算法也是不必要的。

C. 贝叶斯积分

现在将解决如何以分析的方式执行等式(2)中的贝叶斯积分的问题。根据条件模型，具有以下高斯分布：

。

具体地，

, (14)

, (15)

其中，z是的组合向量，并且

(16)

z_m,i（或x_m,i、y_O,i和）所有都是已知训练数据。根据本发明实施例，假定训练数据是完整的，并且在该子部分的结束处解决丢失数据情况的情况。超参数包含对应维度的平方长度尺度，并且是噪声方差。所有这些都是在训练之后学习和固定的。等式(14)和等式(15)的结果来自标准高斯过程预测分布。和二者在训练后是常数。

根据生成模型，是另一高斯分布（见等式(10)）：

, (17)

其中，表示对角协方差矩阵。不幸的是，现在，等式(2)中的积分在分析方面难于处理，这是由于被嵌入等式(14)和(15)的核函数中。

根据本发明实施例，等式(2)可以被以下高斯分布逼近：

. (18)

这划分为在q(y_m)和等式(2)中的P( y_m| x, y_O)之间对均值和方差进行匹配。对于计算均值，在首先在y_mt上积分之后，具有

. (19)

使用这一事实，可以证明具有以下分析形式：

(20)

等式(20)意味着：如果对的预测是准确的，其中的对角线中具有小方差，则与相比，变为可忽略的，并且后验均值与等式(14)近似相同，其中，被代替。这完全是点估计情况。如果中的元素在的对应位置处具有相对较大的方差，则对应的维度在估算等式(20)中变得不那么相关，并且同时，等式(19)的整个值向0（即，在先的高斯过程均值）收缩一点。

回顾如果训练数据包含丢失的条目，则执行采样以扩大训练数据。对于T=10个采样中的每一个，获得等式(18)中的一个预测分布q(y_m)。然后对这十个结果求平均，以给出最终预测分布。

测试结果

对Jura数据集、机械臂数据集和卡车数据集进行了测试。对于所有数据集，将每个数据维度归一化为零均值和单位方差以进行训练和测试。使用了在归一化域中计算出的标准化均方误差（MSE）来估算结果。仅对于Jura数据，为了能够与现有公布的结果进行比较，使用了平均绝对误差（MAE），该MAE是在将结果非归一化为其原始尺度之后计算出的。

将以下方法进行比较（GP代表高斯过程）。最后四个是根据本发明实施例的方法。

单任务（ST）GP：该模型独立学习作为单任务的每个输出，并且该模型等效于根据本发明实施例的生成模型。

多任务（MT）GP：该模型将GP扩展至多任务工作，其对任务（输出）执行群集，并且其中逻辑回归分类器被GP代替。在预测中，每个GP独立工作。

Bonilla GP：这是在Bonilla等人的“Multi-task Gaussian Process Prediction”, Advances in Neural Information Processing Systems 20, MIT Press 2008中公开的方法的实现，通过参考将其内容整体并入此处。该方法使用单个生成模型来对所有输出的联合预测分布进行建模。具体地，所有输出训练样本由单个高斯过程来建模。然后根据已知输出来有条件地预测未知输出。Cholesky分解用于其K^f矩阵，并且不考虑稀疏逼近。

一遍CG GP：这是具有贝叶斯积分的在条件模型和生成模型二者中使用GP的根据本发明实施例的方法的一遍版本。

一遍点CG GP：这与上述方法相同，除了仅考虑了（使用delta函数的）点估计之外。

迭代CG GP：这是具有贝叶斯积分的根据本发明实施例的方法的迭代版本。

迭代点CG GP：这与上述方法相同，除了使用点估计之外。

独立训练了条件模型预测器和单生成模型预测器。可以在类似于EM的算法中进行训练。在E-步骤中，在根据本发明实施例的迭代算法中改善后验分布Q(y_m)。在M-步骤中，使用Q(y_m)来对丢失数据进行采样并学习预测器的参数。该训练方案还可以被视为直推式测试，这是由于同时训练模型和预测丢失条目。

A. Jura数据：Jura数据集（www.ai-geostats.org）包括对瑞士Jura山中的7种重金属（镉、钴、铬、铜、镍、铅和锌）的浓度的测量。存在总共359个位置，被划分为固定训练集合（259个位置）和测试集合（100个位置）。考虑了以下三个测试。每个测试根据一些辅助变量的浓度和位置处的x、y坐标来预测主要变量的浓度。对于测试1，主要变量是镉，并且辅助变量是镍和锌。对于测试2，主要变量是铜，并且辅助变量是铅、镍和锌。对于测试3，主要变量是铅，并且辅助变量是铜、镍和锌。在图4的表中显示了这些变量设置。

以归纳的方式重复了上述三个测试的第一集合，其中，仅训练集合在训练期间可用。在测试期间，给定了测试位置，使用已知辅助变量预测了主要变量的浓度。例如，在测试1中，存在d=2个输入和M=3个输出，并且在给定了测试位置和其他两个输出（镍和锌）的情况下仅存在1个输出（镉）要预测。

这是回答以上提出的问题“何时将输出用作额外输入会有意义？”的理想测试。由于训练数据不具有丢失值并且在测试阶段期间已知所有辅助变量，因此在这里不需要根据本发明实施例的生成模型。在该设置下，所有方法产生相同结果。因此，仅重新路由（reroute）根据本发明实施例的一遍CG GP的结果。图5的表示出了不同方法的MAE结果。此外，报告了在通过参考将其内容整体并入此处的P. Goovaerts的“Ordinary cokriging revisited”, Mathematical Geology, 30:21-42, 1998中公开的在同位素情形中使用协同克里格法的最佳分数。

在直推式设置（在Goovaerts中被称作非均匀情形和并置情形）下重复了上述三个测试的第二集合，其中，训练数据和辅助变量测试数据二者在训练期间均可用。任务是同时执行训练和预测测试数据中丢失的主要变量。回顾在归纳式设置下用公式表示根据本发明实施例的算法：根据本发明实施例的模型在测试期间是固定的。通过在训练期间在测试位置处移除主要变量的值以及通过模拟丢失的数据情况，在直推式设置下适配根据本发明实施例的方法。

图6的表示出了结果。该表还报告了在通过参考将其内容整体并入此处的M. Alvarez 和N. D. Lawrence的“Sparse convolved Gaussian processes for multi-output regression”, Advances in Neural Information Processing Systems 21, MIT Press, 2009中公开的来自完全卷积GP的最佳平均分，其不进行测试3并且不考虑归纳式设置。根据本发明实施例的一遍CG GP方法在归纳式测试中执行得最佳并在直推式测试中产生与来自协同克里格的分数相当的最高分。除位置的坐标以外，用于确定金属浓度的实际输入应当包括地球活动、污染和天气历史。这种丢失信息由其他输出（其他金属的浓度）携带并可以在将这些已知输出用作额外输入的情况下被恢复。

由于额外信息，大多数方法在直推式设置下比在归纳式设置下执行得更好。Bonilla GP、卷积GP和协同克里格在该数据集上非常有竞争力，并且它们都可以被视为使用高斯过程来对联合预测分布进行建模。这对该Jura数据集来说似乎是良好的生成模型。

B. 机械臂数据：使用了根据对Puma 560机械臂（www.cs.toronto.edu/~delve/data/pumadyn/desc.html）的动力学的逼真模拟而产生的数据集。代码基于由Zoubin Ghahramani编写的Pumadyn-8的MATLAB代码。具体地，考虑了四个接合点，其中，对于总共d = 4×3 = 12维输入，每个接合点具有角度、角速度和力矩。存在系统的四个输出，每个输出指示接合点的角加速度。因此，这就形成了M=4多任务问题。将不可预测性参数设置为0.3。

产生了总共1000的数据点，其被均分为训练集合和测试集合。针对训练使用了完整的训练数据，没有丢失值。因此，在训练中不进行采样。但是，已知输出的数目M_O从0变化至3。例如，当M_O = 2时，使用了输入和两个随机选择的已知输出来预测两个未知输出中的每一个。对于每个M_O和每种方法，执行总共十个随机运行。

图7示出了作为已知输出的数目M_O的函数的对于Puma560测试中的不同方法的标准化MSE结果，具有1标准偏差误差棒。在该图中，曲线为：（71）ST GP；（72）MT GP；（73）Bonilla GP；（74）一遍CG GP；（75）一遍点CG GP；（76）迭代CG GP；以及（77）迭代点CG GP。ST GP在该测试中结果是非常好的执行器。MT GP和Bonilla GP二者执行得较差，即便它们表示更先进的技术。这意味着：不同接合点处的角加速度表现得如此不同以至于对它们联合建模可能是相当富有挑战性的任务。注意，ST GP和MT GP的结果并不随M_O而改变。

在M_O = 0处，ST GP也比根据本发明实施例的方法执行得更好。这不是意料之外的，因为在这种情况下没有已知输出并且失去了使用条件模型的优点。然而，随着M_O的增大，根据本发明实施例的方法开始利用附加信息并且执行得更好。

在根据本发明实施例的方法当中，使用贝叶斯积分的那些方法（如一遍CG GP）比点估计对应方法（counterpart）（如一遍点CG GP）执行得更好。迭代方法未示出明显优于其一遍对应方法的优势。这可以归因于ST GP的良好性能，ST GP也用在根据本发明实施例的生成模型中。利用来自ST GP的良好初始化，根据本发明实施例的迭代方法应当收敛得非常快，以使得最终结果与第一次迭代的结果接近。在M_O = M-1 = 3处，根据本发明实施例的方法的结果相同，这是由于未执行贝叶斯积分并且未执行迭代。

卡车数据：近年来，监视昂贵设备（如发电厂和飞机）的状况已经受到越来越多的关注。目的是在早期阶段检测到这些机器的故障以避免灾害性损失。这通常通过对来自在机器的不同部件中安装的一组传感器的值进行分析而实现。当传感器值之间的相关性被破坏时，很可能存在故障。对这种相关性进行建模的一个重要方面是基于过程输入来准确地预测过程输出的能力。

然而，传感器可能发生故障，从而导致丢失训练和测试数据二者中的值。这自然形成了条件多输出回归任务，该条件多输出回归任务使用可用的传感器值来预测丢失的传感器值。在该测试中，根据本发明实施例，假定所有过程输入可用，如上所述如果不是所有过程输入都可用，则需要针对x额外的生成模型。

使用了来自由欧洲汽车公司制造的卡车的28小时操作数据。存在安装在该卡车中的总共20个传感器。选择了以下d=6个传感器作为输入：环境气温、环境气压、高度、燃料流量、油门以及发动机转速（rpm）。M=8个输出包括道路速度、发动机温度、进气歧管温度、涡轮增压、增压空气冷却器温度和压力、排气温度和压力。在该操作时间期间，卡车在100米与900米之间的高度处以0 mph与85 mph之间的速度行驶，从而提供了对其性能的全面快照。注意，未考虑发动机关闭的时间。

存在具有大约2分钟分辨率的总共825个数据点。随机选择了200个数据点以用于训练，其中其余的用于测试。对于这200个训练数据点，随机移除了输出值的5%以模拟丢失的数据情况。注意，典型地，5%比网络故障率或传感器故障率更高得多。该设置使测试比现实应用更富有挑战性。已知输出的数目M_O还从0变化到M-1=7。重复了这种测试十次。

图8（a）-（b）图示了卡车数据测试。图8（a）是28小时操作的825个数据点上的卡车的道路速度（英里每小时）的曲线图。图8（b）是对于不同方法的标准化MSE结果（具有1标准偏差误差棒）关于从0变化至7的已知输出的数目M_O的曲线图。在图8（b）中，曲线为：（81）ST GP；（82）MT GP；（83）Bonilla GP；（84）一遍CG GP；（85）一遍点CG GP；（86）迭代CG GP；以及（87）迭代点CG GP。

图8（b）示出了不同算法的结果。根据本发明实施例的一遍CG GP比所有先前方法执行得更好。根据本发明实施例的迭代算法一般比根据本发明实施例的一遍算法执行得更好，尤其是当M_O较大时。然而，当M_O较小（例如为0或1）时，根据本发明实施例的一遍CG GP实际上比根据本发明实施例的迭代CG GP执行得更好。这可以归因于以下事实：可用的信息如此有限以至于迭代方式趋于变为被困在局部优化中。

对于几乎所有M_O值，根据本发明实施例的一遍点CG GP比根据本发明实施例的其他方法执行得更差。类似地，在较小的M_O值处，其迭代版本（根据本发明实施例的迭代点CG GP）较差。然而，随着M_O的增大，其性能快速接近于根据本发明实施例的迭代CG GP（具有贝叶斯积分）的性能。这意味着：在有更多输出可用并因此有更多信息可用的情况下，所估计出的后验分布Q(y_m)变得峰值处更锐利并可以通过由点估计算法使用的delta函数更好地逼近。

一般地，所有多输出回归方法的性能都随着所观察的输出的增大而改进，这是由于更多信息可用。然而，不总是这样。例如，从M_O=5至M_O=8，根据本发明实施例的一遍CG GP和根据本发明实施例的迭代CG GP的误差实际上增大。这可以归因于以下事实：一些输出对于预测目标输出来说可能不相关。对这些输出的包括（这在较大M_O的情况下变得更可能）可能添加噪声，从而影响回归算法的性能。

这两个多任务方式（根据本发明实施例的MT GP以及Bonilla GP二者）现在比ST GP执行得更好。原因可以是：存在被用作输出的多个相关的温度和压力传感器。使得使用多任务方式共享参数表示更加有意义。此外，更容易对其联合预测分布进行建模。

实际上，以下策略可以用于在根据本发明实施例的算法当中进行选择。当已知输出的数目M_O较小时，使用根据本发明实施例的一遍CG GP算法。对于较大的M_O值，使用根据本发明实施例的迭代CG GP算法或根据本发明实施例的迭代点CG GP算法。

系统实现

应当理解，本发明实施例可以以各种形式的硬件、软件、固件、专用过程或其组合实现。在一个实施例中，本发明可以以软件实现为有形体现在计算机可读程序存储设备上的应用程序。该应用程序可以被上载至包括任何合适架构的机器或由该机器执行。

图9是根据本发明实施例的用于实现用于条件多输出回归的方法的示例性计算机系统的框图。现在参照图9，用于实现本发明的计算机系统91除了别的之外还可以包括中央处理单元（CPU）92、存储器93和输入/输出（I/O）接口94。计算机系统91一般通过I/O接口94耦合至显示器95和各种输入设备96（如鼠标和键盘）。支持电路可以包括诸如高速缓存、电源、时钟电路和通信总线之类的电路。存储器93可以包括随机存取存储器（RAM）、只读存储器（ROM）、盘驱动器、带驱动器等或其组合。本发明可以被实现为在存储器93中存储且由CPU 92执行以处理来自信号源98的信号的例程97。就其本身而论，计算机系统91是通用计算机系统，其在执行本发明的例程97时变为专用计算机系统。

计算机系统91还包括操作系统和微指令代码。这里描述的各个过程和功能可以是该微指令代码的一部分或经由该操作系统执行的应用程序（或其组合）的一部分。此外，各种其他外围设备可以连接至诸如附加数据存储设备和打印设备之类的计算机平台。

还应当理解，由于附图中所描绘的一些构成系统组件和方法步骤可以以软件实现，因此系统组件（或过程步骤）之间的实际连接可以根据对本发明进行编程的方式而有所不同。在给出这里提供的本发明的教导的情况下，相关领域的普通技术人员之一将能够预期本发明的这些及类似的实现或配置。

尽管参照示例性实施例详细描述了本发明，但是本领域技术人员将认识到，在不脱离如所附权利要求中阐述的本发明的精神和范围的情况下，可以对本发明进行各种修改和替代。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于机器状况监视的条件多输出回归的系统和方法 [P] . 中国专利： CN102445902B . 2016.02.10
2. 用于机器状况监视的条件多输出回归的系统和方法 [P] . 中国专利： CN102445902A . 2012-05-09
3. System and method for conditional multi-output regression for machine condition monitoring [P] . 欧洲知识产权局专利： EP2437034B1 . 2016-11-02

机译：用于机器状态监测的条件多输出回归的系统和方法
4. System and method for conditional multi-output regression for machine condition monitoring [P] . 美国专利： US8781782B2 . 2014-07-15

机译：用于机器状态监测的条件多输出回归的系统和方法
5. System and method for conditional multi-output regression for machine condition monitoring [P] . 欧洲知识产权局专利： EP2437034A3 . 2013-08-14

机译：用于机器状态监测的条件多输出回归的系统和方法