首页> 中国专利> 时间序列因果推理中的稀疏非循环图的回归建模

时间序列因果推理中的稀疏非循环图的回归建模

摘要

通过本申请技术解决方案,本公开提供优化符合稀疏性和非循环性的结构约束的向量自回归模型。正则化项被引入到所述模型以强加所述稀疏性结构约束,使得自回归系数矩阵的大多数非对角线系数被强迫为零值。一个或多个惩罚项被引入到所述模型以强加所述非循环性结构约束,使得主对角线的系数不是因果自相关的。所得的模型然后被再用公式表示以作为增广拉格朗日函数进行计算,并且在交替迭代中针对不同参数进行计算以使所述计算变得易处理并在数字计算机的大小和精度极限内。本公开的模型通过在没有单独的修剪步骤的情况下直接推理具有有向循环图结构的稀疏因果网络来提供优于现有模型的改进的计算性能。

著录项

  • 公开/公告号CN113326943A

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利权人 阿里巴巴集团控股有限公司;

    申请/专利号CN202110001742.6

  • 发明设计人 李岩;高靖昆;宋晓旻;孙亮;姚韬;

    申请日2021-01-04

  • 分类号G06N5/04(20060101);G06N7/00(20060101);

  • 代理机构11644 北京清源汇知识产权代理事务所(特殊普通合伙);

  • 代理人冯德魁;张艳梅

  • 地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱

  • 入库时间 2023-06-19 12:24:27

说明书

背景技术

因果推理是用于确定一个事件是否引起另一事件的广泛研究领域,所述另一事件可以进一步产生对将来事件的可操作预测。例如,由于诸如季节的变化、天气的变化、公共政策的变化等的事件,市场上的商品、财产和资产的价值可以随时间而改变。通过确定一些变量的变化引起其他变量的变化,可以做出可操作预测,以例如基于预期市场价格变化高效地设定价格。

可以以包括作为时间序列的各种形式表示用作因果推理基础的事件。时间序列通常是在周期性时间点收集的数据点的集合。多元时间序列可以包括各自与不同变量相对应的多个时间序列。例如,如以上所提及的,市场价格、季节、天气、政策等可以各自由变量表示。

对多元时间序列执行的因果推理可以基于格兰杰(Granger)因果关系的概念。基于如下定义预测格兰杰因果关系:如果从时间序列中丢弃变量X

对多元时间序列应用格兰杰因果关系推理已导致网络格兰杰因果关系的概念,其中除了将时间序列数据拟合到回归模型之外,还进一步指定多元变量之间的贝叶斯网络拓扑。贝叶斯网络通常是图示诸如例如以下变量之间的因果关系的图结构:如以上示例中所给出的市场价格、季节、天气和政策。然而,虽然少数变量之间的简单因果关系可以由人类研究员基于直觉人工地定义,但是在多元时间序列中,由于存在因果关系可以随时间而改变的许多变量,所以因果关系图通常太复杂而不能通过直觉或通过数据检查来确定。

因此,需要实现回归模型以确定多元时间序列的变量之间的贝叶斯网络拓扑,这仍然是在本领域没有解决方案的开放式问题。

附图说明

参考附图阐述详细描述。在各图中,附图标记的最左边数字标识该附图标记首次出现在其中的图。在不同的图中使用相同的附图标记指示类似或相同的项目或特征。

图1图示了推理因果网络与其邻接矩阵之间的对应。

图2图示了根据本公开的示例实施例的优化在有向循环图结构约束下操作的稀疏向量自回归模型的方法。

图3A和图3B图示了根据本公开的示例实施例的被配置成计算源分离的系统的系统架构。

图4图示了根据本公开的示例实施例的用于计算资源和学习模型的服务器主机和远程计算主机的架构图。

图5图示了用于实现上述用于实现向量自回归模型的过程和方法的示例计算系统。

具体实施方式

本文讨论的系统和方法涉及实现向量自回归模型,并且更具体地实现在贝叶斯网络中说明有向循环图拓扑的稀疏向量自回归模型。

根据本公开的示例实施例的回归模型可以为拟合到变量的值的观测结果的方程组。可以基于观测数据来计算回归模型,并且模型的计算可以包括对观测数据的变量之间的因果关系的推理。可以利用计算的回归模型来预想或预测作为回归模型一部分的变量的将来值。

回归模型可以为例如自回归(“AR”)模型,其中变量被建模为取决于它们自己在先前观测到的时间段期间的过去值。可以将时间序列的过去时段称为通过距当前时段的距离来编号的“滞后”;例如,对于在时间t观测到的变量x

AR模型还可以为例如向量自回归(“VAR”)模型,其中变量被建模为取决于它们自己和/或其他变量在多元时间序列中的过去值。因此,VAR模型可以将变量在时间t的值建模为取决于多元时间序列的任何数量的变量在时间t-1、t-2等的值。还可以以向量形式表示此类方程,其中可以将包含变量在时间t的值的向量编写为包含变量的第一滞后的值的向量与自回归系数矩阵的乘积,这些系数表示多元时间序列的变量之间的推理因果关系加上包含误差项的向量。例如,作为示例,可以以如下线性方程的形式编写线性VAR模型:

其中x

由于自回归系数矩阵的系数表示多元时间序列的变量之间的推理因果关系(即,非零系数w

可以将贝叶斯网络用作因果推理模型中的结构约束。例如,贝叶斯网络可以强加结构约束,即推理因果关系模型应该为有向循环图(DAG),其中从任何特定顶点开始的边序列不会引回到同一顶点。本领域的技术人员将通常领会,DAG的非循环性是对因果推理模型的常规接受的结构约束以用于促进贝叶斯统计分布的计算的目的;为了理解本公开的示例实施例,不必在此详述其进一步细节。

然而,如为本领域的技术人员已知的因果推理建模计算不符合拟合模型中DAG结构的约束,包括非循环性。因此,如为本领域的技术人员已知的因果推理建模计算还实现了对因果推理模型的图和邻接矩阵执行修剪的第二步骤。基于启发法,可以删除边并且可以用零值替换系数以使图及其邻接矩阵符合DAG结构约束。这样的两步骤方法的缺点是修剪步骤被独立于拟合步骤执行,并且因此不能基于拟合步骤的上下文来执行。因此,修剪的边和系数可以是任意的,并且可以在通过修剪产生的DAG模型中丢弃在现实中对说明观测数据而言有说服力的因果关系。

此外,根据本公开的示例实施例,预期依照现实中观测到的因果网络的行为,变量之间的因果关系将通常是稀疏的:也就是说,多元时间序列中的每个变量预期与相对较少的其他变具有因果关系。因此,因果推理模型的图预期在每个顶点通过边连接到相对较少的其他顶点方面是稀疏的,并且图的邻接矩阵也预期在其具有零值的大多数系数方面是稀疏的。

如为本领域的技术人员已知的因果推理建模计算也不符合拟合模型中对网络稀疏性的预期。通俗地说,据说相关性不暗示因果。然而,通常,因果推理建模显示出过拟合,其中针对大多数变量而不是如预期的少数变量对因果的推理进行建模。因果推理模型因此往往是密集的,从而导致通过如上所述启发法进行修剪被利用来符合不仅DAG结构约束,而且符合稀疏性预期。如上所述的独立地执行的修剪步骤的局限性在这里以类似的方式适用,并且修剪以符合结构约束和稀疏性两者还可以加剧独立地执行的修剪步骤的这些缺点。

本公开的示例实施例提供一种因果推理模型,其中基于DAG结构约束并基于结构稀疏性来执行模型对观测数据的拟合,这些观测数据可以为多元时间序列或多个一元时间序列。因此,通过如本文所描述的因果推理计算技术拟合的模型可以在不应用后续修剪步骤的情况下符合DAG结构约束(例如,模型可以具有非循环图的结构)。如上所述在图结构及其邻接矩阵两者方面,通过如本文所描述的因果推理计算技术拟合的模型也可以是基本上稀疏的,而不是密集的。因此可以将根据本公开的示例实施例的因果推理模型称为在DAG约束下操作的稀疏VAR模型(“sVAR-DAG”)。应该注意,缩写词“SVAR”对本领域的技术人员而言可能已知为参考VAR模型具有其他意义;然而,缩写词“SVAR”在此没有讨论,因此应该与本公开提供的缩写词“sVAR”区分开,以促进理解本公开的示例实施例。

通过线性VAR模型(其包含以上示例线性模型)的以下概括来图示本公开的示例实施例:

向量x[t]包括N个变量的多元时间序列或N个变量的多个一元时间序列的每个变量

给定多元时间序列或多个一元时间序列,在任何一种情况下包括多个变量的数据的T个观测结果并被表达为

图1图示了推理因果网络与其邻接矩阵之间的对应。推理因果网络及其邻接矩阵都图示了变量x

根据本公开的示例实施例,

根据本公开的示例实施例,可能往往在自回归系数矩阵的非对角线系数上强制结构稀疏性,并且可能往往在自回归系数矩阵的主对角线上的系数上强制非循环性。

可以通过求解以下优化函数来计算拟合以上给出的一般线性VAR模型:

其中

例如,可以将W

(“存在第l个滞后,在其之上只有当边连接顶点i和j时x

为了修改线性VAR模型以强制此规定,可以将基于组套索变量选择的正则化项添加到线性VAR模型。正则化项可以是指往往具有可变选择效果的项,其中取决于正则化参数λ的大小,自回归系数矩阵的非对角系数往往被推向零值。可以将正则化项编写为:

其中λ≥0。

根据本公开的示例实施例,尽管可以迭代地计算线性VAR模型以得出拟合模型,但是期望在计算线性VAR模型以将所有非对角线系数强迫为零值的第一次迭代期间将λ初始化为足够大的值,使得拟合模型将在接近收敛的状态下开始:

此外,然后通过将随后描述的步骤来在线性VAR模型拟合的每次迭代中逐步减小λ。

此外,以上线性VAR模型可以产生显示出循环性的拟合模型。因此,根据本公开的示例实施例,可以修改以上线性VAR模型以强加非循环性。

虽然拟合模型的循环结构可能无法通过检查邻接矩阵的系数来辨别,但是将邻接矩阵乘以它本身可以揭示循环结构:对于邻接矩阵的第m次幂,系数w

为了确定非循环性,特别关注邻接矩阵的主对角线上的系数。在循环图中,存在最终会将顶点i连接回到它本身的路径。通过以上测试,可以将这个编写为(A

替代地,根据本公开的示例实施例,以下语句可以相当于(A

trace(e

其中trace()函数是指矩阵的主对角线的所有系数之和,而e

计算矩阵的指数仍然是本领域中的开放式问题,并且虽然各种计算方法是已知的,但是没有已知方法可针对所有可能的矩阵实现完美准确性,因为数字计算机必须固有地依靠实数的离散近似来执行计算。此外,随着系数的大小任意地增加或任意地减小,非常大的系数和非常小的系数都可以使计算超出数字计算机固有的大小和精度极限。对于此类计算没有一种方法应该被认为是全面的,并且本公开不应限于其任何特定计算方法。出于理解本公开的示例实施例的目的,应足以说可以将缩放参数应用于矩阵的系数以减小非常大的系数的大小,并且增加非常小的系数的大小以使计算结果在数字计算机的大小和精度极限内,这些数字计算机包括实现本公开的示例实施例的示例实施例计算系统(如将作为示例随后更详细地描述的那样)。

以上语句的等效性的证明可以被导出,但是出于理解本公开的示例实施例的目的,不必在此详细地描述。

基于导出A,为了在张量

其中

为了对于每个第p个训练阶段1、2、…设定β

如果

总体上,被修改以强加结构稀疏性并且被进一步修改以强加非循环性的线性VAR模型具有以下优化函数:

trace(e

应该理解,如为本领域的技术人员已知的,此优化函数的约束致使它不能通过诸如近端梯度的合适的优化算法来求解。因此,根据本公开的示例实施例,可以通过增广拉格朗日方法来求解优化函数,其中每个约束被重写为优化函数的惩罚参数,从而产生增广拉格朗日函数。此外,可以通过交替方向乘子法(“ADMM”)方法来求解增广拉格朗日函数,其中在交替迭代中求解增广拉格朗日函数以便在保持其他参数的同时使一个参数最小化。

根据本公开的示例实施例,增广拉格朗日函数可以具有使用附加缩放对偶变量

在此,ρ

求解

可以通过如为本领域的技术人员已知的近端梯度算法来求解此优化函数,为了理解本公开的示例实施例在此未详述近端梯度算法。然而,本公开的示例实施例还提供用于通过以下近端算子来针对第(s+1)次迭代在每个第s个近端梯度迭代之后更新参数:

在此,

此外,

可以通过取函数在搜索点处的偏导数来导出梯度如下:

此外,可以通过下式来求解

其中

求解A

在此,只要b

可以通过取函数在搜索点处的偏导数来导出梯度如下:

可以通过如为本领域的技术人员已知的拟牛顿算法来求解此优化函数以直接确定f

为了如上所述设定λ

在表示法G(0)、f

随后,可以通过λ

图2图示了根据本公开的示例实施例的优化在DAG结构约束下操作的稀疏VAR模型的方法200。

在步骤202处,根据本公开的示例实施例的VAR模型接收多元时间序列X或多个一元时间序列(为简单在此也表示为X)、第一惩罚参数ρ

在步骤204处,VAR模型针对从1开始的ADMM迭代计数器k,将张量

可以循环后续步骤206至216直到VAR模型达到收敛为止,使得

在步骤206处,VAR模型通过经由梯度算法求解第一优化函数来计算张量

在步骤208处,VAR模型以初始值(例如以1为例)初始化第二惩罚参数ρ

可以循环后续步骤210至212以在一些约束条件即ρ

在步骤210处,VAR模型通过参考ρ

在步骤212处,VAR模型在维持非循环性约束的同时增加用于下一次拟牛顿迭代的第二惩罚参数。VAR模型可以通过检查

在步骤214处,VAR模型使用所计算的邻接矩阵A

在步骤216处,VAR模型更新第一缩放对偶变量、第二缩放对偶变量和ADMM迭代计数器。可以执行这个如下:

k=k+1

在步骤218处,如以上在模型收敛时所描述的,VAR模型输出表示推理因果网络的

可以在服务器主机和计算主机上实现本公开的示例实施例。服务器主机可以为任何合适的联网服务器,诸如云计算系统,其可以提供托管诸如包含多元时间序列数据或多个一元时间序列数据的数据库的计算资源的服务器的集合。诸如数据中心的计算主机可以托管根据本公开的示例实施例的VAR模型以提供据此来优化经受稀疏性约束和非循环性约束的VAR模型的函数。

云计算系统可以连接到各种终端设备,用户可以操作这些终端设备来收集数据,组织数据,设定参数,并且运行VAR模型以执行优化。终端设备可以通过诸如云计算系统的边缘节点的一个或多个网络连接到服务器主机。边缘节点可以为从到云计算系统的其他节点的连接提供出站连接的任何服务器,并且因此可以界定云计算系统的网络的逻辑边缘,而不一定是物理边缘。此外,边缘节点可以为部署云计算系统的非集中式计算资源的基于边缘的逻辑节点,诸如小云、雾节点等。

图3A和图3B图示了根据本公开的示例实施例的被配置成计算VAR模型优化的系统300的系统架构。

根据本公开的示例实施例的系统300可以包括一个或多个通用处理器302和一个或多个专用处理器304。通用处理器302和专用处理器304可以为物理的或者可以为虚拟化的和/或分布式的。通用处理器302和专用处理器304可以执行存储在如下所述的计算机可读存储介质上的一个或多个指令,以使通用处理器302或专用处理器304执行各种功能。专用处理器304可以为具有促进诸如训练和推理计算的神经网络计算任务的计算的硬件或软件元件的计算设备。例如,专用处理器304可以为加速器,诸如神经网络处理单元(“NPU”)、图形处理单元(“GPU”)、张量处理单元(“TPU”)、使用现场可编程门阵列(“FPGA”)和专用集成电路(“ASIC”)的实现方式和/或类似物。为了促进诸如训练和推理的任务的计算,专用处理器304可以例如实现可操作来计算诸如矩阵运算和向量运算的数学运算的引擎。

系统300还可以包括通过系统总线308通信地耦合到通用处理器302和专用处理器304的系统存储器306。系统存储器306可以为物理的或者可以为虚拟化的和/或分布式的。取决于系统300的确切配置和类型,系统存储器306可以为易失性的,诸如RAM,为非易失性的,诸如ROM、闪速存储器、微型硬盘驱动器、存储卡等,或它们的某种组合。

系统总线308可以在通用处理器302与系统存储器306之间、在专用处理器304与系统存储器306之间、以及在通用处理器之间302与专用处理器304之间输送数据。此外,数据总线310可以在通用处理器302与专用处理器304之间输送数据。数据总线310可以例如为外围组件互连Express(“PCIe”)连接、相干加速器处理器接口(“CAPI”)连接等。

图3B图示了包括任何数量的核心312的专用处理器304的示例。专用处理器304的处理能力可以分布在多个核心312之间。每个核心312可以包括本地存储器314,其可以包含预初始化的数据,诸如模型参数,或数据结构,诸如用于批量归一化或量化的常数缓冲器,以进行专用计算的执行。每个核心312还可以被配置成执行在核心312的本地存储装置318上预初始化的一组或多组计算机可执行加速引擎模块316,其可以各自由核心312执行,包括由多个核心312并行执行,以执行或加速例如诸如矩阵乘法或矩阵转置的算术运算、函数运算或专门地定义的运算,诸如评估矩阵的指数、梯度算法优化或如本文所定义的拟牛顿算法优化。每个核心312还可以包括指令定序器320,该指令定序器接收从指令缓冲器322接收到的指令并对其进行排序。一定数量的核心312例如四个可以通过诸如单向环形总线的数据总线324通信。控制每个核心312的操作的软件驱动器可以通过经由命令处理器接口326发送可执行命令来控制核心312并使其操作同步。

可以通过系统总线308或数据总线310将多元数据序列或多个一元数据序列输送到专用处理器304,其中专用处理器304可以如本文所描述的那样对多元数据序列或多个一元数据序列执行VAR模型优化,并且如本文所描述的那样输出张量、邻接矩阵和图。

因此,本公开的示例实施例提供了优化符合稀疏性和非循环性的结构约束的向量自回归模型,使得该模型在拟合到多元数据序列或多个一元数据序列期间,将往往与有关因果关系网络的稀疏性的预期观测结果匹配而不会过度拟合,并且将符合对贝叶斯统计分布的非循环性要求,而无需随后修剪因果推理网络。

由根据本公开的示例实施例的模型输出的因果推理网络可以被应用于诸如以下各项的各种领域中诸如根本原因分析(“RCA”)的实际问题:AIOps、用于IT行业的信息收集和自动化能力;因果影响分析,其可以用于为商业战略创建可操作计划;贝叶斯推理,其可以用于创建概率模型;等。

图4图示了根据本公开的示例实施例的用于计算资源和VAR模型的服务器主机400和计算主机的架构图。如上所述,根据本公开的示例实施例,云计算系统可以操作来提供由诸如托管VAR模型的数据中心的计算主机所支持的用于托管计算资源的服务器主机功能性。因此,此图图示了如上所述的计算设备的一些可能的架构实施例。

可以在通过物理或虚拟网络连接来连接的物理或虚拟服务器节点404(1)、404(2)、...、404(N)(其中任何未指定的服务器节点可以被称为服务器节点404)的网络402之上实现服务器主机400。此外,网络402终止于位于网络402的物理和/或逻辑边缘处的物理或虚拟边缘节点406(1)、406(2)、...、406(N)(其中任何未指定的边缘节点可以被称为边缘节点406)。边缘节点406(1)至406(N)可以连接到任何数量的终端设备408(1)、408(2)、...、408(N)(其中任何未指定的终端设备可以被称为终端设备408)。

如本公开的示例实施例中描述的那样在通过服务器主机400的接口访问的计算主机上实现的VAR模型410可以被存储在计算主机412的物理或虚拟存储装置(“计算主机存储装置414”)上,并且可以被加载到计算主机412的物理或虚拟存储器(“计算主机存储器416”)中以便计算主机412的一个或多个物理或虚拟处理器(“计算主机处理器418”)使用VAR模型410来执行计算以计算与如本文所描述的优化有关的时间序列数据。计算主机处理器418可以为促进矩阵算术计算任务的计算的专用计算设备。例如,计算主机处理器418可以为如上所述的一个或多个专用处理器304,包括诸如神经网络处理单元(“NPU”)、图形处理单元(“GPU”)、张量处理单元(“TPU”)等的加速器。

根据本公开的示例实施例,如在下面参考图5所描述的VAR模型的不同模块可以由计算主机处理器418的不同处理器执行或者可以由计算主机处理器418的同一处理器在不同核心或不同线程上执行,并且每个模块可以相对于每个其他子模块同时执行计算。

图5图示了用于实现上述用于实现向量自回归模型的过程和方法的示例计算系统500。

本文描述的技术和机制可以由计算系统500的多个实例以及由任何其他计算设备、系统和/或环境来实现。如上所述,计算系统500可以为任何种类的计算设备,诸如个人计算机、个人平板、移动设备、可操作来执行矩阵算术计算的其他此类计算设备。图5中所示的系统500仅仅是系统的一个示例,而不旨在关于用于执行上述过程和/或程序的任何计算设备的使用或功能性的范围暗示任何限制。可以适合于与实施例一起使用的其他众所周知的计算设备、系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、游戏机、可编程消费者电子设备、网络PC、小型计算机、大型计算机、包括以上系统或设备中的任一个的分布式计算环境、使用现场可编程门阵列(“FPGA”)和专用集成电路(“ASIC”)的实现方式和/或类似物。

系统500可以包括一个或多个处理器502和通信地耦合到处理器502的系统存储器504。处理器502和系统存储器504可以为物理的或者可以为虚拟化的和/或分布式的。处理器502可以执行一个或多个模块和/或过程以使处理器502执行各种功能。在实施例中,处理器502可以包括中央处理单元(“CPU”)、GPU、NPU、TPU、它们的任何组合,或本领域中已知的其他处理单元或组件。附加地,处理器502中的每一个均可以拥有它自己的本地存储器,该本地存储器也可以存储程序模块、程序数据和/或一个或多个操作系统。

取决于系统500的确切配置和类型,系统存储器504可以为易失性的,诸如RAM,为非易失性的,诸如ROM、闪速存储器、微型硬盘驱动器、存储卡等,或它们的某种组合。系统存储器504可以包括可由处理器502执行的一个或多个计算机可执行模块506。模块506可以作为用于数据处理平台的服务被托管在网络上,该数据处理平台可以被实现在与系统500分开的系统上。

模块506可以包括但不限于输入接收模块508、第一初始化模块510、第一计算模块512、第二初始化模块514、第二计算模块516、惩罚增加模块518、邻接矩阵更新模块520、项更新模块522和收敛模块524。

输入接收模块508可以被配置成如以上参考步骤202所描述的那样接收对VAR模型的输入。

第一初始化模块510可以被配置成如以上参考步骤204所描述的那样初始化梯度计算的参数。

第一计算模块512可以被配置成如以上参考步骤206所描述的那样通过经由梯度下降算法求解第一优化函数来计算张量。

第二初始化模块514可以被配置成如以上参考步骤208所描述的那样初始化拟牛顿计算的参数。

第二计算模块516可以被配置成如以上参考步骤210所描述的那样通过经由拟牛顿算法求解第二优化函数来计算邻接矩阵。

惩罚增加模块518可以被配置成在如以上参考步骤212所描述的那样在维持非循环性约束的同时增加用于下一次拟牛顿迭代的第二惩罚参数。

邻接矩阵更新模块520可以被配置成如以上参考步骤214所描述的那样使用计算的邻接矩阵的副本来更新用于下一次梯度迭代的邻接矩阵。

项更新模块522可以被配置成如以上参考步骤216所描述的那样更新除邻接矩阵以外的用于下一次梯度迭代的项。

收敛模块524可以被配置成如以上参考步骤218所描述的那样在模型收敛时输出张量和表示推理因果网络的邻接矩阵。

系统500可以附加地包括输入/输出(“I/O”)接口540以及允许系统500通过网络与其他系统和设备(诸如如上所述的服务器主机)进行通信的通信模块550。网络可以包括因特网、诸如有线网络或直接有线连接的有线介质以及诸如声学、射频(“RF”)、红外和其他无线介质的无线介质。

如在下面所定义的,可通过执行存储在计算机可读存储介质上的计算机可读指令来执行上述方法的一些或所有操作。如说明书和权利要求书中使用的术语“计算机可读指令”包括例程、应用、应用模块、程序模块、程序、组件、数据结构、算法等。可在各种系统配置上实现计算机可读指令,各种系统配置包括单处理器或多处理器系统、小型计算机、大型计算机、个人计算机、手持计算设备、基于微处理器的可编程消费者电子设备、它们的组合等。

计算机可读存储介质可以包括易失性存储器(诸如随机存取存储器(“RAM”))和/或非易失性存储器(诸如只读存储器(“ROM”)、闪速存储器等)。计算机可读存储介质也可以包括附加可移动存储装置和/或非可移动存储装置,包括但不限于可以提供计算机可读指令、数据结构、程序模块等的非易失性存储的闪速存储器、磁性存储装置、光学存储装置和/或磁带存储装置。

非暂时性计算机可读存储介质是计算机可读介质的示例。计算机可读介质包括至少两种类型的计算机可读介质,即计算机可读存储介质和通信介质。计算机可读存储介质包括用任何过程或技术加以实现以便存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的易失性和非易失性、可移动和非可移动介质。计算机可读存储介质包括但不限于相变存储器(“PRAM”)、静态随机存取存储器(“SRAM”)、动态随机存取存储器(“DRAM”)、其他类型的随机存取存储器(“RAM”)、只读存储器(“ROM”)、电可擦除可编程只读存储器(“EEPROM”)、闪速存储器或其他存储器技术、紧致盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”)或其他光学存储装置、磁盒、磁带、磁盘存储装置或其他磁性存储设备,或可用于存储信息以供由计算设备访问的任何其他非传输介质。相比之下,通信介质可以在诸如载波的调制数据信号或其他传输机制中体现计算机可读指令、数据结构、程序模块或其他数据。如本文所定义的,计算机可读存储介质不包括通信介质。

存储在一个或多个非暂时性计算机可读存储介质上的计算机可读指令当由一个或多个处理器执行时,可以执行以上参考图1-5描述的操作。通常,计算机可读指令包括执行特定功能或者实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的次序不旨在被解释为限制,并且可以任何次序和/或并行地组合任何数量的所描述的操作以实现过程。

通过上述技术解决方案,本公开提供优化符合稀疏性和非循环性的结构约束的向量自回归模型的优化。正则化项被引入到模型以强加稀疏性结构约束,使得自回归系数矩阵的大多数非对角线系数被强迫为零值。一个或多个惩罚项被引入到模型以强加非循环性结构约束,使得主对角线的系数不是因果自相关的。所得的模型然后被再用公式表示以作为增广拉格朗日函数进行计算,并且在交替迭代中针对不同参数进一步计算以使计算变得易处理并在数字计算机的大小和精度极限内。本公开的模型通过在没有单独的修剪步骤的情况下直接推理具有有向循环图结构的稀疏因果网络来提供优于现有模型的改进的计算性能。

示例条款

A.一种方法,所述方法包括:基于正则化项和至少一个时间序列的多个变量,通过第一优化算法迭代地优化第一函数;基于所述多个变量和至少一个惩罚参数,与优化所述第一函数交替地通过第二优化算法迭代地优化第二函数;以及输出表示所述多个变量的推理因果网络的邻接矩阵,所述因果网络具有结构稀疏性和结构非循环性。

B.如段落A所述的方法,其中所述正则化项影响表示所述推理因果网络的所述邻接矩阵的非对角线系数。

C.如段落A所述的方法,其中所述至少一个惩罚参数限制表示所述推理因果网络的所述邻接矩阵的指数的迹线。

D.如段落A所述的方法,其中所述第一优化算法包括梯度算法。

E.如段落A所述的方法,其中所述第二优化算法包括拟牛顿算法。

F.如段落A所述的方法,其中所述第一函数和所述第二函数包括增广拉格朗日函数。

G.如段落F所述的方法,其中所述增广拉格朗日函数的参数在优化所述第一函数并优化所述第二函数的每次相应的迭代之后被更新。

H.一种系统,所述系统包括:一个或多个处理器;和通信地耦合到所述一个或多个处理器的存储器,所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块,所述计算机可执行模块当由所述一个或多个处理器执行时,执行关联的操作,所述计算机可执行模块包括:第一计算模块,所述第一计算模块被配置成基于正则化项和至少一个时间序列的多个变量,通过第一优化算法迭代地优化第一函数;第二计算模块,所述第二计算模块被配置成基于所述多个变量和至少一个惩罚参数,与优化所述第一函数交替地通过第二优化算法迭代地优化第二函数;和收敛模块,所述收敛模块被配置成输出表示所述多个变量的推理因果网络的邻接矩阵,所述因果网络具有结构稀疏性和结构非循环性。

I.如段落H所述的系统,其中所述正则化项影响表示所述推理因果网络的所述邻接矩阵的非对角线系数。

J.如段落H所述的系统,其中所述至少一个惩罚参数限制表示所述推理因果网络的所述邻接矩阵的指数的迹线。

K.如段落H所述的系统,其中所述第一优化算法包括梯度算法。

L.如段落H所述的系统,其中所述第二优化算法包括拟牛顿算法。

M.如段落H所述的系统,其中所述第一函数和所述第二函数包括增广拉格朗日函数。

N.如段落M所述的系统,还包括邻接矩阵更新模块和惩罚增加模块,所述邻接矩阵更新模块和所述惩罚增加模块被配置成在优化所述第一函数并优化所述第二函数的每次相应的迭代之后更新所述增广拉格朗日函数的参数。

O.一种计算机可读存储介质,所述计算机可读存储介质存储可由一个或多个处理器执行的计算机可读指令,所述计算机可读指令当由所述一个或多个处理器执行时,使所述一个或多个处理器执行包括以下各项的操作:计算对搜索查询和上下文字符串的共同关注;基于正则化项和至少一个时间序列的多个变量,通过第一优化算法迭代地优化第一函数;基于所述多个变量和至少一个惩罚参数,与优化所述第一函数交替地通过第二优化算法迭代地优化第二函数;以及输出表示所述多个变量的推理因果网络的邻接矩阵,所述因果网络具有结构稀疏性和结构非循环性。

P.如段落O所述的计算机可读存储介质,其中所述正则化项影响表示所述推理因果网络的所述邻接矩阵的非对角线系数。

Q.如段落O所述的计算机可读存储介质,其中所述至少一个惩罚参数限制表示所述推理因果网络的所述邻接矩阵的指数的迹线。

R.如段落O所述的计算机可读存储介质,其中所述第一优化算法包括梯度算法。

S.如段落O所述的计算机可读存储介质,其中所述第二优化算法包括拟牛顿算法。

T.如段落O所述的计算机可读存储介质,其中所述第一函数和所述第二函数包括增广拉格朗日函数。

U.如段落T所述的计算机可读存储介质,其中所述操作还包括在优化所述第一函数并优化所述第二函数的每次相应的迭代之后更新所述增广拉格朗日函数的参数。

尽管已用特定于结构特征和/或方法学行为的语言描述了主题,但是应当理解,所附权利要求书中限定的主题不一定限于所描述的具体特征或行为。相反,具体特征和行为作为实现权利要求的示例性形式被公开。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号