首页> 中国专利> 用于大数据的快速交互式探索的系统

用于大数据的快速交互式探索的系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

提出了一种用于使用近似查询处理来对存储和/或流式的大数据的分析和交互式探索进行估计的装置。该装置包括模型构造器和采样器。模型构造器使用特征选择、预测变量和结果变量标识大数据中的重要预测变量，并基于标识的交互或标识的关系将重要预测变量分区成一个或多个分层。采样器通过使用基于至少一个分层构造的查询来查询大数据，从而生成数据子集。数据子集可以被馈送到分析生成器中。分析生成器基于数据子集和分析算法以及可视化（例如交互式可视化）生成结果变量的分析数据，该可视化（例如交互式可视化）包括结果变量、重要预测变量、分层、数据子集和分析数据。

著录项

公开/公告号CN114902246A

专利类型发明专利
公开/公告日2022-08-12

原文格式PDF
申请/专利权人泰必高软件公司;
展开▼

申请/专利号CN202180008746.5
发明设计人 T·希尔;D·卡茨;M·奥康奈尔;J·拉姆纳拉彦;D·J·洛普;
展开▼

申请日2021-01-08
分类号G06N3/08(2006.01);G06N5/02(2006.01);G06N5/04(2006.01);G06F16/26(2006.01);G06F16/24(2006.01);
代理机构中国专利代理(香港)有限公司 72001;中国专利代理(香港)有限公司 72001;
代理人任一方;吕传奇
地址美国加利福尼亚州
入库时间 2023-06-19 16:20:42

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-23

实质审查的生效 IPC(主分类):G06N 3/08 专利申请号:2021800087465 申请日:20210108

实质审查的生效

说明书

背景技术

大数据可以被描述为太大和/或太复杂而无法使用传统计算平台（即硬件和/或软件）分析感兴趣数据的数据集。大数据也可以被描述为极其庞大的数据集，其需要计算上复杂的分析来揭示模式、趋势和关联。实际上，由于时间或其他资源约束，大数据集不能从其存储位置移动到特定的计算资源或位置，例如数据科学家使用的分析平台。换句话说，作为实际问题，在当前技术水平的分析平台中，大数据储存库中的所有数据点都不能在相应的客户端或服务器平台上处理，因为移动所有数据是不实际的，或者甚至是不可能的。流式数据也可以理解为一种类型的大数据。像大数据一样，连续的流式数据不能以其整体移动到专用的计算资源。流式数据是无限的大数据。对流式数据执行复杂的计算即使不是不可能，也是不实际的。这样做所需的资源将是代价过高的。

考虑到大数据的上述描述，如果数据变得太大而它无法再在计算上进行管理，则该数据实际上成为有缺陷的数据。换句话说，如果数据变得如此之大，以至于执行在计算上的分析所需的时间排除了任何探索性发现的实际用途，那么该数据实际上是有缺陷的数据。此外，如果实现可接受程度的效率和准确度所需的费用是排他性的或代价过高的，则没有替代解决方案的数据实际上是有缺陷的数据。因此，根本问题是如何进行交互式、高效、具成本效益并且具响应性的分析。

附图说明

为了对本公开的特征和优点的更完整理解，现在对详细描述连同附图进行参考，其中不同附图中的对应数字指代对应部件，并且其中：

图1是根据某些示例实施例的用于估计大数据的分析和交互式探索的系统图解的图示；

图2是根据某些示例实施例的用于估计大数据的分析和交互式探索的算法流程图的图示；和

图3是根据某些示例实施例的用于处理数据和选择最佳预测模型选择以及执行最佳预测模型的计算机器的图示。

具体实施方式

虽然下文详细讨论了本公开各种实施例的制作和使用，但应当领会，本公开提供了可以在多种多样的特定情境下体现的许多可适用的发明概念。本文讨论的具体实施例仅仅是说明性的，并且不限制本公开的范围。为了清楚起见，可以在本公开中不描述实际实现的所有特征。当然，将领会，在任何这样的实际实施例的开发中，必须做出许多特定于实现的决策，以实现诸如符合系统相关和商业相关的约束之类的开发者的特定目标，所述特定目标将随着实现的不同而不同。此外，将领会，这样的开发努力可能是复杂且耗时的，但是对于受益于本公开的本领域普通技术人员而言，这将是常规任务。

在当前技术水平或者即行业标准实践中，花费了大量资源和成本来增加移动数据和分析数据的能力，例如通过大规模并行计算。然而，在可预见的未来，收集和存储数据的能力将继续超过分析数据的能力。此外，随着分析移动到网络云，该问题加剧。连续刷新大型数据集以及基于大型数据集刷新分析的成本可能代价过高地昂贵。因此，存在提供替代解决方案的巨大激励。

一种基于大型或流式数据集使能快速统计、机器学习和人工智能（AI）集中分析或视觉探索的广泛使用的方法是应用采样并且对样本而非完整数据集执行所期望的分析操作。例如，在简单随机采样中，观察是从具有特定的通常已知的概率或比率的完整数据集中选择的。因此，完整数据集中的每个观察将具有相同的选择概率，从而确保通常被称为的合成样本的“代表性”，该合成样本的“代表性”与从中抽取样本的群体中观察到的变量当中的特性和关系有关。

然而，从样本估计的统计和特性的值将仅接近统计和特性的真实值，如果它们是从所有数据计算的话。此外，从非常大的数据集（观察群体）高效提取样本的过程并不简单。一般而言，为了使能快速且高效的分析计算，合期望的是以如下方式从大量数据抽取尽可能最小的样本：使得将允许统计和预测分析量的计算具有最小的置信区间并且因此相对于计算量的值具有最大的确定性，如果它们是从所有数据计算的话。

用于绘制代表性样本的一种高级数据处理方法是近似查询处理（AQP）。AQP是数据库处理方案，它关注于如下非常困难的问题：当对样本而不是整个数据集进行操作时，如何以最高保真度并且有意义地优化和实现某些标准数据库操作，诸如联合。然而，关于BI（商业智能）和分析应用的问题不同于需要被提出以解决效率难题的问题，因为它涉及使用标准数据库操作对数据集进行采样。具体而言，关于如何估计像均值、总和、比例等之类的某些统计参数以及它们的置信区间，已建立的统计研究和最佳实践都被很好地记录，基于相应统计的采样分布——其来自根据数据中的属性分层的特定构造的样本（参见，例如，Kish, L., 1965, Survey sampling. New York: Wiley; or Duncan, A. J., 1986.Quality control and industrial statistics. 5th ed. Chicago: Irwin.）。

此外，公知的是，当不存在封闭形式的表达式时，bootstrap采样方法对于构造统计的置信区间将是有用的。例如，对于诸如均值、标准差等之类的许多矩统计，存在封闭形式的公式，其中——仅基于统计理论和统计功效估计——可以估计采样分布，并且因此估计特定样本大小的置信区间。然而，对于机器学习方法的许多非参数统计或参数，不存在这样封闭形式的公式，并且因此必须应用重复的bootstrap采样，以便估计相应统计的采样分布和置信区间。关于细节，参见例如Mozafari, B. & Niu, N., "A Handbookfor Building an Approximate Query Engine," Bulletin of the IEEE ComputerSociety Technical Committee on Data Engineering；也参见

有效的统计概要及其置信区间可以从数据样本高效地计算，而不管群体的大小，即数据的总大小。取而代之的是，均值、标准差、总和、总数、计数等估计的置信区间以及因此准确度将取决于样本大小和样本的性质。特别是，当与简单随机样本相比时，分层样本通常可以产生对此类统计的精确得多的估计（其具有更小的置信区间）。分层样本是其中以相同或不同的采样概率（率）分别对数据中被先验标识的特定阶层进行采样的样本。例如，公众意见的样本可以按性别和家庭收入进行分层，这意味着从每个阶层的群体抽取具有一定采样概率的单独样本——男性-女性、低收入家庭-中高收入家庭，等等。重要的是，分层样本相对于估计的合成置信区间的相对效率是分层属性（变量）和所考虑的测量之间的关系强度的函数。对于所考虑的测量，各阶层之间关于感兴趣的均值或其他计算量的差异越大，也就是说，各阶层之间的差异越强，分层属性（变量）与所考虑的测量之间的关系就越强，并且因此可以采用更小的分层样本来实现关于从样本计算的统计量的相同程度的确定性（相同置信区间）。同样，在给定一定样本大小的情况下，在分层属性（变量）示出与所考虑的测量的强关系的程度上，分层样本（与简单随机样本相比）相对于从样本计算的统计量将产生较小的置信区间。

例如，假设有人对估计人类的平均身高感兴趣。可以抽取分层样本，从而根据与身高无关的一些属性进行分层，诸如一个人的生日的一年中的月份。直觉将指示，按一年中的月份分层与简单的随机采样相比将不提供任何优势，因为在特定月份出生的人类的身高很可能非常相似，如果不是相同的话。然而，例如，通过遗传性别进行分层将允许人们分别对于遗传男性和遗传女性采取相对较小的总体样本，因为男性平均比女性高。因此，与总大小相同的简单随机样本相比，不同阶层的均值可以被组合以达到平均身高的更准确估计。同样，这些直觉通过统计理论以及在统计文献中被支持。

本文提出了一种系统和方法，其用于使用数据模型、机器学习（ML）/人工智能（AI）算法和查询处理技术的组合来估计大数据的分析和交互式探索，以时间高效和具成本效益的方式提取相关的、有意义的数据。如果要实现交互式的、高效的、具成本效益和具响应性的分析解决方案，则对大（或大流式）数据的分析和与之的交互必须在样本上操作，即在数据子集上操作，从中产生统计分析、预测模型、聚类模型和交互式BI（商业智能）可视化。

在实施例中，通过应用采样和分层采样方法，近似查询处理（AQP）用于显著增加针对大数据和流式数据的查询性能。总之，如果选择与感兴趣的变量（将针对其估计统计）最强相关的属性进行分层，则从分层样本导出的估计的效率和准确度（置信区间）可以被改进。换句话说，如果人们事先知道数据中最佳分层的具体性质，则可以抽取最小的样本，以达到将被估计的统计的特定预定义的准确度水平。

统计分析、机器学习和AI中的另一个方面和另外的改进是要应用所谓的增量学习算法来估计统计或其他计算量。与计算均值、标准差、聚类、预测模型或其他计算量的算法的典型实现不同，当使用增量算法时，由于计算引擎首次遇到每个观察，因此它用于细化计算量的准确度。例如，当计算平均值时，一种简单的方法可能是计算针对所有观察的值的总和，并且然后将该总和除以观察次数。使用增量学习算法，诸如所谓的临时均值法（参见Dixon, Wilfrid J., & Brown, Morton B., 1983, BMDP Statistical Software,Volume 1, University of California, Los Angeles Department of Biomathematics,page 662），可以用于在处理新数据时连续更新和细化均值的估计，并且在处理所有数据之前和不处理所有数据的情况下，当已经达到均值的期望准确度（置信区间）时，可以终止处理。

增量学习算法在大数据和流式数据的情境下特别有用，因为它们可以在遍历大数据或连续处理流式数据时逼近结果统计、预测模型或聚类模型，而无需处理或迭代处理所有数据。一种这样的感兴趣的算法是所谓的Hoeffding树算法（参见例如Bifet, A.,Holmes, G., Kirkby, R., & Pfahringer, B., 2011, Data Stream Mining: APractical Approach. Centre for Open Source Software Innovation）以及从该算法导出的类似方法。树算法通常允许对涉及多个输入的决策规则的发现，以预测感兴趣的连续或分类结果变量。Hoeffding树允许使用增量学习算法而不是需要多次遍历所有可用数据的其他常见决策树构建算法，从流式数据构建这样的决策树。决策树模型允许使用逻辑决策规则从输入变量预测感兴趣的结果，诸如“

在实施例中，增量学习算法和AQP被组合到单个装置中，其中该组合可以用于以高效和准确的方式从大数据储存库和/或流中生成数据模型和样本，即数据子集。在另一个实施例中，增量学习算法、模型构造器和分析生成器被组合到单个系统中，用于提供用户可以与采样数据和相关分析交互的手段。

在另一个实施例中，非增量学习算法针对经由AQP导出的连续更新的数据样本（窗口）被应用，该非增量学习算法被组合到单个装置中，其中该组合可以用于以高效和准确的方式从大数据储存库和/或流中生成数据模型和样本，即数据子集。在另一个实施例中，非增量学习算法、模型构造器和分析生成器被组合到单个系统中，用于提供用户可以与采样数据和相关分析交互的手段。

在另一个实施例中，增量和非增量学习算法应用于经由AQP导出的数据样本，并且针对经由AQP导出的连续更新样本进行连续更新，以导出修改或更新的统计量、用于预测、聚类或数据描述的数据模型。这样的连续更新的统计分析、预测模型、聚类模型或统计量可以动态地调整到在连续采样的数据中检测到的新发现的关系。

在本说明书中，大数据可以意指静态的大数据——即存储在储存库中的大数据，以及流式大数据。数据模型意指基于预测变量、结果变量和关系（即变量之间的关系强度）从大数据选择的观察子集，用于诸如预测和聚类之类的后续的统计分析处理。关系的强度可以在预测变量和结果变量之间。观察是大数据中的逻辑行，并且包括所有预测变量和结果变量。预测变量和结果变量是来自大数据的逻辑列。预测变量是用来预测结果的变量。结果变量是其值取决于一个或多个预测变量的变量。特征选择意指一种算法，该算法可以标识和选择大数据内对预测变量和结果变量有贡献的变量。变量交互意味着一个预测变量的贡献被一个或多个其他预测变量修改，因此交互中涉及的所有变量的组合贡献大于在归因于每个变量的单独贡献之上的简单总和。增量机器学习意指一种统计、机器学习或人工智能（AI）算法，它可以基于新获得的单个或多个观察修改和更新即时数据模型，而无需在所有先前处理的观察之上重新处理和迭代。分层意指参数的分类或参数和值的分类。例如，按群体中年龄的分层可能意味着不同的年龄组在一个或多个变量（诸如风险）方面是不同的。分区（分仓）意指基于应用于一个或多个变量的分层对观察的主动分离或分组。如本说明书的上下文中使用的AQP和AQP样本是一种非传统的AQP方法和技术，其中通过基于使用特征选择构造的数据模型创建查询来增强数据库处理效率。离散变量或分类变量是具有有限数量的离散值的变量。连续变量是具有无限个值的数值变量。样本是来自数据模型、大型或大数据集或者连续流式数据的数据子集。数据子集意指另一个观察子集。数据意指至少一个变量，并且变量是参数和值。连续意指在交互式数据探索会话期间连续执行的处理动作。决策树的深度是对在定义决策树的任何决策规则中涉及的变量的最大数量进行定义的量，其如例如经由Hoeffding算法或其他增量或非增量学习算法导出。交互式可视化意指以图形、图表或表格或其任何组合的形式对数据子集（即变量子集）以及这样的数据的用户交互的显示。

现在参考图1，图示了根据某些示例实施例的用于估计大数据的分析和交互式探索的系统图解，该系统通常标示为10、与大数据系统耦合。大数据系统包括至少一个数据服务器12和大数据储存库14，该至少一个数据服务器12包括至少一个路由器。系统10包括分析和采样器平台16以及可视化平台18。分析和采样器平台16从可视化平台18接收输入，并基于大数据样本的分析性分析生成以可视化形式的输出。样本使用模型构造器、采样器被创建，并提供预测变量和结果变量。分析和采样器平台16可以使用服务器应用或路由器应用来查询静态的大数据（即储存库中的数据）和/或流式大数据中的一个或二者。分析和采样器平台16构造第一查询，以基于所提供的预测变量和结果变量在大数据内找到重要预测变量。基于第一查询的结果和使用至少一个增量机器学习算法对结果的分析来构造数据模型。构造第二查询以基于来自模型的信息和使用AQP技术导出的至少一个分层来查询大数据。第二查询的结果连同其他数据通过客户消费的可视化来显示。

现在参考图2，图示了根据某些示例实施例的用于估计大数据的分析和交互式探索的算法流程图。该算法包括模型构造器30、采样器40以及分析和可视化生成器60，其使能以时间高效和具成本效益的方式提取相关的、有意义的数据，用于交互式探索以及后续的统计、机器学习、AI和其他数据分析的目的。

模型构造器30在框30A开始，其中提供的结果变量和预测变量——例如从先前生成的可视化和用户选择中提供的——被用于在大数据中标识感兴趣的变量，即感兴趣的预测变量和结果变量。在框30B，使用增量学习算法（诸如Hoeffding树或其他类似的AI算法）的特征选择被用于标识重要的、即最相关的对一个或多个结果变量贡献最大的预测变量。附加地，影响结果变量的变量之间的交互被标识。在实施例中，标识过程可以是连续的。同样，生成统计数据和一个或多个数据结构，即一个或多个预测模型。数据模型可以存储在永久存储装置中，并且即时数据模型可以基于先前存储的样本、模型以及更新的预测和结果变量来更新。统计数据和数据结构可以用于预测一个或多个结果变量。

在实施例中，用户可以指定准确度标准或默认准确度标准。结果的准确度可能受到指定标准影响，但处理时间减少。例如，用户可以为感兴趣的特定统计指定期望的最大误差极限和置信区间。用户还可以为诸如Hoeffding树的决策树预测模型和将被确定的其他模型指定期望的下钻深度。在这种情况下，继续计算，直到在数据中已经标识了例如决策树深度的期望的结构级别，或者描述结构的其他特性或构造。用户定义的参数被转换成合适的算法，所述合适的算法被推送到大数据平台（数据库中处理）中或应用于大的流式数据。照此，随后的特征选择和增量学习算法操作被缩减。

上述算法使能在读取数据时从数据中学习，并且无需读取所有可用数据。取而代之的是，例如，当新的数据流经算法时，相应的树分区被更新，并且直到学习过程根据通过用户定义的标准的请求而终止。这些算法计算可以灵活地部署和应用于流式数据源以及例如使用Apache Spark™在分布式存储器中的计算环境中执行。换句话说，计算可以在分布式联网环境中的数据库中执行。因此，可以标识最重要的变量及其分区（分仓）和交互，其最大化与感兴趣的结果变量的关系，而无需处理所有可用的数据点，使用用户控制的计算资源，并在用户定义的可接受时间内。此外，该系统使能对存储器中的样本数据的更新。因此，随着数据继续流入所提出的系统（在流式数据的情况下），更新的分层样本被维持（在存储器中的数据表格中）。

在框40A，创建AQP样本。AQP被用于基于分层和在框30B中创建的数据模型来构造查询。在分层创建了差别最大的阶层的程度上，分层采样与随机采样相比最具信息性。所构造的查询被用于查询大数据，以便创建样本，即数据子集。创建的样本持续维持在存储器中并且可选地在永久存储装置中。替代地，如果在框30B中没有标识结构或重要变量，则可以执行简单的随机采样。在框40B，创建反馈循环，该反馈循环允许框30B的重新执行和使用更新变量对样本的数据库中更新，例如根据用户与创建的样本的交互。在实施例中，在流式大数据的情况下，在具有或没有更新变量的情况下，框30B的重新执行可以是连续的。

在框60，生成以图形、图表、表格和分析数据形式的可视化。在实施例中，可视化例如响应于大的流式数据是交互式的和连续的。存储器中的变量定义了特定的重要特征、它们的最佳分区以及它们的交互。其他ML/AI算法——诸如递归分区方法或在大多数分析平台中使用的其他适用的机器学习方法——可以以高效的方式对存储器中的数据执行。

现在参考图3，图示了根据示例实施例的计算机器100和系统应用模块200。计算机器100可以对应于本文呈现的各种计算机、移动设备、膝上型计算机、服务器、嵌入式系统或计算系统中的任何一个。模块200可以包括一个或多个硬件或软件元件，所述一个或多个硬件或软件元件例如是其他OS应用以及用户和内核空间应用，其被设计成促进计算机器100执行本文呈现的各种方法和处理功能。计算机器100可以包括各种内部或附接部件，诸如处理器110、系统总线120、系统存储器130、存储介质140、输入/输出接口150和用于与网络170通信的网络接口160，网络170例如是回送、局域网、广域网、蜂窝/GPS、蓝牙、WIFI和WIMAX。

计算机器100可以实现为常规计算机系统、嵌入式控制器、膝上型计算机、服务器、移动设备、智能电话、可穿戴计算机、定制机器、任何其他硬件平台或其任何组合或多重性。计算机器100和相关联的逻辑和模块可以是分布式系统，其被配置为使用经由数据网络和/或总线系统互连的多个计算机器来运转。

处理器110可以被设计成执行代码指令，以便执行本文描述的操作和功能性，管理请求流和地址映射，并执行计算和生成命令。处理器110可以被配置为监视和控制计算机器中的部件的操作。处理器110可以是通用处理器、处理器内核、多处理器、可重新配置的处理器、微控制器、数字信号处理器（“DSP”）、专用集成电路（“ASIC”）、控制器、状态机、门控逻辑、离散硬件部件、任何其他处理单元或其任何组合或多重性。处理器110可以是单个处理单元、多个处理单元、单个处理核心、多个处理核心、专用处理核心、协处理器或其任何组合。根据某些实施例，处理器110连同计算机器100的其他部件可以是在一个或多个其他计算机器内执行的基于软件或基于硬件的虚拟化计算机器。

系统存储器130可以包括非易失性存储器，诸如只读存储器（“ROM”）、可编程只读存储器（“PROM”）、可擦除可编程只读存储器（“EPROM”）、闪存或者能够在具有输入功率或没有输入功率的情况下存储程序指令或数据的任何其他设备。系统存储器130还可以包括易失性存储器，诸如随机存取存储器（“RAM”）、静态随机存取存储器（“SRAM”）、动态随机存取存储器（“DRAM”）和同步动态随机存取存储器（“SDRAM”）。其他类型的RAM也可以用于实现系统存储器130。系统存储器130可以使用单个存储器模块或多个存储器模块来实现。虽然系统存储器130被描绘为计算机器的一部分，但是本领域技术人员将认识到，在不脱离本主题技术范围的情况下，系统存储器130可以与计算机器100分离。还应当领会，系统存储器130可以包括诸如存储介质140的非易失性存储设备或者与其结合操作。

存储介质140可以包括硬盘、软盘、光盘只读存储器（“CD-ROM”）、数字多功能光盘（“DVD”）、蓝光光盘、磁带、闪存、其他非易失性存储器设备、固态驱动器（“SSD”）、任何磁存储设备、任何光存储设备、任何电存储设备、任何半导体存储设备、任何基于物理的存储设备、任何其他数据存储设备或其任何组合或多重性。存储介质140可以存储一个或多个操作系统、应用程序和程序模块、数据或任何其他信息。存储介质140可以是计算机器的部分，或者连接到计算机器。存储介质140也可以是与诸如服务器、数据库服务器、云存储、网络附接存储等等之类的计算机器通信的一个或多个其他计算机器的部分。

应用模块200和其他OS应用模块可以包括一个或多个硬件或软件元件，所述一个或多个硬件或软件元件被配置为促进计算机器执行本文呈现的各种方法和处理功能。应用模块200和其他OS应用模块可以包括一个或多个算法或指令序列，所述一个或多个算法或指令序列被存储为与系统存储器130、存储介质140或两者相关联的软件或固件。因此，存储介质140可以表示机器或计算机可读介质的示例，在其上可以存储指令或代码以供处理器110执行。机器或计算机可读介质通常可以指代用于向处理器110提供指令的任何一个或多个介质。与应用模块200和其他OS应用模块相关联的这样的机器或计算机可读介质可以包括计算机软件产品。应当领会，包括应用模块200和其他OS应用模块的计算机软件产品也可以与用于经由网络、任何信号承载介质或任何其他通信或递送技术将应用模块200和其他OS应用模块递送到计算机器的一个或多个过程或方法相关联。应用模块200和其他OS应用模块还可以包括硬件电路，或用于配置硬件电路的信息、诸如用于FPGA或其他PLD的微码或配置信息。在一个示例性实施例中，应用模块200和其他OS应用模块可以包括能够执行由本文呈现的流程图和计算机系统描述的功能操作的算法。

输入/输出（“I/O”）接口150可以被配置为耦合到一个或多个外部设备，从一个或多个外部设备接收数据，并向一个或多个外部设备发送数据。这样的外部设备连同各种内部设备也可以被称为外围设备。I/O接口150可以包括用于将各种外围设备耦合到计算机器或处理器110的电气和物理连接。I/O接口150可以被配置为在外围设备、计算机器或处理器110之间传送数据、地址和控制信号。I/O接口150可以被配置为实现任何标准接口，诸如小型计算机系统接口（“SCSI”）、串行附接SCSI（“SAS”）、光纤通道、外围部件互连（“PCI”）、PCIexpress（PCIe）、串行总线、并行总线、高级技术附接（“ATA”）、串行ATA（“SATA”）、通用串行总线（“USB”）、Thunderbolt、FireWire、各种视频总线等等。I/O接口150可以被配置为仅实现一个接口或总线技术。替代地，I/O接口150可以被配置为实现多个接口或总线技术。I/O接口150可以被配置成系统总线120的部分、全部或者与系统总线120结合操作。I/O接口150可以包括一个或多个缓冲器，用于缓冲一个或多个外部设备、内部设备、计算机器或处理器120之间的传输。

I/O接口120可以将计算机器耦合到各种输入设备，所述各种输入设备包括鼠标、触摸屏、扫描仪、电子数字化仪、传感器、接收器、触摸板、轨迹球、相机、麦克风、键盘、任何其他指向设备或其任何组合。I/O接口120可以将计算机器耦合到各种输出设备，所述各种输出设备包括视频显示器、扬声器、打印机、投影仪、触觉反馈设备、自动化控制、机器人部件、致动器、马达、风扇、螺线管、阀、泵、传送器、信号发射器、灯等等。

计算机器100可以使用通过NIC 160与跨网络的一个或多个其他系统或计算机器的逻辑连接而在联网环境中操作。网络可以包括广域网（WAN）、局域网（LAN）、内联网、因特网、无线接入网、有线网络、移动网络、电话网络、光网络或其组合。网络可以是任何拓扑的分组交换、电路交换，并且可以使用任何通信协议。网络内的通信链路可以涉及各种数字或模拟通信介质，诸如光纤线缆、自由空间光学器件、波导、电导体、无线链路、天线、射频通信等等。

处理器110可以通过系统总线120连接至计算机器的其他元件或本文讨论的各种外围设备。应当领会，系统总线120可以在处理器110内，在处理器110外，或者两者兼具。根据一些实施例，处理器110、计算机器的其他元件或本文讨论的各种外围设备中的任何一个可以被集成到单个设备中，所述单个设备诸如是片上系统（“SOC”）、封装上系统（“SOP”）或ASIC设备。

实施例可以包括体现本文所描述和所图示功能的计算机程序，其中计算机程序在计算机系统中实现，所述计算机系统包括存储在机器可读介质中的指令和执行指令的处理器。然而，应当明白，在计算机编程中可以存在实现实施例的许多不同方式，并且实施例不应当被解释为限于任何一个计算机程序指令集，除非针对示例性实施例另有公开。此外，熟练的程序员将能够基于所附的流程图、算法和申请文本中的相关联描述来编写这样的计算机程序，以实现所公开实施例中的实施例。因此，对于充分理解如何制造和使用实施例，特定程序代码指令集的公开不被认为是必要的。此外，本领域技术人员将领会，本文描述的实施例的一个或多个方面可以由硬件、软件或其组合来执行，如可以在一个或多个计算系统中体现的。此外，对由计算机执行的动作的任何引用不应当被解释为由单个计算机执行，因为多于一个计算机可以执行该动作。

本文描述的示例实施例可以与执行先前所述的方法和处理功能的计算机硬件和软件一起使用。本文描述的系统、方法和过程可以在可编程计算机、计算机可执行软件或数字电路中体现。该软件可以存储在计算机可读介质上。例如，计算机可读介质可以包括软盘、RAM、ROM、硬盘、可移除介质、闪存、记忆棒、光学介质、磁光介质、CD-ROM等。数字电路可以包括集成电路、门阵列、构建块逻辑、现场可编程门阵列（FPGA）等。

先前呈现的实施例中所述的示例系统、方法和动作是说明性的，并且在替代实施例中，在不脱离各种实施例的范围和精神的情况下，某些动作可以按不同次序执行、彼此并行、完全省略和/或在不同的示例实施例之间组合，和/或可以执行某些附加动作。因此，这样的替代实施例包括在本文的描述中。

如本文使用的，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另有清楚指示。将进一步理解，术语“包括”和/或“包含”当在本说明书中使用时，指定所陈述的特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合的存在或添加。如本文使用的，术语“和/或”包括一个或多个相关联列出项目的任何和所有组合。如本文使用的，诸如“在X和Y之间”和“在大约X和Y之间”的短语应当解释为包括X和Y。如本文使用的，诸如“在大约X和Y之间”的短语意指“在大约X和大约Y之间”。如本文使用的，诸如“从大约X到Y”的短语意指“从大约X到大约Y”。

如本文使用的，“硬件”可以包括分立部件、集成电路、专用集成电路、现场可编程门阵列或其他合适硬件的组合。如本文使用的，“软件”可以包括一个或多个对象、代理、线程、代码行、子例程、单独的软件应用程序、两个或更多个代码行或者在一个或多个处理器上的两个或更多个软件应用程序中操作的其他合适的软件结构（其中处理器包括一个或多个微型计算机或其他合适的数据处理单元、存储器设备、输入-输出设备、显示器、诸如键盘或鼠标的数据输入设备、诸如打印机和扬声器的外围设备、相关联的驱动器、控制卡、电源、网络设备、坞站设备或者在软件系统的控制下结合处理器或其他设备操作的其他合适的设备）或其他合适的软件结构。在一个示例性实施例中，软件可以包括在诸如操作系统的通用软件应用中操作的一个或多个代码行或者其他合适的软件结构，以及在专用软件应用中操作的一个或多个代码行或者其他合适的软件结构。如本文使用的，术语“耦合”及其同源术语（诸如“耦合着”和“耦合了”）可以包括物理连接（诸如铜导体）、虚拟连接（诸如通过数据存储器设备的随机分配的内存位置）、逻辑连接（诸如通过半导体器件的逻辑门）、其他合适的连接或者这样的连接的合适组合。术语“数据”可以指代用于使用、传送或存储数据的合适的结构，诸如数据字段、数据缓冲器、具有数据值和发送者/接收者地址数据的数据消息、具有数据值的控制消息和使得接收系统或部件使用数据执行功能的一个或多个操作符，或者用于数据的电子处理的其他合适的硬件或软件部件。

一般而言，软件系统是在处理器上操作以响应于预定数据字段执行预定功能的系统。例如，系统可以由它执行的功能和它执行该功能的数据字段来定义。如本文使用的，名称系统——其中名称通常是由系统执行的一般功能的名称——指代被配置为在处理器上操作并对公开的数据字段执行公开的功能的软件系统。除非公开了特定的算法，否则本领域技术人员将已知的用于使用相关联数据字段执行功能的任何合适的算法都被设想为落入本公开的范围内。例如，生成包括发送者地址字段、接收者地址字段和消息字段的消息的消息系统将包含在处理器上操作的软件，该软件可以从处理器的合适系统或设备（诸如缓冲设备或缓冲系统）获得发送者地址字段、接收者地址字段和消息字段，可以将发送者地址字段、接收者地址字段和消息字段组装成合适的电子消息格式（诸如电子邮件消息、TCP/IP消息或具有发送者地址字段、接收者地址字段和消息字段的任何其他合适的消息格式），并且可以使用处理器的电子消息系统和设备通过通信介质（诸如网络）传输电子消息。本领域的普通技术人员将能够基于前述公开内容为特定的应用提供特定的编码，该公开内容旨在阐述本公开内容的示例性实施例，并且不向本领域普通技术人员之外的人——诸如不熟悉用合适的编程语言的编程或处理器的人——提供教程。用于执行功能的特定算法可以以流程图的形式或以其他合适的格式来提供，其中数据字段和相关联功能可以以示例性的操作次序来阐述，其中该次序可以被重新布置为合适的次序，并且除非明确声明是限制性的，否则不旨在是限制性的。

上述公开的实施例出于说明目的被呈现，并且使得本领域普通技术人员能够实践本公开，但本公开不旨在是穷举的或限于公开的形式。在不脱离本公开的范围和精神的情况下，许多非实质性的修改和变化对于本领域普通技术人员而言将是清楚的。权利要求的范围旨在广泛覆盖所公开的实施例和任何这样的修改。此外，以下条款表示本公开的附加实施例，并且应当被认为在本公开的范围内：

条款1，一种用于估计大数据的分析和交互式探索的系统，所述系统包括：模型构造器，被配置为：使用特征选择、至少一个预测变量和至少一个结果变量在大数据中标识重要预测变量；使用机器学习算法或增量机器学习算法在大数据中标识重要预测变量之间的交互和重要预测变量中的结构关系中的至少一个；以及基于标识的交互和标识的关系中的至少一个，将重要预测变量分区成至少一个分层；以及采样器，被配置为：通过使用基于至少一个分层构建的查询来查询大数据，从而生成数据子集；分析生成器，被配置为：基于数据子集和至少一个分析算法生成至少一个结果变量的分析数据；以及生成至少一个可视化，所述至少一个可视化包括至少一个结果变量、重要预测变量、至少一个分层、数据子集和分析数据中的至少一个；其中所述大数据是存储数据和流式数据中的至少一个；

条款2，根据条款1所述的系统，其中，所述至少一个预测变量和所述至少一个结果变量是更新变量，并且所述数据子集是更新的数据子集；

条款3，根据条款2所述的系统，其中，所述更新变量基于用户定义的标准、至少一个先前维护的数据子集和流式数据中的至少一个进行更新；

条款4，根据条款1所述的系统，其中，使用至少一个树算法标识和分区重要预测变量；其中所述查询是使用近似查询处理构造的；

条款5，根据条款1所述的系统，其中，所述预测变量和结果变量是从逻辑数据列选择的感兴趣的连续变量和分类变量中的至少一个；

条款6，根据条款1所述的系统，其中，所述采样器进一步被配置为通过使用根据准确度标准基于所述至少一个分层构造的查询来查询所述大数据，从而生成数据子集；

条款7，根据条款6所述的系统，其中，所述准确度标准是时间和可接受的误差极限中的一个；

条款8，一种用于估计大数据的分析和交互式探索的装置，所述装置包括：模型构造器，被配置为：使用机器学习算法或增量机器学习算法，在大数据中连续并在存储器中标识重要预测变量之间的交互和重要预测变量中的结构关系中的至少一个；基于标识的交互和标识的关系中的至少一个，将重要预测变量连续分区成至少一个分层；以及采样器，被配置为：通过使用基于所述至少一个分层构建的查询来查询大数据，连续并在存储器中生成数据子集；其中所述大数据是存储数据和流式数据中的至少一个；

条款9，根据条款8所述的装置，其中，所述采样器进一步被配置为通过使用根据准确度标准基于所述至少一个分层构造的查询来查询所述大数据，从而生成数据子集；

条款10，根据条款8所述的装置，进一步包括：分析生成器，被配置为：基于数据子集和至少一个分析算法，生成所述至少一个结果变量的分析数据；以及生成至少一个可视化，所述至少一个可视化包括至少一个结果变量、重要预测变量、至少一个分层、数据子集和分析数据中的至少一个；

条款11，根据条款8所述的装置，其中，所述至少一个预测变量和所述至少一个结果变量是更新变量，并且所述数据子集是更新的数据子集；

条款12，根据条款11所述的装置，其中，所述更新变量基于用户定义的标准、至少一个先前维护的数据子集和流式数据中的至少一个进行更新；

条款13，根据条款8所述的装置，其中，使用至少一个树算法标识和分区重要预测变量；其中所述查询是使用近似查询处理构造的；

条款14，根据条款8所述的装置，其中，所述预测变量和结果变量是从逻辑数据列选择的感兴趣的连续变量和分类变量中的至少一个；

条款15，根据条款8所述的装置，其中，所述采样器进一步被配置为通过使用根据准确度标准基于所述至少一个分层构造的查询来查询所述大数据，从而生成数据子集；

条款16，根据条款14所述的系统，其中，所述准确度标准是时间和可接受的误差极限中的一个；

条款17，一种用于估计大数据的分析和交互式探索的方法，该方法包括：使用特征选择、至少一个预测变量和至少一个结果变量在大数据中标识重要预测变量；使用机器学习算法或增量机器学习算法在大数据中标识重要预测变量之间的交互和重要预测变量中的结构关系中的至少一个；基于标识的交互和标识的关系中的至少一个，将重要预测变量分区成至少一个分层；通过使用基于所述至少一个分层构建的查询来查询所述大数据，生成数据子集；基于所述数据子集和至少一个分析算法，生成所述至少一个结果变量的分析数据；以及生成至少一个可视化，所述至少一个可视化包括至少一个结果变量、重要预测变量、至少一个分层、数据子集和分析数据中的至少一个；其中所述大数据是存储数据和流式数据中的至少一个；

条款18，根据条款15所述的方法，其中，所述至少一个预测变量和所述至少一个结果变量是更新变量，并且所述数据子集是更新的数据子集，并且其中，所述更新变量基于用户定义的标准、至少一个先前维护的数据子集和流式数据中的至少一个进行更新；

条款19，根据条款17所述的方法，其中，使用至少一个树算法标识和分区重要预测变量；其中所述查询是使用近似查询处理构造的；和

条款20，根据条款17所述的方法，进一步包括：通过使用根据准确度标准基于所述至少一个分层构造的查询来查询大数据，从而生成数据子集；其中所述准确度标准是时间和可接受的误差极限中的一个；其中所述预测变量和结果变量是从逻辑数据列选择的感兴趣的连续变量和分类变量中的至少一个。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种适用于多种大数据管理系统的交互式查询方法 [P] . 中国专利： CN107515887B . 2021-01-08
2. 一种适用于多种大数据管理系统的交互式查询方法 [P] . 中国专利： CN107515887A . 2017-12-26
3. SYSTEM FOR RAPID INTERACTIVE EXPLORATION OF BIG DATA [P] . 美国专利： US2021216544A1 . 2021-07-15

机译：大数据快速交互式探索系统
4. A SYSTEM FOR RAPID INTERACTIVE EXPLORATION OF BIG DATA [P] . 美国专利： WO2021142332A1 . 2021-07-15

机译：大数据快速互动探索系统
5. Systems and/or methods for interactive exploration of dependencies in streaming data [P] . 美国专利： US9792259B2 . 2017-10-17

机译：用于交互式探索流数据中的依存关系的系统和/或方法