首页> 中国专利> 作为服务反馈回路引擎的具有综合数据的分布式计算系统

作为服务反馈回路引擎的具有综合数据的分布式计算系统

摘要

提供了用于实现分布式计算系统反馈回路引擎的各种实施例、方法和系统。最初,训练数据集报告被访问。训练数据集报告标识具有针对数据变化参数的值的综合数据资产。综合数据资产与框架集相关联。基于训练数据集报告,更新具有综合数据资产变化的综合数据资产。框架集使用经更新的综合数据资产来更新。

著录项

说明书

背景技术

用户依靠不同类型的技术系统来完成任务。技术系统可以基于机器学习来改进,机器学习使用统计技术来使计算机能够利用数据逐步改进特定任务的性能,而无需被显式编程。例如,机器学习可以用于数据安全、人身安全、欺诈检测、医疗保健、自然语言处理、在线搜索和推荐、金融交易和智能汽车。对于这些领域或行业中的每一个,机器学习模型利用训练数据集来训练,该训练数据集是被用来创建用于使学习任务和机器学习应用匹配的框架的示例数据集。例如,面部识别系统可以被训练,以将人的面部的独特特征与面部的已知特征集进行比较,以正确地标识人。随着在不同领域中对机器学习的日益增长的使用以及正确训练机器学习模型的重要性,对机器学习训练系统的计算操作的改进将提供机器学习任务和应用的更高效的性能,并且将改进机器学习训练系统的图形用户界面的用户导航。

发明内容

本发明的实施例涉及用于提供支持综合数据即服务的分布式计算系统的方法、系统和计算机存储介质。作为背景,分布式计算系统可以基于面向服务的架构操作,其中服务使用不同的服务模型而被提供。在高层级,服务模型可以提供对与提供对应服务相关联的基础操作的抽象。服务模型的示例包括基础设施即服务、平台即服务、软件即服务和功能即服务。利用这些模型中的任一模型,客户可以开发、运行、管理服务的各个方面,而无需维护或开发使用面向服务的架构而抽象的操作特征。

转向机器学习和训练数据集,机器学习使用统计技术来使计算机能够利用数据逐步改进特定任务的性能,而无需被显式编程。训练数据集是机器学习领域的组成部分。高质量的数据集可以帮助改进机器学习算法以及与机器学习硬件和软件相关联的计算操作。创建高质量的训练数据集可能需要大量的工作。例如,对用于训练数据集的数据加标签可能特别繁琐,这通常会导致加标签过程的不准确。

当涉及使训练数据集大众化或普遍可用于跨数个不同领域使用时,用于寻找训练数据集的常规方法明显不足。而且,用于开发机器学习训练数据集的理论解决方案甚至尚未被完全定义或描述,因为用于实现这种解决方案的基础设施不可获得,或过于昂贵以至于无法进行来实现用于开发训练数据集的当前技术的备选方案。总体而言,在常规的机器学习训练服务中,围绕开发机器学习训练数据集的全面功能性受到限制。

本公开中描述的实施例涉及用于使用提供综合数据即服务(“SDaaS”)的分布式计算系统,来改进对机器学习训练数据集的访问的技术。SDaaS可以指代分布式(云)计算系统服务,该分布式(云)计算系统服务使用面向服务的架构来实现,以提供机器学习训练服务,同时抽象化经由SDaaS服务而被管理的基础操作。例如,SDaaS提供了一种机器学习训练系统,其允许客户配置、生成、访问、管理和处理用于机器学习的综合数据训练数据集。特别地,SDaaS在没有通常与训练数据集的手动开发相关联的复杂性的情况下操作。可以基于SDaaS引擎、管理器、模块或组件以多种方式交付SDaaS,该SDaaS引擎、管理器、模块或组件包括资产组装引擎、场景组装引擎、框架集组装引擎、框架集包(frameset package)生成器、框架集包存储库、反馈回路引擎和众包引擎。在分布式计算系统上将SDaaS实现成服务的可观察的效果是,综合数据资产的大量产生和可用性,综合数据资产支持基于内参变化(intrinsic-parameter variation)和外参变化(extrinsic-parameter variation)来生成训练数据集,其中内参变化和外参变化提供资产和场景的可编程机器学习数据表示。使用SDaaS的组件提供了附加的特定功能性,如下面更详细地描述的。

因此,本发明的一个示例实施例提供了一种分布式计算系统资产组装引擎。资产组装引擎被配置为从第一分布式综合数据即服务(SDaaS)上传界面接收第一源资产。引擎还被配置为从第二分布式SDaaS上传界面接收第二源资产。引擎还被配置为摄取第一源资产和第二源资产。摄取源资产包括自动计算针对源资产的资产变化参数的值。资产变化参数可编程以用于机器学习。引擎还被配置为生成第一综合数据资产,第一综合数据资产包括针对资产变化参数的第一组值。引擎还被配置为生成第二综合数据资产,第二综合数据资产包括针对资产变化参数的第二组值。引擎还被配置为将第一综合数据资产和第二综合数据资产存储在综合数据资产存储库中。

因此,本发明的一个示例实施例提供了一种分布式计算系统场景组装引擎。场景组装引擎被配置为从分布式综合数据即服务(SDaaS)集成开发环境(IDE)接收对第一综合数据资产的选择和对第二综合数据资产的选择。综合数据资产与资产变化参数和场景变化参数相关联。资产变化参数和场景变化参数可编程以用于机器学习。引擎还被配置为接收用于生成综合数据场景的值。该值对应于资产变化参数或场景变化参数。引擎还被配置为基于该值,使用第一综合数据资产和第二综合数据资产来生成综合数据场景。

因此,本发明的一个示例实施例提供了一种分布式计算系统框架集组装引擎。框架集组装引擎被配置为访问综合数据场景。引擎还被配置为确定针对场景变化参数的第一组值。第一组值被自动确定以用于生成综合数据场景框架集。引擎还被配置为基于第一组值来生成综合数据场景框架集。综合数据场景框架集至少包括框架集中的第一帧,该第一帧包括基于针对场景变化参数的值而被更新的综合数据场景。引擎还被配置为存储综合数据场景框架集。

因此,本发明的一个示例实施例提供了一种分布式计算系统框架集包生成器。框架集包生成器被配置为访问框架集包生成器简档。框架集包生成器简档与第一图像生成设备相关联。框架集包生成器简档包括与第一图像生成设备相关联的已知的设备可变性参数。引擎还被配置为基于框架集包生成器简档来生成框架集包。框架集包生成器简档包括针对已知设备可变性参数的值。引擎还被配置为存储框架集包。

因此,本发明的一个示例实施例提供了一种分布式计算系统框架集包存储库。框架集包存储库被配置为从框架集包查询界面接收针对框架集包的查询。框架集查询界面包括多个框架集包类别。引擎还被配置为基于框架集包简档来标识查询结果框架集包。引擎还被配置为传输查询结果框架集包。

因此,本发明的一个示例实施例提供了一种分布式计算系统反馈回路引擎。反馈回路引擎被配置为访问训练数据集报告。训练数据集报告标识具有针对资产变化参数的值的综合数据资产。综合数据资产与框架集相关联。引擎还被配置为基于训练数据集报告,利用综合数据资产变化来更新综合数据资产。引擎还被配置为使用经更新的综合数据资产来更新框架集。

因此,本发明的一个示例实施例提供了一种分布式计算系统众包引擎。众包引擎被配置为从分布式综合数据即服务(SDaaS)众包界面接收源资产。引擎还被配置为经由分布式SDaaS众包界面接收用于源资产的众包标记。引擎还被配置为部分地基于众包标记来摄取源资产。摄取源资产包括自动计算针对源的资产变化参数的值。资产变化参数可编程以用于机器学习。引擎还被配置为生成众包综合数据资产,众包综合数据资产包括针对资产变化参数的值。

如此,本文描述的实施例基于使用分布式计算系统提供综合数据即服务的实施方式,改进了用于生成训练数据集的计算功能和操作。例如,基于SDaaS操作,消除了针对训练数据集的手动开发(例如,加标签和标记)和提炼(例如,搜索)所需的计算操作,该SDaaS操作使用综合数据资产自动开发训练数据集,并且基于训练数据集报告来自动提炼训练数据集,训练数据集报告指示将在机器学习训练服务中改进机器学习模型的附加综合数据资产或场景。在这方面,SDaaS解决了手动开发机器学习训练数据集的特定问题,并且改进了用于在分布式计算系统中训练机器学习模型的现有过程。

提供本发明内容来以简化的形式介绍一些概念,这些概念将在下面的具体实施方式中进一步被描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。

附图说明

下面参考附图详细描述本技术,其中:

图1A和图1B是根据本发明的实施例的用于提供综合数据即服务的示例分布式计算的框图;

图2A和图2B是图示根据本发明的实施例的分布式计算系统综合数据即服务的示例实现的流程图;

图3是图示根据本发明的实施例的示例分布式计算系统综合数据即服务界面的示意图;

图4是图示根据本发明的实施例的示例分布式计算系统综合数据即服务工作流的示意图;

图5是图示根据本发明的实施例的示例分布式计算系统综合数据即服务界面的示意图;

图6是图示根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图7是图示根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图8是图示根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图9是图示根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图10是图示根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图11是图示根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图12是图示根据本发明的实施例的示例分布式计算系统综合数据即服务操作的流程图;

图13是适合用于实现本发明的实施例的示例分布式计算环境的框图;以及

图14是适合用于实现本发明的实施例的示例计算环境的框图。

具体实施方式

分布式计算系统可以被用来提供不同类型的面向服务的模型。作为背景,服务模型可以提供对与提供对应服务相关联的基础操作的抽象。服务模型的示例包括基础设施即服务、平台即服务、软件即服务和功能即服务。利用这些模型中的任一模型,客户可以开发、运行、管理服务的各个方面,而无需维护或开发使用面向服务的架构而抽象的操作特征。

机器学习使用统计技术来使计算机能够利用数据逐步改进特定任务的性能,而无需被显式编程。例如,机器学习可以用于数据安全、人身安全、欺诈检测、医疗保健、自然语言处理、在线搜索和推荐、金融交易和智能汽车。对于这些领域或行业中的每一个,机器学习模型利用训练数据集来训练,该训练数据集是被用来创建用于使学习任务和机器学习应用匹配的框架的示例数据集。训练数据集是机器学习领域的组成部分。高质量数据集可以帮助改进机器学习算法以及与机器学习硬件和软件相关联的计算操作。机器学习平台基于支持监督和半监督机器学习算法的训练数据集来进行操作;然而,由于给数据加标签需要大量时间,因此高质量的训练数据集通常难以产生且成本昂贵。机器学习模型依赖于高质量的加标签的训练数据集来进行监督学习,以便该模型可以在预测、分类和分析不同类型的现象上提供可靠的结果。在没有正确类型的训练数据集的情况下,开发可靠的机器学习模型可能是不可能的。训练数据集包括带标签、带标记和带注释的条目,以有效地训练机器学习算法。

当涉及使训练数据集大众化或普遍可用于跨数个不同领域使用时,用于寻找训练数据集的常规方法明显不足。当前,这种有限的解决方案包括将加标签功能外包、重新利用现有的训练数据和标签、从免费源中收集您自己的训练数据和标签、依赖已经对加标签的数据进行预训练的第三方模型以及利用众包标签服务。这些解决方案中的大多数要么耗时、昂贵、不适于敏感项目,要么显然不够稳健,无法应对大规模的机器学习项目。而且,用于开发机器学习训练数据集的理论解决方案甚至尚未被完全定义或描述,因为用于实现这种解决方案的基础设施不可获得,或过于昂贵以至于无法进行来实现用于开发训练数据集的当前技术的备选方案。总体而言,在常规的机器学习训练服务中,围绕开发机器学习训练数据集的全面功能性受到限制。

本文描述的实施例提供了用于实现提供综合数据即服务(“SDaaS”)的分布式计算系统的简单且有效的方法和系统。SDaaS可以指代分布式(云)计算系统服务,该分布式(云)计算系统服务使用面向服务的架构来实现,以提供机器学习训练服务,同时抽象化经由SDaaS服务而被管理的基础操作。例如,SDaaS提供了一种机器学习训练系统,其允许客户配置、生成、访问、管理和处理用于机器学习的综合数据训练数据集。特别地,SDaaS在没有通常与训练数据集的手动开发相关联的复杂性的情况下操作。可以基于SDaaS引擎、管理器、模块或组件以多种方式交付SDaaS,该SDaaS引擎、管理器、模块或组件包括资产组装引擎、场景组装引擎、框架集组装引擎、框架集包生成器、框架集包存储库、反馈回路引擎和众包引擎。在分布式计算系统上实现SDaaS的可观察效果是综合数据资产的大量产生和可用性,综合数据资产支持基于内参变化和外参变化生成训练数据集,其中内参变化和外参变化提供资产和场景的可编程机器学习数据表示。使用SDaaS的组件提供了附加的特定功能性,如下面更详细地描述的。

在本文中预期的是,源资产可以包括若干个不同参数,该若干个不同参数可以基于本领域中的已知技术被计算地确定。通过示例,源资产可以指代几何数据的三维表示。源资产可以被表示为由三角形组成的网格,其中三角形越平滑并且模型的表面的细节越多,则源的大小越大。在这方面,源资产可以跨从具有大量细节的高多边形模型到具有较少细节的低多边形模型的范围上被表示。将源资产表示为变化的细节水平的过程可以被称为抽取(decimation)。低多边形模型可以被用在不同类型的过程中,但是这些过程对于高模型来说在计算上将是昂贵的。如此,自动抽取过程可以被实现来以不同的细节水平存储源资产。其他类型的可编程参数可以被确定,并且与作为综合资产被存储的源资产相关联。

本发明的实施例在两层可编程参数系统上操作,其中机器学习训练服务可以基于访问和确定改进训练数据集和扩展模型训练所需的第一层参数(例如,资产参数)和/或第二层参数(例如,场景或框架集参数),来自动地或基于手动干预来训练模型。机器学习训练服务可以支持深度学习和深度学习网络,并且可以支持其他类型的机器学习算法和网络。机器学习训练服务还可以将生成对抗网络实现成无监督机器学习的类型。SDaaS可以以不同的方式来利用这些基础分层参数。例如,对框架集收费多少;在知晓设备参数并且能够在开发训练数据集时操纵这些参数的情况下,如何为特定设备开发不同类型的框架集。

示例操作环境和示意性说明

参考图1A和图1B,分布式计算系统100的组件可以一起操作以提供用于本文描述的SDaaS的功能形。分布式计算系统100支持处理综合数据资产,来生成和处理用于机器学习的训练数据集。在高层级,分布式计算支持用于大量产生训练数据集的分布式框架。特别地,建立在特征上的分布式计算架构包括文件压缩、大规模的启用GPU的硬件、非结构化存储装置、分布式骨干网络,固有地支持以分布式方式提供SDaaS功能性的能力,以使多个用户(例如,艺术家或数据管理员)可以同时访问在综合数据资产上的操作。

图1A包括客户端设备130A和界面128A以及客户端设备130B和界面128B。分布式计算系统还包括支持SDaaS功能性的数个组件,这些组件包括资产组装引擎110、场景组装引擎112、框架集组装引擎114、框架集包生成器116、框架集包存储库118、反馈回路引擎120、众包引擎122、机器学习训练服务124和SDaaS存储库126。图1B图示了资产126A和框架集126B,资产126A和框架集126B被存储在SDaaS存储库126中,并且与机器学习训练服务集成在一起,以用于自动访问资产、场景和框架集,如下面更详细地描述的。

资产组装引擎110可以被配置为从第一分布式综合数据即服务(SDaaS)上传界面接收第一源资产,并且可以从第二分布式SDaaS上传界面接收第二源资产。可以摄取第一源资产和第二源资产,其中摄取源资产包括自动计算针对源资产的资产变化参数的值。例如,图2A包括被摄取到资产存储库(即,资产220)中的源资产210。资产变化参数可编程以用于机器学习。资产组装引擎可以生成第一综合数据资产,第一综合数据资产包括资产变化参数的第一组值,并且可以生成第二综合数据资产,第二综合数据资产包括资产变化参数的第二组值。第一综合数据资产和第二综合数据资产被存储在综合数据资产存储库中。

分布式SDaaS上传界面(例如,界面128A或128B)与SDaaS集成开发环境(IDE)相关联。SDaaS IDE支持标识针对源资产的资产变化参数的附加值。该值与基于内参变化和外参变化生成训练数据集相关联,其中内参变化和外参变化提供资产和场景的可编程机器学习数据表示。摄取源资产是基于机器学习综合数据标准的,该机器学习综合数据标准包括文件格式和数据集训练架构。文件格式可以指代硬标准,而数据集训练架构可以指代软标准,例如自动或手动人工干预。

参考图2,摄取源资产(例如,源资产202)还包括自动计算针对源资产的场景变化参数的值,其中场景变化参数可编程以用于机器学习。可以生成综合数据资产简档,其中综合数据资产简档包括资产变化参数的值。图2还图示了附加工件,诸如边界框208、缩略图210、3D可视化212和优化资产214。

场景组装引擎112可以被配置为从分布式综合数据即服务(SDaaS)集成开发环境(IDE)接收对第一综合数据资产的选择和对第二综合数据资产的选择。例如,参考图4,在第一层处的资产和参数410可以用于生成在第二层处的场景和参数420,并且还可以用于定义框架集430。综合数据资产与资产变化参数和场景变化参数相关联。资产变化参数和场景变化参数可编程以用于机器学习。场景组装引擎可以接收用于生成综合数据场景的值,其中该值对应于资产变化参数或场景变化参数。基于该值,使用第一综合数据资产和第二综合数据资产来生成综合数据场景。

场景组装引擎客户端(例如,客户端设备130B)可以被配置为接收针对综合数据资产的查询,其中该查询经由SDaaS IDE被接收,并且生成查询结果综合数据资产;并且引起基于查询结果综合数据而被生成的综合数据场景的显示。可以基于从至少两个场景组装引擎客户端接收的用于场景生成的值来生成综合数据场景。综合数据场景与场景预览和元数据相关联。

框架集组装引擎114可以被配置为访问综合数据场景并且确定针对场景变化参数的第一组值,其中该第一组值被自动地确定以用于生成综合数据场景框架集。框架集组装引擎还可以基于第一组值来生成综合数据场景框架集,其中综合数据场景框架集至少包括框架集中的第一帧,该第一帧包括基于针对场景变化参数的值而被更新的综合数据场景;并且存储综合数据场景框架集。针对场景变化参数的第二组值被手动地选择以用于生成综合数据场景框架集。使用综合数据即服务(SDaaS)集成开发环境(IDE)来手动地选择第二组值,综合数据即服务(SDaaS)集成开发环境(IDE)支持包括文件格式和数据集训练架构的机器学习综合数据标准。生成综合数据场景框架集包括:基于根据第一组值更新综合数据场景,来迭代地生成针对综合数据场景框架集的帧。

框架集包生成器116可以被配置为访问框架集包生成器简档,其中框架集包生成器简档与第一图像生成设备相关联,其中框架集包生成器简档包括与第一图像生成设备相关联的已知的设备可变性参数。框架集包基于框架集包生成器简档,其中框架集包生成器简档包括针对已知的设备可变性参数的值;并且存储框架集包。框架集包包括基于至少两个综合数据场景的类别。生成框架集包基于将与框架集包一起训练的预期机器学习算法,其中在框架集包生成器简档中标识预期机器学习算法。框架集包包括向框架集包指派值量化器。框架集包基于包括综合数据资产的综合数据场景而被生成。

框架集包存储118可以被配置为:从框架集包查询界面接收针对框架集包的查询,其中框架集包查询界面包括多个框架集包类别;基于框架集包简档标识查询结果框架集包;以及传输查询结果框架集包。该查询的至少一部分触发自动建议的框架集包,其中该自动建议的框架集包与该框架集的综合数据场景相关联,综合数据场景具有综合数据资产。框架集包与图像生成设备相关联,其中图像生成设备包括已知的设备可变性参数,已知的设备可变性参数可编程以用于机器学习。查询结果框架集包被传输到在分布式计算系统上操作的内部机器学习模型训练服务(例如,机器学习训练服务124)或外部机器学习模型训练服务。

反馈回路引擎120可以被配置为访问训练数据集报告,其中训练数据集报告标识具有针对资产变化参数的值的综合数据资产,其中综合数据资产与框架集相关联。基于训练数据集报告,利用综合数据资产变化更新综合数据资产;并且使用经更新的综合数据资产来更新框架集。在训练数据集报告中手动或自动标识该值以用于更新框架集。向更新框架集指派值量化器(例如,进行更新的费用)。训练数据集报告与在分布式系统上操作的内部机器学习模型训练服务或外部机器学习模型训练服务相关联。

众包引擎122可以被配置为:从分布式综合数据即服务(SDaaS)众包界面接收源资产;经由分布式SDaaS众包界面接收用于源资产的众包标记;部分地基于众包标记,摄取源资产,其中摄取源资产包括自动计算针对源资产的资产变化参数的值,其中资产变化参数可编程以用于机器学习;以及生成众包综合数据资产,众包综合数据资产包括针对资产变化参数的值。值量化器用于该众包综合数据资产。众包综合数据资产简档包括资产变化参数。参考图5,众包界面500可以支持上传和标记源资产以用于摄取。

示例流程图

参考图6-图12,提供流程图,其图示了用于实现分布式计算系统综合数据即服务的方法。可以使用本文描述的分布式计算系统来执行该方法。在各实施例中,一个或多个计算机存储介质具有在其上体现的计算机可执行指令,当由一个或多个处理器执行时,该计算机可执行指令可以使一个或多个处理器在分布式计算系统100中执行该方法。

图6是图示根据实施例的用于实现分布式计算系统资产组装引擎的过程600的流程图。最初,在框610处,从第一分布式综合数据即服务(SDaaS)上传界面接收第一源资产。在框620处,从第二分布式SDaaS上传界面接收第二源资产。在框630处,摄取第一源资产和第二源资产。摄取源资产包括自动计算针对源资产的资产变化参数的值,其中资产变化参数可编程以用于机器学习。在框640处,生成第一综合数据资产,第一综合数据资产包括针对资产变化参数的第一组值。在框650处,生成第二综合数据资产,第二综合数据资产包括针对资产变化参数的第二组值。在框660处,将第一综合数据资产和第二综合数据资产存储在综合数据资产存储库中。

图7是图示根据实施例的用于实现分布式计算系统场景组装引擎的过程700的流程图。最初,在框710处,从分布式综合数据即服务(SDaaS)集成开发环境(IDE)接收对第一综合数据资产的选择和对第二综合数据资产的选择。综合数据资产与资产变化参数和场景变化参数相关联,资产变化参数和场景变化参数可编程以用于机器学习。在框720处,接收用于生成综合数据场景的值。该值对应于资产变化参数或场景变化参数。在框730处,基于该值,使用第一综合数据资产和第二综合数据资产来生成综合数据场景。

图8是图示根据实施例的用于实现分布式计算系统框架集组装引擎的过程800的流程图。最初,在框810处,访问综合数据场景。在框820处,确定场景变化参数的第一组值。第一组值被自动确定用于生成综合数据场景框架集。在框830处,基于第一组值来生成综合数据场景框架集。综合数据场景框架集至少包括框架集中的第一帧,第一帧包括基于针对场景变化参数的值而被更新的综合数据场景。在框840处,存储综合数据场景框架集。

图9是图示根据实施例的用于实现分布式计算框架集包生成器的过程900的流程图。在框910处,访问框架集包生成器简档。框架集包生成器简档与第一图像生成设备相关联。框架集包生成器简档包括与第一图像生成设备相关联的已知设备可变性参数。在框920处,基于框架集包生成器简档来生成框架集包。框架集包生成器简档包括针对已知设备可变性参数的值。在框930处,存储框架集包。

图10是图示根据实施例的用于实现分布式计算系统框架集包存储库的过程1000的流程图。在框1010处,从框架集包查询界面接收对框架集包的查询。框架集查询界面包括多个框架集包类别。在框1020处,基于框架集包简档来标识查询结果框架集包。在框1030处,传输查询结果框架集包。

图11是图示根据实施例的用于实现分布式计算系统反馈回路引擎的过程1100的流程图。在框1110处,访问训练数据集报告。训练数据集报告标识具有针对资产变化参数的值的综合数据资产。综合数据资产与框架集相关联。在框1120处,基于训练数据集报告,用综合数据资产变化更新综合数据资产。在框1130处,使用经更新的综合数据资产来更新框架集。

图12是图示根据实施例的用于实现分布式计算系统众包引擎的过程1200的流程图。在框1210处,从分布式综合数据即服务(SDaaS)众包界面接收源资产。在框1220处,经由分布式SDaaS众包界面接收用于源资产的众包标记。在框1230处,部分地基于众包标记,摄取源资产。摄取源资产包括自动计算针对源资产的资产变化参数的值。资产变化参数可编程以用于机器学习。在框1240处,生成包括针对资产变化参数的值的众包综合数据资产。

有利地,基于使用分布式计算系统提供综合数据即服务的实施方式,本文描述的实施例改进了用于生成训练数据集的计算功能和操作。特别地,对计算功能和操作的改进与分布式基础设施相关联,该分布式基础设施用于基于SDaaS操作来大量产生训练数据集。例如,基于SDaaS操作,消除了手动开发(例如,加标签和标记)和提炼(例如,搜索)训练数据集所需的计算操作,该SDaaS操作使用综合数据资产自动开发训练数据集,并且基于训练数据集报告来自动提炼训练数据集,训练数据集报告指示将在机器学习训练服务中改进机器学习模型的附加综合数据资产或场景。

此外,使用在相同分布式计算系统中操作的内部机器学习训练服务来改进训练数据集的存储和取回,从而减轻了计算开销。基于引擎的非常规布置和针对SDaaS系统的步骤的有序组合的一组定义的非常规的规则来实现SDaaS操作。在这方面,SDaaS解决了手动开发机器学习训练数据集的特定问题,并且改进了用于在分布式计算系统中训练机器学习模型的现有过程。总体而言,这些改进还导致更少的CPU计算、更小的存储器需求,以及在生成和利用机器学习训练数据集上的增加的灵活性。

示例分布式计算环境

现在参考图13,图13图示了其中可以采用本公开的实现的示例分布式计算环境1300。特别地,图13示出了云计算平台1310中的分布式计算系统综合数据即服务的高层级架构,其中系统支持软件组件的无缝修改。应当理解,本文描述的这种布置和其他布置仅通过示例被阐述。例如,如上所述,本文描述的元件中的许多元件可以被实现为分立组件或分布式组件或与其他组件结合,并且以任何合适的组合和位置来实现。除了或代替所示出的那些布置和元件,还可以使用其他布置和元件(例如,机器、接口、功能、命令和功能的分组等)。

数据中心可以支持分布式计算环境1300,分布式计算环境1300包括云计算平台1310、机架1320和机架1320中的节点1330(例如,计算设备、处理单元或刀片)。可以利用云计算平台1310来实现该系统,云计算平台1310跨不同的数据中心和地理区域运行云服务。云计算平台1310可以实现用于供应和管理云服务的资源分配、部署、升级和管理的结构控制器1340组件。通常,云计算平台1310用于以分布式方式存储数据或运行服务应用。数据中心中的云计算基础设施1310可以被配置为托管和支持特定服务应用的端点的操作。云计算基础设施1310可以是公共云、私有云或专用云。

节点1330可以被提供有主机1350(例如,操作系统或运行时环境),主机1350在节点1330上运行定义的软件栈。节点1330还可以被配置为在云计算平台1310内执行专门的功能性(例如,计算节点或存储节点)。节点1330被分配以运行租户的服务应用的一个或多个部分。租户可以指代利用云计算平台1310的资源的客户。支持特定租户的云计算平台1310的服务应用组件可以被称为租户基础设施或租赁。术语服务应用、应用或服务在本文中可互换使用,并且泛指在数据中心之上运行的任何软件或软件部分,或数据中心内的访问存储装置和计算设备位置。

当节点1330支持多于一个的单独服务应用时,节点1330可以被划分为虚拟机(例如,虚拟机1352和虚拟机1354)。物理机也可以并发地运行单独的服务应用。虚拟机或物理机可以被配置为由云计算平台1310中的资源1360(例如,硬件资源和软件资源)支持的个体化计算环境。应当预期,可以针对特定服务应用配置资源。此外,每个服务应用可以被划分为功能部分,以使每个功能部分能够在单独的虚拟机上运行。在云计算平台1310中,可以使用多个服务器来运行服务应用并且在集群中执行数据存储操作。特别地,服务器可以独立地执行数据操作,但是作为被称为集群的单个设备公开。集群中的每个服务器可以被实现为节点。

客户端设备1380可以被链接到云计算平台1310中的服务应用。客户端设备1380可以是任何类型的计算设备,例如其可以对应于参考图13描述的计算设备1300。客户端设备1380可以被配置为向云计算平台1310发出命令。在各实施例中,客户端设备1380可以通过虚拟互联网协议(IP)和负载均衡器或将通信请求引导到云计算平台1310中的指定端点的其他方式,来与服务应用通信。云计算平台1310的组件可以通过网络(未示出)彼此通信,网络可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。

示例计算环境

在简要描述了本发明的实施例的概述之后,下面描述可以在其中实现本发明的实施例的示例性操作环境,以便为本发明的各个方面提供一般上下文。特别地,首先参考图14,示出了用于实现本发明的实施例的示例性操作环境,并且将其整体上指定为计算设备1400。计算设备1400只是合适的计算环境的一个示例,并且不旨在暗示对本发明的功能性或者使用范围的任何限制。计算设备1400也不应被解释为具有与所图示的任何一个组件或组件的组合有关的任何依赖性或要求。

可以在由计算机或其他机器(诸如,个人数据助理或其他手持式设备)执行的计算机代码或机器可用指令(包括诸如程序模块的计算机可执行指令)的一般上下文中描述本发明。一般地,包括例程、程序、对象、组件、数据结构等在内的程序模块是指执行特定任务或实现特定抽象数据类型的代码。可以在各种系统配置中实践本发明,系统配置包括手持式设备、消费电子产品、通用计算机、更多专用计算设备等。本发明也可以在分布式计算环境中被实践,其中,由通过通信网络链接的远程处理设备来执行任务。

参考图14,计算设备1400包括直接或间接耦合以下设备的总线1410:存储器1412、一个或多个处理器1414、一个或多个呈现组件1416、输入/输出端口1418、输入/输出组件1420以及说明性电源1422。总线1410表示可能是一个或多个总线(诸如,地址总线、数据总线或其组合)。为了概念上清楚起见,用线示出图14的各个框,并且还预期所描述的组件的其他布置和/或组件功能性。例如,可以将诸如显示设备的呈现组件视为I/O组件。另外,处理器具有存储器。我们认识到这是本领域的本质,并且重申图14的示意图仅仅是可以结合本发明的一个或多个实施例使用的示例性计算设备的说明。在诸如“工作站”、“服务器”、“膝上型电脑”、“手持式设备”等类别之间未进行区分,因为所有这些都在图14的范围内并且参考“计算设备”。

计算设备1400通常包括各种计算机可读介质。计算机可读介质可以是计算设备1400可以访问的任何可用介质,并且包括易失性和非易失性介质、可移除和不可移除介质。通过示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。

计算机存储介质包括以任何方法或技术来实现的易失性和非易失性以及可移除和不可移除介质,用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息。计算机存储介质包括但不限于:RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并且可以由计算机1400访问的任何其他介质。计算机存储介质不包括信号本身。

通信介质通常以调制的数据信号(如载波或其他传输机制)来体现计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息递送介质。术语“调制的数据信号”是指具有以将信息编码在信号中的方式来设置或改变其一个或多个特征的信号。通过示例而非限制,通信介质包括诸如有线网络或直接有线连接的有线介质,以及诸如声学、RF、红外和其他无线介质的无线介质。以上任何项的组合也应被包括在计算机可读介质的范围内。

存储器1412包括具有易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备1400包括一个或多个处理器,处理器从诸如存储器1412或I/O组件1420的各种实体读取数据。(多个)呈现组件1416向用户或其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等。

I/O端口1418允许计算设备1400逻辑上被耦合到包括I/O组件1420在内的其他设备,其中一些设备可以是内置的。说明性组件包括麦克风、操纵杆、游戏手柄、碟形卫星天线、扫描仪、打印机、无线设备等。

参考分布式计算系统综合数据即服务,分布式计算系统综合数据即服务组件指代用于提供综合数据即服务的集成组件。集成组件指代支持系统内的功能性的硬件架构和软件框架。硬件架构指代物理组件及其相互关系,并且软件框架指代提供可以利用设备上体现的硬件实现的功能性的软件。

基于端对端软件的系统可以在系统组件内操作,以操作计算机硬件来提供系统功能性。在低等级,硬件处理器执行从针对给定处理器的机器语言(也被称为机器代码或本机)指令集中选择的指令。处理器识别本机指令,并且执行与例如逻辑、控制和存储器操作有关的对应低级功能。以机器代码编写的低级软件可以向高级软件提供更复杂的功能性。如本文所使用的,计算机可执行指令包括任何软件,包括以机器代码编写的低级软件,诸如应用软件的较高级软件及其任何组合。在这方面,系统组件可以管理资源并且为系统功能性提供服务。利用本发明的实施例,可以预期任何其他变型及其组合。

通过示例,分布式计算系统综合数据即服务可以包括API库,API库包括用于例程、数据结构、对象类的规范,并且变量可以支持设备的硬件架构与分布式计算系统综合数据即服务的软件框架之间的交互。这些API包括用于分布式计算系统综合数据即服务的配置规范,以使其中的不同组件可以在分布式计算系统综合数据即服务中彼此通信,如本文所描述的。

已经标识了在本文利用的各种组件,应当理解,在本公开的范围内,可以采用任何数目的组件和布置来实现期望的功能性。例如,为了概念上清楚起见,图中所描绘的实施例中的组件用线示出。这些和其他组件的其他布置也可以被实现。例如,尽管一些组件被描绘为单个组件,但是本文描述的元件中的许多元件可以被实现为分立组件或分布式组件或与其他组件结合,并且以任何合适的组合和位置来实现。一些元件可以被完全省略。此外,如下所述,本文描述为由一个或多个实体执行的各种功能可以由硬件、固件和/或软件来实施。例如,各种功能可以通过处理器执行被存储在存储器中的指令来实施。如此,除了或代替所示出的布置和元件,还可以使用其他布置和元件(例如,机器、接口、功能、命令和功能的分组等)。

以下段落中描述的实施例可以与一个或多个具体描述的备选方案相组合。特别地,所要求保护的实施例可以备选地包含对多于一个其他实施例的引用。所要求保护的实施例可以指定对所要求保护的主题的进一步限制。

在本文具体描述本发明的实施例的主题,以满足法定要求。然而,说明书本身并不旨在限制本专利的范围。相反,发明人已经预料到:所要求保护的主题还可以结合其他当前或未来技术以其他方式体现,以包括与本文档中所描述的步骤不同的步骤或步骤的组合。此外,尽管本文中可以使用术语“步骤”和/或“框”来表示所采用的方法的不同元素,但是除非并且除了当明确描述了各个步骤的顺序时,否则这些术语不应被解释为暗示本文所公开的各个步骤之中或之间的任何特定顺序。

为了本公开的目的,单词“包括(including)”具有与单词“包括(comprising)”相同的广义含义,并且单词“访问”包括“接收”、“引用”或“取回”。另外,单词“传输”具有与使用本文所述的通信介质的由软件或基于硬件的总线、接收器或传输器支持的单词“接收”或“传送”相同的广义含义。另外,除非另有相反指示,否则诸如“一”和“一个”的单词包括复数和单数。因此,例如,在存在一个或多个特征的情况下,满足“特征”的约束。同样,术语“或”包括连词、转折连词和两者(因此,a或b包括a或b以及a和b)。

出于上面的详细讨论的目的,参考分布式计算环境来描述了本发明的实施例。然而,本文所描绘的分布式计算环境仅仅是示例性的。组件可以被配置用于执行实施例的新颖方面,其中,术语“被配置为用于”可以指代“被编程为”使用代码来执行特定任务或实现特定抽象数据类型。此外,尽管本发明的实施例通常可以参考本文描述的分布式计算系统综合数据即服务和示意图,但是应当理解,所描述的技术可以扩展到其他实现上下文。

已经关于特定实施例描述了本发明的实施例,这些特定实施例在所有方面都旨在是说明性的而非限制性的。在不脱离本发明范围的情况下,备选实施例对于本发明所属领域的普通技术人员将变得明显。

从前述内容可以看出,本发明非常适合于实现上述所有意图和目的以及其他明显的优点和结构固有的优点。

将理解的是,某些特征和子组合是有用的,并且可以在不参考其他特征或子组合的情况下被采用。这是权利要求的范围所预期的,并且在权利要求的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号