首页> 外国专利> System for Automated Data Engineering for Large Scale Machine Learning

System for Automated Data Engineering for Large Scale Machine Learning

机译:大规模机器学习的自动化数据工程系统

摘要

Accordingly, a data engineering system for machine learning at scale is disclosed. In one embodiment, the data engineering system includes an ingest processing module having a schema update submodule and a feature statistics update submodule, wherein the schema update submodule is configured to discover new features and add them to a schema, and wherein the feature statistics update submodule collects statistics for each feature to be used in an online transformation, a record store to store data from a data source, and a transformation module, to receive a low dimensional data instance from the record store and to receive the schema and feature statistics from the ingest processing module, and to transform the low dimensional data instance into a high dimensional representation. One embodiment provides a method for data engineering for machine learning at scale, the method including calling a built-in feature transformation or defining a new transformation, specifying a data source and compressing and storing the data, providing ingest-time processing by automatically analyzing necessary statistics for features, and then generating a schema for a dataset for subsequent data engineering. Other embodiments are disclosed herein.
机译:因此,公开了一种用于大规模机器学习的数据工程系统。在一个实施例中,数据工程系统包括具有模式更新子模块和特征统计信息更新子模块的摄取处理模块,其中,模式更新子模块被配置为发现新特征并将其添加到模式,并且其中特征统计信息更新子模块。收集要在联机转换中使用的每个功能的统计信息,用于存储来自数据源的数据的记录存储以及转换模块,以从记录存储中接收低维数据实例,并从数据库接收模式和功能统计信息提取处理模块,并将低维数据实例转换为高维表示。一个实施例提供了一种用于大规模机器学习的数据工程的方法,该方法包括调用内置特征转换或定义新的转换,指定数据源以及压缩和存储数据,通过自动分析必要数据来提供摄取时间处理。统计要素的统计信息,然后为数据集生成架构以用于后续数据工程。本文公开了其他实施例。

著录项

  • 公开/公告号US2018307710A1

    专利类型

  • 公开/公告日2018-10-25

    原文格式PDF

  • 申请/专利权人 PETUUM INC.;

    申请/专利号US201815959560

  • 发明设计人 WEI DAI;WEIREN YU;ERIC XING;

    申请日2018-04-23

  • 分类号G06F17/30;G06F15/18;

  • 国家 US

  • 入库时间 2022-08-21 12:59:57

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号