首页> 外国专利> Method and system for parallelization of ingestion of large data sets

Method and system for parallelization of ingestion of large data sets

机译:大数据集摄取并行化的方法和系统

摘要

Embodiments of the present invention relate to systems and methods for ingesting input data containing a plurality of records into a data lake. In an embodiment, the method comprises splitting the input data into a plurality of input splits consisting of a balanced number of records; reading the records from the plurality of input splits in parallel, regardless of the format and encoding of the input source; converting the input data within the records into at least one key/value pair; transforming the values input data into a serializable format; sorting the key/value pairs of the transformed values such that the records are sorted in the same order as they were read; writing the transformed values to an output file; and storing the output file to the data lake.
机译:本发明的实施例涉及用于将包含多个记录的输入数据摄取到数据湖中的系统和方法。在一个实施例中,该方法包括:将输入数据分割成由平衡数量的记录组成的多个输入分割。不管输入源的格式和编码如何,都从多个输入拆分中并行读取记录;将记录内的输入数据转换成至少一个键/值对;将值输入数据转换为可序列化的格式;对转换后的值的键/值对进行排序,以便以与读取记录相同的顺序对记录进行排序;将转换后的值写入输出文件;并将输出文件存储到数据湖。

著录项

  • 公开/公告号US10831773B2

    专利类型

  • 公开/公告日2020-11-10

    原文格式PDF

  • 申请/专利权人 NEXT PATHWAY INC.;

    申请/专利号US201815909846

  • 申请日2018-03-01

  • 分类号G06F3/06;G06F16/10;G06F16/25;G06F16/84;

  • 国家 US

  • 入库时间 2022-08-21 11:27:43

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号