首页> 外国专利> METHOD AND SYSTEM FOR PARALLELIZATION OF INGESTION OF LARGE DATA SETS

METHOD AND SYSTEM FOR PARALLELIZATION OF INGESTION OF LARGE DATA SETS

机译:大数据集摄取的方法和系统

摘要

The present invention relates, in an embodiment, to a method for ingestinginput datacontaining a plurality of records into a data lake. In an embodiment, themethod comprisessplitting the input data into a plurality of input splits consisting of abalanced number ofrecords; reading the records from the plurality of input splits in parallel,regardless of theformat and encoding of the input source; converting the input data within therecords into atleast one key/value pair; transforming the values input data into aserializable format; sortingthe key/value pairs of the transformed values such that the records are sortedin the same orderas they were read; writing the transformed values to an output file; andstoring the output fileto the data lake. The present invention also relates, in another embodiment,to a system foringesting input data containing a plurality of records into a data lake. In anembodiment, thesystem comprises one or more processors adapted to execute one or moremodules, themodules comprising: an input module for splitting the input data into inputsplits; a mappingmodule for transforming the input data in the input splits into a format forprocessing; apartition module for sorting the transformed data; and an output module forwriting the sortedtransformed data to an output file and determining a location on the data lakefor the outputfile; and a driver for communicating with the one or more modules of the oneor moreprocessors via a first communication layer, the driver configuring the one ormore modulesand calculating the input splits.
机译:在一个实施例中,本发明涉及一种用于摄取的方法输入数据将多个记录包含到数据湖中。在一个实施例中,方法包括将输入数据拆分为多个输入拆分,这些拆分包括平衡数量记录;从多个输入拆分中并行读取记录,不管输入源的格式和编码;在内部转换输入数据记录到至少一个键/值对;将值输入数据转换为可序列化的格式;分类转换值的键/值对,以便对记录进行排序以相同的顺序阅读时;将转换后的值写入输出文件;和存储输出文件到数据湖。在另一个实施例中,本发明还涉及到一个系统将包含多个记录的输入数据提取到数据湖中。在一个体现,系统包括适于执行一个或多个的一个或多个处理器模块,模块,包括:输入模块,用于将输入数据分割成输入分裂映射用于将输入中的输入数据转换成以下格式的模块加工一种分区模块,用于对转换后的数据进行分类;和一个输出模块写排序将数据转换为输出文件并确定数据湖上的位置用于输出文件;以及用于与一个模块的一个或多个模块进行通信的驱动程序或者更多处理器通过第一通信层,驱动程序配置一个或更多模块并计算输入拆分。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号