首页> 外国专利> BIG DATA-BASED COLUMN DATA PROCESSING METHOD, APPARATUS, AND MEDIUM

BIG DATA-BASED COLUMN DATA PROCESSING METHOD, APPARATUS, AND MEDIUM

机译:基于大数据的列数据处理方法,装置和介质

摘要

A big data-based column data processing method, an apparatus, and a medium. The big data-based column data processing method comprises: acquiring a column data set to be processed, performing, according to data attributes of column data in the column data set, classification processing on the column data, and obtaining at least two initial column data sets (110); performing unsupervised clustering processing on each of the at least two initial column data sets, and obtaining at least two unsupervised-clustered clusters, wherein the at least two unsupervised-clustered clusters have a one-to-one correspondence with the at least two initial column data sets (120); generating multiple column data pairs separately corresponding to the at least two unsupervised-clustered clusters, and determining a column name similarity level and a column comment similarity level between two pieces of column data in each of the column data pairs (130); and determining a similarity level of each of the column data pairs according to the column name similarity level and the column comment similarity level (140).
机译:基于大数据的列数据处理方法,装置和介质。基于大数据的列数据处理方法包括:获取要处理的列数据集,根据列数据集中的列数据的数据属性,列数据的分类处理,并获得至少两个初始列数据套装(110);对每个至少两个初始列数据集执行无监督的聚类处理,并获得至少两个无监督群集的群集,其中至少两个无监督簇聚类群集与至少两个初始列具有一对一的对应关系数据集(120);生成与至少两个无监督聚类群集分别对应的多列数据对,并确定列名称相似级别和列中的两条列数据(130)中的两条列数据之间的列评论相似度。根据列名称相似级别和列注释相似级别(140)确定每个列数据对的相似性等级。

著录项

  • 公开/公告号WO2021047373A1

    专利类型

  • 公开/公告日2021-03-18

    原文格式PDF

  • 申请/专利权人 TRANSWARP TECHNOLOGY (SHANGHAI) CO. LTD.;

    申请/专利号WO2020CN110364

  • 发明设计人 LI GUANGYUE;

    申请日2020-08-21

  • 分类号G06F16/2458;

  • 国家 CN

  • 入库时间 2022-08-24 17:49:32

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号