首页> 外国专利> Automatically inferring data relationships of datasets

Automatically inferring data relationships of datasets

机译:自动推断数据集的数据关系

摘要

Described herein is a system and method for inferring data relationships of a plurality of datasets. Data contents (and optionally metadata) of the plurality of datasets are scanned to extract features of each of the datasets. Features can be related to a structure of data, a profile of data within the dataset, and/or metadata of the dataset. Each feature has an associated weight. The datasets can be clustered into clusters based on at least some of the weighted features (e.g., based on a sim-hash or min-hash of the dataset). A precise similarity metric is computed between datasets in each cluster based on their weighted features. Datasets with precise similarity metrics above a threshold quantity are inferred to be being likely related. Information is provided regarding the inferred likely related datasets.
机译:这里描述的是用于推断多个数据集的数据关系的系统和方法。扫描多个数据集的数据内容(和可选地元数据)以提取每个数据集的特征。特征可以与数据结构相关,数据集中的数据文件,和/或数据集的元数据。每个特征具有相关的权重。数据集可以基于至少一些加权特征(例如,基于数据集的SIM-HASH或MIN-HASH)集群集群。基于其加权特征,在每个群集中的数据集之间计算精确的相似性度量。具有高于阈值量的精确相似度量的数据集被推断出可能有关。提供关于推断可能的相关数据集的信息。

著录项

  • 公开/公告号US11061935B2

    专利类型

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 MICROSOFT TECHNOLOGY LICENSING LLC;

    申请/专利号US201916289719

  • 发明设计人 SAIKAT GUHA;GARY KYLE SOELLER;

    申请日2019-03-01

  • 分类号G06F16/28;G06N5/04;

  • 国家 US

  • 入库时间 2022-08-24 19:54:19

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号