首页> 外国专利> Systems and techniques to monitor text data quality

Systems and techniques to monitor text data quality

机译:监控文本数据质量的系统和技术

摘要

Disclosed are a system, apparatus and techniques for evaluating a dataset to confirm that the data in the dataset satisfies a data quality metric. A machine learning engine or the like may evaluate text strings within the dataset may be of arbitrary length and encoded according to an encoding standard. Data vectors of a preset length may be generated from the evaluated text strings using various techniques. Each data vector may be representative of the content of the text string and a category may be assigned to the respective data vector. The category assigned to each data vectors may be evaluated with respect to other data vectors in the dataset to determine compliance with a quality metric. In the case that a number of data vectors fail to meet a predetermined quality metric, an alert may be generated to mitigate any system errors that may result from unsatisfactory data quality.
机译:公开了一种用于评估数据集的系统,装置和技术,以确认数据集中的数据满足数据质量度量。机器学习引擎等可以评估数据集内的文本字符串可以是任意长度并且根据编码标准进行编码。可以使用各种技术从评估的文本字符串生成预设长度的数据矢量。每个数据矢量可以代表文本字符串的内容,并且可以将类别分配给各个数据向量。可以在数据集中的其他数据向量评估分配给每个数据矢量的类别,以确定符合质量度量。在许多数据向量未能满足预定质量度量的情况下,可以生成警报以减轻可能由不令人满意的数据质量产生的任何系统错误。

著录项

  • 公开/公告号US11048984B2

    专利类型

  • 公开/公告日2021-06-29

    原文格式PDF

  • 申请/专利权人 CAPITAL ONE SERVICES LLC;

    申请/专利号US201916406848

  • 发明设计人 ROBIN ASTRID EPP NEUFELD;

    申请日2019-05-08

  • 分类号G06K9/62;G06K9/34;G06N20;G06N3/08;

  • 国家 US

  • 入库时间 2022-08-24 19:38:45

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号