首页> 外国专利> SYSTEMS AND METHODS FOR TRAINING AND EVALUATING MACHINE LEARNING MODELS USING GENERALIZED VOCABULARY TOKENS FOR DOCUMENT PROCESSING

SYSTEMS AND METHODS FOR TRAINING AND EVALUATING MACHINE LEARNING MODELS USING GENERALIZED VOCABULARY TOKENS FOR DOCUMENT PROCESSING

机译:使用广义词汇令牌进行培训和评估机器学习模型的系统和方法,用于文档处理

摘要

Techniques are described herein for training and evaluating machine learning (ML) models for document processing computing applications using generalized vocabulary tokens. In some embodiments, an ML system determines a set of tokens for non-textual content in a plurality of documents. The ML system generates a fixed-length vocabulary that includes the set of tokens for the non-textual content. The ML system further generates for each respective document in a training dataset of documents, a respective feature vector based at least in part on which tokens in the fixed-length vocabulary occur in the respective document. The ML system trains a ML model based at least in part on the respective feature vector for each respective document in the training dataset.
机译:本文描述了用于使用广义词汇令牌的文档处理计算应用程序的训练和评估机器学习(ML)模型的技术。在一些实施例中,ML系统在多个文档中确定用于非文本内容的一组令牌。 ML系统生成固定长度的词汇,其中包括非文本内容的令牌集。 ML系统进一步为在文档的训练数据集中生成每个相应的文档,至少部分地基于在各个文档中发生固定长度词汇表中的令牌的部分。 ML系统至少部分地基于训练数据集中的每个相应文档的相应特征向量列出ML模型。

著录项

  • 公开/公告号US2021141861A1

    专利类型

  • 公开/公告日2021-05-13

    原文格式PDF

  • 申请/专利权人 ORACLE INTERNATIONAL CORPORATION;

    申请/专利号US201916678280

  • 发明设计人 SUDHAKAR KALLURI;

    申请日2019-11-08

  • 分类号G06F17/27;G06N20;

  • 国家 US

  • 入库时间 2022-08-24 18:40:24

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号