首页> 外国专利> AUTOMATIC CORPORA ANNOTATION

AUTOMATIC CORPORA ANNOTATION

机译:自动语料库注释

摘要

A computer implemented method and system for automatically creating an annotated dataset. An automatic annotating system may access a proprietary database and an unannotated dataset and identify tokens, or character spans, of the unannotated dataset that match property values in the database. The automatic annotating system may then determine whether the identified tokens in the unannotated dataset originated, or derived, from the database by calculating probabilities using a language model and a Bayesian network. The automatic annotating system annotates identified tokens determined to originate from the database by associating a tag to each identified token and assigning annotation attributes for each tag. The annotations and associated properties and values are stored as an annotated dataset. The annotated dataset may then be used train automated, machine learned models to identify and tag other datasets.
机译:计算机实现的方法和系统,用于自动创建注释数据集。 自动注释系统可以访问专有的数据库和未经讨论的数据集,并识别符合数据库中属性值的未经发布的数据集的令牌或字符跨度。 然后,自动注释系统可以通过使用语言模型和贝叶斯网络来计算未讨论的数据集中所识别的令牌源自或导出。 自动注释系统通过将标记关联到每个标记的每个标记分配注释属性来注释确定以源自数据库的识别令牌,并为每个标记分配注释属性。 注释和关联属性和值被存储为带注释的数据集。 然后可以使用带有火车自动的注释数据集,机器学习模型来识别和标记其他数据集。

著录项

  • 公开/公告号US2021263971A1

    专利类型

  • 公开/公告日2021-08-26

    原文格式PDF

  • 申请/专利号US202016800782

  • 发明设计人 PAUL LANDES;

    申请日2020-02-25

  • 分类号G06F16/908;G16H10/60;G06F16/903;G06F16/33;G06N7;G06N20;

  • 国家 US

  • 入库时间 2022-08-24 20:48:01

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号