首页> 外国专利> MACHINE LEARNING BASED END-TO-END EXTRACTION OF TABLES FROM ELECTRONIC DOCUMENTS

MACHINE LEARNING BASED END-TO-END EXTRACTION OF TABLES FROM ELECTRONIC DOCUMENTS

机译:基于机器学习的电子文档的端到端提取表

摘要

In some embodiments, a method includes identifying a set of word bounding boxes in a first electronic document, and identifying locations of horizontal white space between two adjacent rows from a set of rows in a table. The method includes determining, using a Natural Language Processing algorithm, an entity name from a set of entity names for each table cell from a set of table cells in the table. The method includes determining, using a machine learning algorithm a class from a set of classes for each row from the set of rows. The method includes extracting a set of table cell values associated with the set of table cells, and generating a second electronic document including the set of table cell values arranged in the set of rows and the set of columns such that the set of words in the table are computer-readable in the second electronic document.
机译:在一些实施例中,一种方法包括在第一电子文档中识别一组Word边界框,以及从表中的一组行中识别两个相邻行之间的水平空白的位置。该方法包括使用自然语言处理算法,从表中的一组表格单元格中的一组实体名称中的实体名称来确定实体名称。该方法包括确定,使用机器学习算法来自来自一组行的每行的一组类的类。该方法包括提取与该组表单元组相关联的一组表格单元值,并生成包括在一组行和一组列中排列的表小区值的第二电子文档,使得一组单词表是计算机可读在第二个电子文档中。

著录项

  • 公开/公告号US2021240976A1

    专利类型

  • 公开/公告日2021-08-05

    原文格式PDF

  • 申请/专利权人 EYGS LLP;

    申请/专利号US202016781195

  • 发明设计人 SUNIL REDDY TIYYAGURA;AMANI KONGARA;

    申请日2020-02-04

  • 分类号G06K9;G06F40/295;

  • 国家 US

  • 入库时间 2022-08-24 20:20:33

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号