首页> 外国专利> DETECTING THE BOUNDS OF BORDERLESS TABLES IN FIXED-FORMAT STRUCTURED DOCUMENTS USING MACHINE LEARNING

DETECTING THE BOUNDS OF BORDERLESS TABLES IN FIXED-FORMAT STRUCTURED DOCUMENTS USING MACHINE LEARNING

机译:使用机器学习检测固定格式结构化文档中的无边界表的边界

摘要

Techniques are disclosed for detecting the bounds of borderless open tables in fixed-format structured documents, such as PDF documents, and grouping text lines into predicted borderless tables. The target document comprises a set of text lines each having a respective vertical and horizontal position in the target document. A sorted list of the text lines is generated based upon a vertical and horizontal position of each text line in the target document. For each text line in the sorted list, a respective probability that the text line in the sorted list belongs to a borderless table is then determined. According to one embodiment, the probability may be determined using a classifier that may employ a logistic regression algorithm.
机译:公开了用于检测诸如PDF文档之类的固定格式的结构化文档中的无边界打开表的边界,以及将文本行分组为预测的无边界表的技术。目标文档包括一组文本行,每个文本行在目标文档中分别具有垂直和水平位置。基于目标文档中每个文本行的垂直和水平位置,生成文本行的排序列表。对于排序列表中的每个文本行,然后确定排序列表中的文本行属于无边界表的相应概率。根据一个实施例,可以使用可以采用逻辑回归算法的分类器来确定概率。

著录项

  • 公开/公告号US2019050381A1

    专利类型

  • 公开/公告日2019-02-14

    原文格式PDF

  • 申请/专利权人 ADOBE SYSTEMS INCORPORATED;

    申请/专利号US201715675873

  • 发明设计人 RAM BHUSHAN AGRAWAL;HIMANSHU MITTAL;

    申请日2017-08-14

  • 分类号G06F17/24;G06F17/22;

  • 国家 US

  • 入库时间 2022-08-21 12:08:05

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号