首页> 外国专利> SYSTEM AND METHOD FOR FORMAT-AGNOSTIC DOCUMENT INGESTION

SYSTEM AND METHOD FOR FORMAT-AGNOSTIC DOCUMENT INGESTION

机译:格式识别文档输入的系统和方法

摘要

A system for format-agnostic document ingestion including a document ingestion server and a database is disclosed. The server is configured to receive an image of a document comprising text in an unknown format, convert the image, using OCR, into a plurality of text elements a content, a size, and an absolute position. The server is also configured to retrieve data detectors from the database, each associated with a data type anticipated to be in the document, and comprising at least one identifier and direction, and at least one validation criteria. The server is also configured to identify a potential descriptor by comparing the content of each text element with the at least one identifier, and then determine if the text element pointed to by the data detector meets the validation criteria. Finally, the server is configured to associate the validated text element with the data detector, and store the content.
机译:公开了一种用于格式不可知的文档摄取的系统,包括文档摄取服务器和数据库。服务器被配置为接收包括未知格式的文本的文档的图像,使用OCR将图像转换为内容,大小和绝对位置的多个文本元素。服务器还被配置为从数据库检索数据检测器,每个数据检测器与预期在文档中的数据类型相关联,并且包括至少一个标识符和方向以及至少一个验证标准。服务器还被配置为通过将每个文本元素的内容与至少一个标识符进行比较来识别潜在的描述符,然后确定数据检测器指向的文本元素是否满足验证标准。最后,服务器配置为将验证的文本元素与数据检测器相关联,并存储内容。

著录项

  • 公开/公告号US2020242350A1

    专利类型

  • 公开/公告日2020-07-30

    原文格式PDF

  • 申请/专利权人 REXPAY INC.;

    申请/专利号US202016775051

  • 发明设计人 HARLOW BURGESS;

    申请日2020-01-28

  • 分类号G06K9;G06F16/93;G06F16/22;G06N20;G06K9/62;G06F40/279;

  • 国家 US

  • 入库时间 2022-08-21 11:21:54

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号