首页> 外国专利> SCALABLE, FLEXIBLE AND ROBUST TEMPLATE-BASED DATA EXTRACTION PIPELINE

SCALABLE, FLEXIBLE AND ROBUST TEMPLATE-BASED DATA EXTRACTION PIPELINE

机译:可扩展,灵活且强大的基于模板的数据提取管道

摘要

A computer-implemented method for extracting information from a document, for example an official document, is disclosed. The method comprises acquiring an input image comprising a document portion; performing image segmentation on the input image to form a binary input image that distinguishes the document portion from the remaining portion of the input image; estimating a first image transform to align the binary input image to a binary template image, using the first image transform on the input image to form an intermediate image; estimating a second image transform to align the intermediate image to a template image; using the second image transform on the intermediate image to form an output image; and extracting a field from the output image using a predetermined field of the template image.
机译:公开了一种用于从文档中提取信息的计算机实现的方法,例如官方文件。 该方法包括获取包括文档部分的输入图像; 在输入图像上执行图像分割以形成二进制输入图像,该二进制输入图像将文档部分与输入图像的剩余部分区分开; 估计第一图像变换以将二进制输入图像对准二进制模板图像,在输入图像上使用第一图像变换来形成中间图像; 估计第二图像变换以将中间图像对准模板图像; 在中间图像上使用第二图像变换以形成输出图像; 并使用模板图像的预定字段从输出图像中提取字段。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号