首页> 外文会议>IAPR International Conference on Document Analysis and Recognition >DocEmul: a Toolkit to Generate Structured Historical Documents
【24h】

DocEmul: a Toolkit to Generate Structured Historical Documents

机译:Docemul:一个生成结构化历史文档的工具包

获取原文

摘要

We propose a toolkit to generate structured synthetic documents emulating the actual document production process. Synthetic documents can be used to train systems to perform document analysis tasks. In our case we address the record counting task on handwritten structured collections containing a limited number of examples. Using the DocEmul toolkit we can generate a larger dataset to train a deep architecture to predict the number of records for each page. The toolkit is able to generate synthetic collections and also perform data augmentation to create a larger trainable dataset. It includes one method to extract the page background from real pages which can be used as a substrate where records can be written on the basis of variable structures and using cursive fonts. Moreover, it is possible to extend the synthetic collection by adding random noise, page rotations, and other visual variations. We performed some experiments on two different handwritten collections using the toolkit to generate synthetic data to train a Convolutional Neural Network able to count the number of records in the real collections.
机译:我们提出了一种工具包,可以生成模拟实际文档生产过程的结构化合成文件。合成文档可用于培训系统以执行文档分析任务。在我们的例子中,我们在包含有限数量的示例上的手写结构集合上的记录计数任务。使用Docemul Toolkit,我们可以生成更大的数据集以培训深度架构以预测每个页面的记录数。该工具包能够生成合成集合,并执行数据增强以创建更大的培训数据集。它包括从真实页面中提取页面背景的一种方法,该方法可以用作基板,其中可以基于可变结构和使用法学字体编写记录。此外,可以通过添加随机噪声,页面旋转和其他视觉变化来扩展合成集合。我们使用工具包对两个不同的手写集合进行了一些实验,以生成合成数据,以培训能够计算真实集合中的记录数量的卷积神经网络。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号