首页> 外文会议>IAPR International Conference on Document Analysis and Recognition >DocEmul: A Toolkit to Generate Structured Historical Documents
【24h】

DocEmul: A Toolkit to Generate Structured Historical Documents

机译:DocEmul:生成结构化历史文档的工具包

获取原文

摘要

We propose a toolkit to generate structured synthetic documents emulating the actual document production process. Synthetic documents can be used to train systems to perform document analysis tasks. In our case we address the record counting task on handwritten structured collections containing a limited number of examples. Using the DocEmul toolkit we can generate a larger dataset to train a deep architecture to predict the number of records for each page. The toolkit is able to generate synthetic collections and also perform data augmentation to create a larger trainable dataset. It includes one method to extract the page background from real pages which can be used as a substrate where records can be written on the basis of variable structures and using cursive fonts. Moreover, it is possible to extend the synthetic collection by adding random noise, page rotations, and other visual variations. We performed some experiments on two different handwritten collections using the toolkit to generate synthetic data to train a Convolutional Neural Network able to count the number of records in the real collections.
机译:我们建议使用一个工具包来生成模拟实际文档制作过程的结构化综合文档。合成文档可用于训练系统以执行文档分析任务。在我们的案例中,我们处理包含有限数量示例的手写结构化集合上的记录计数任务。使用DocEmul工具包,我们可以生成更大的数据集,以训练深度架构来预测每个页面的记录数。该工具包能够生成综合集合,还可以执行数据扩充以创建更大的可训练数据集。它包括一种从真实页面中提取页面背景的方法,该页面可以用作底物,在该底物上可以基于可变结构并使用草书字体写入记录。此外,可以通过添加随机噪声,页面旋转和其他视觉变化来扩展合成集合。我们使用工具包对两个不同的手写集合进行了一些实验,以生成合成数据来训练卷积神经网络,该网络能够计算实际集合中的记录数。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号