首页> 外文OA文献 >Historical document digitization through layout analysis and deep content classification
【2h】

Historical document digitization through layout analysis and deep content classification

机译:通过布局分析和深度内容分类的历史文档数字化

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Document layout segmentation and recognition is an important task in the creation of digitized documents collections, especially when dealing with historical documents.udThis paper presents an hybrid approach to layout segmentation as well as a strategy to classify document regions, which is applied to the process of digitization of an historical encyclopedia. Our layout analysis method merges a classic top-down approach and a bottom-up classification process based on local geometrical features, while regions are classified by means of features extracted from a Convolutional Neural Network merged in a Random Forest classifier. Experiments are conducted on the first volume of the ``Enciclopedia Treccani'', a large dataset containing 999 manually annotated pages from the historical Italian encyclopedia.
机译:文档布局分段和识别是在与历史文档处理时创建数字化文档集合中的重要任务。 Udthis纸张呈现了一个混合方法,以便对该过程进行分类的策略来分类文件区域历史百科全书的数字化。我们的布局分析方法合并了基于本地几何特征的经典自上而下方法和自下而上的分类过程,而区域则通过从随机林分类器中合并的卷积神经网络中提取的功能分类。实验是在“网上型Trecani”的第一个体积上进行的,该大型数据集包含来自历史意大利百科全书的999手动注释的页面。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号