Recognition-based Segmentation for Digitization of Korean Historical Document Pages

Kyu-Tae Cho; Jin-Hyung Kim

首页> 外文期刊>電子情報通信学会技術研究報告. パターン認識·メディア理解. Pattern Recognition and Media Understanding >Recognition-based Segmentation for Digitization of Korean Historical Document Pages

【24h】

Recognition-based Segmentation for Digitization of Korean Historical Document Pages

机译：基于识别的韩国历史文献页面数字化分割

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

We present a recognition-based digitization method for building digital library of large amount of historical archives. Digitization of historical document pages is essential for providing retrieval service and preventing from damages but needs laborious manual verification for accurate output. In this paper, split-merge approach is applied for segmenting overlapped and touched characters written by thick brushes. Character string images are split into primitive segments by nonlinear segmentation paths passing maximum curvature points. Split segments are merged in single probabilistic framework integrated by layout analysis, context information and recognition result. In experiment, our system achieved 96.4% character recognition rates on test data set, despite the obsolete characters and unique variants used in the archives. In conclusion, our method can be applied for digitizing Korean historical document pages and minimize manual verification.

机译：我们提出了一种基于识别的数字化方法，用于建立大量历史档案的数字图书馆。历史文档页面的数字化对于提供检索服务和防止损坏至关重要，但是需要费力的手动验证才能获得准确的输出。在本文中，分割合并方法用于分割由粗笔书写的重叠和触摸字符。字符串图像通过经过最大曲率点的非线性分割路径分为原始段。将拆分的段合并到通过布局分析，上下文信息和识别结果集成的单个概率框架中。在实验中，尽管档案中使用了过时的字符和独特的变体，但我们的系统仍在测试数据集上实现了96.4％的字符识别率。总之，我们的方法可用于数字化韩国历史文献页面并最大程度地减少人工验证。

著录项

来源
《電子情報通信学会技術研究報告. パターン認識·メディア理解. Pattern Recognition and Media Understanding》 |2006年第376期|共7页
作者
Kyu-Tae Cho; Jin-Hyung Kim;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类图像通信、多媒体通信;
关键词
Historical document pages; Digital library; Digitization of documents; Character segmentation;

机译：历史文档页面;数字图书馆;文档数字化;字符分割;

相似文献

外文文献
中文文献
专利

1. Recognition-based Segmentation for Digitization of Korean Historical Document Pages [J] . Kyu-Tae Cho, Jin-Hyung Kim 電子情報通信学会技術研究報告. パターン認識·メディア理解. Pattern Recognition and Media Understanding . 2006,第376期

机译：基于识别的韩国历史文献页面数字化分割
2. Illustrations Segmentation in Digitized Documents Using Local Correlation Features [J] . Dalia Coppi, Costantino Grana, Rita Cucchiara Procedia Computer Science . 2014,第1期

机译：使用局部相关特征的数字化文档中的插图分割
3. Information retrieval in physical geography: A method to recover geographical information from digitized historical documents [J] . Tulowiecki Stephen J. Progress in Physical Geography . 2018,第3期

机译：物理地理中检索的信息：一种从数字化历史文档中恢复地理信息的方法
4. Segmentation of Handwritten Characters for Digitalizing Korean Historical Documents [C] . Min Soo Kim, Kyu Tae Cho, Hee Kue Kwag, IAPR Workshop on Document Analysis Systems . 2004

机译：数字化韩国历史文献的手写字符的分割
5. Document image analysis techniques for handwritten text segmentation, document image rectification and digital collation. [D] . Salvi, Dhaval. 2014

机译：用于手写文本分割，文档图像校正和数字整理的文档图像分析技术。
6. The Digital Fish Library: Using MRI to Digitize, Database, and Document the Morphological Diversity of Fish [O] . Rachel M. Berquist, Kristen M. Gledhill, Matthew W. Peterson, 2009

机译：数字鱼库：使用MRI数字化，数据库化和记录鱼的形态多样性
7. Segmentation of Handwritten Characters for Digitalizing Korean Historical Documents [O] . Min Soo Kim, Kyu Tae Cho, Hee Kue Kwag, 2004

机译：数字化韩国历史文献的手写字符的分割
8. Dynamic Segmentation of Breast Tissue in Digitized Mammograms. [R] . Neyhart, J. T., Ciocco, M. D., Polikar, R., 2001

机译：数字化乳房X线照片中乳腺组织的动态分割。

Recognition-based Segmentation for Digitization of Korean Historical Document Pages

摘要

著录项

相似文献

相关主题

期刊订阅