【24h】

TH-OCR: System for Multilingual Document Analysis, Recognition and Reconstruction

机译:TH-OCR:多语言文档分析,识别和重建系统

获取原文
获取原文并翻译 | 示例

摘要

This paper presents the framework and key technologies of TH-OCR software system for multilingual (Chinese, English, Japanese, Korean) document analysis, recognition and reconstruction. The software can convert scanned document image into machine-readable document while preserving its original layout with high recognition rate. The key technologies of TH-OCR include high performance multilingual character recognition kernel, Chinese (Japanese/Korean)-English mixed-script character segmentation technique, automatic layout analysis, understanding, and reconstruction, etc. It is a useful tool to digitize large scale of documents for application such as digital library, electronic publication via Internet or CD-ROM.
机译:本文介绍了用于多语言(中文,英文,日文,韩文)文档分析,识别和重建的TH-OCR软件系统的框架和关键技术。该软件可以将扫描的文档图像转换为机器可读的文档,同时以高识别率保留其原始布局。 TH-OCR的关键技术包括高性能多语言字符识别内核,中文(日韩)英语混合脚本字符分割技术,自动布局分析,理解和重建等。它是大规模数字化的有用工具申请文件,例如数字图书馆,通过Internet或CD-ROM的电子出版物。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号