TH-OCR: System for Multilingual Document Analysis, Recognition and Reconstruction

机译：TH-OCR：多语言文档分析，识别和重建系统

获取原文

获取原文并翻译 | 示例

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper presents the framework and key technologies of TH-OCR software system for multilingual (Chinese, English, Japanese, Korean) document analysis, recognition and reconstruction. The software can convert scanned document image into machine-readable document while preserving its original layout with high recognition rate. The key technologies of TH-OCR include high performance multilingual character recognition kernel, Chinese (Japanese/Korean)-English mixed-script character segmentation technique, automatic layout analysis, understanding, and reconstruction, etc. It is a useful tool to digitize large scale of documents for application such as digital library, electronic publication via Internet or CD-ROM.

机译：本文介绍了用于多语言（中文，英文，日文，韩文）文档分析，识别和重建的TH-OCR软件系统的框架和关键技术。该软件可以将扫描的文档图像转换为机器可读的文档，同时以高识别率保留其原始布局。 TH-OCR的关键技术包括高性能多语言字符识别内核，中文（日韩）英语混合脚本字符分割技术，自动布局分析，理解和重建等。它是大规模数字化的有用工具申请文件，例如数字图书馆，通过Internet或CD-ROM的电子出版物。

著录项

来源
《World Multiconference on Systemics, Cybernetics and Informatics(SCI 2002) v.3: Image, Acoustic, Speech and Signal Processing I; 20020714-20020718; Orlando,FL; US》|2002年|P.127-129|共3页
会议地点 Orlando FL(US);Orlando FL(US)
作者
Liangrui PENG; Xiaoqing DING; Changsong LIU; Ming CHEN; Chi FANG;
展开▼
作者单位

State Key Laboratory of Intelligent Technology and Systems Dept. of Electronic Engineering, Tsinghua University, Beijing, 100084, P. R. China;

展开▼
会议组织
原文格式 PDF
正文语种 eng
中图分类计算技术、计算机技术;
关键词
multilingual OCR; document analysis; document recognition; document reconstruction;

机译：多语言OCR;文档分析;文档识别;文档重建;

相似文献

外文文献
中文文献
专利

1. Multilingual OCR system for South Indian scripts and English documents: An approach based on Fourier transform and principal component analysis [J] . V.N. Manjunath Aradhya, G. Hemantha Kumar, S. Noushath Engineering Applications of Artificial Intelligence . 2008,第4期

机译：用于南印度文字和英语文档的多语言OCR系统：一种基于傅立叶变换和主成分分析的方法
2. Development and analysis of multilingual phone recognition systems using Indian languages [J] . K. E. Manjunath, Dinesh Babu Jayagopi, K. Sreenivasa Rao, International journal of speech technology . 2019,第1期

机译：使用印度语言开发和分析多语言电话识别系统
3. Offline script recognition from handwritten and printed multilingual documents: a survey [J] . Sinwar Deepak, Dhaka Vijaypal Singh, Pradhan Nitesh, International Journal on Document Analysis and Recognition . 2021,第1a2期

机译：从手写和印刷的多语言文件中脱机脚本识别：调查
4. TH-OCR: System for Multilingual Document Analysis, Recognition and Reconstruction [C] . Liangrui PENG, Xiaoqing DING, Changsong LIU, World Multi-conference on Systemics, Cybernetics and Informatics . 2002

机译：Th-OCR：多语言文档分析，识别和重建系统
5. A system for intelligent document image analysis, recognition and compression. [D] . Jiang, Wey-Wen Cindy. 1994

机译：一种用于智能文档图像分析，识别和压缩的系统。
6. A System for Automated Extraction of Metadata from Scanned Documents using Layout Recognition and String Pattern Search Models [O] . Dharitri Misra, Siyuan Chen, George R. Thoma -1

机译：使用布局识别和字符串模式搜索模型从扫描文档中自动提取元数据的系统
7. Analysis of Multilingual Sequence-to-Sequence Speech Recognition Systems [O] . Martin Karafiát, Murali Karthick Baskar, Shinji Watanabe, 2019

机译：多语言序列到序列语音识别系统分析

TH-OCR: System for Multilingual Document Analysis, Recognition and Reconstruction

摘要

著录项

相似文献

相关主题

期刊订阅