首页> 外文会议>21st Nordic Conference of Computational Linguistics >Improving Optical Character Recognition of Finnish Historical Newspapers with a Combination of Fraktur Antiqua Models and Image Preprocessing

【24h】

Improving Optical Character Recognition of Finnish Historical Newspapers with a Combination of Fraktur Antiqua Models and Image Preprocessing

机译：Fraktur和Antiqua模型与图像预处理相结合，提高芬兰历史报纸的光学字符识别能力

获取原文

获取原文并翻译 | 示例

页面导航

摘要
著录项
相似文献
相关主题

摘要

In this paper we describe a method for improving the optical character recognition (OCR) toolkit Tesseract for Finnish historical documents. First we create a model for Finnish Fraktur fonts. Second we test Tesseract with the created Fraktur model and Antiqua model on single images and combinations of images with different image preprocessing methods. Against commercial ABBYY FineReader toolkit our method achieves 27.48% (FineReader 7 or 8) and 9.16% (FineReader 11) improvement on word level.

机译：在本文中，我们描述了一种用于改善芬兰历史文献的光学字符识别（OCR）工具包Tesseract的方法。首先，我们为芬兰Fraktur字体创建一个模型。其次，我们使用创建的Fraktur模型和Antiqua模型在单个图像以及具有不同图像预处理方法的图像组合上测试Tesseract。与商业ABBYY FineReader工具包相比，我们的方法在单词级别上提高了27.48％（FineReader 7或8）和9.16％（FineReader 11）。

著录项

来源
《21st Nordic Conference of Computational Linguistics》|2017年|277-283|共7页
会议地点 Gothenburg(SE)
作者
Mika Koistinen; Kimmo Kettunen; Tuula Paeaekkoenen;
展开▼
作者单位

National Library of Finland The Centre for Preservation and Digitisation;

National Library of Finland The Centre for Preservation and Digitisation;

National Library of Finland The Centre for Preservation and Digitisation;

展开▼
会议组织
原文格式 PDF
正文语种 eng
中图分类
关键词
Optical Character Recognition; OCR Quality; Digital Image Processing; Binarization; Noise Removal; Tesseract; Finnish; Historical Documents;

机译：光学字符识别; OCR质量；数字图像处理；二值化；噪音消除Tesseract;芬兰;历史文献;

相似文献

外文文献
中文文献
专利

1. Automated system inspects radioactive medical imaging product labels A contact image sensor (CIS) line scan camera provides clear images of radiotracer labels for optical character recognition and optical character verification tasks. [J] . James Carroll Vision Systems Design . 2019,第10期

机译：自动化系统检查放射性医学成像产品标签接触式图像传感器（CIS）线扫描相机可提供放射性示踪剂标签的清晰图像，以进行光学字符识别和光学字符验证任务。
2. Histogram Equalization Implementation in the Preprocessing Phase on Optical Character Recognition [J] . Peter Pangestu, Dennis Gunawan, Seng Hansun International Journal of Technology . 2017,第5期

机译：光学字符识别的预处理阶段直方图均衡化实现
3. Preprocessing and Image Enhancement Algorithms for a Form-based Intelligent Character Recognition System. [J] . Dipti Deodhare, NNR Ranga Suri, R. Amit International Journal of Computer Science & Applications . 2005,第2期

机译：基于表单的智能字符识别系统的预处理和图像增强算法。
4. Improving Optical Character Recognition of Finnish Historical Newspapers with a Combination of Fraktur Antiqua Models and Image Preprocessing [C] . Mika Koistinen, Kimmo Kettunen, Tuula Paeaekkoenen Nordic Conference of Computational Linguistics . 2017

机译：用Fraktur＆Antiqua模型和图像预处理的组合改善芬兰历史报纸的光学字符识别
5. An Intelligent Semi-Automatic Workflow for Optical Character Recognition of Historical Printings =Ein intelligenter semi-automatischer Workflow für die OCR historischer Drucke [D] . Reul, Christian. 2020

机译：用于光学字符识别的智能半自动工作流程识别历史印刷= OCR历史印刷品的智能半自动工作流程
6. A Real-Time Automatic Plate Recognition System Based on Optical Character Recognition and Wireless Sensor Networks for ITS [O] . Nicole do Vale Dalarmelina, Marcio Andrey Teixeira, Rodolfo I. Meneguette 2020

机译：基于光学字符识别和无线传感器网络的ITS实时自动车牌识别系统
7. Form Recognition dan Character Mapping Menggunakan Image Segmentation dan Optical Character Recognition [O] . Christian Wibisono, Setia Budi 2021

机译：表格识别丹字符映射Menggunakan图像分割Dan光学字符识别
8. Optical Character Recognition in Microfilmed Newspaper Library Collections: AFeasibility Study [R] . Alkula, R., Pieskae, K. 1994

机译：微缩胶卷报库馆藏中的光学字符识别：可行性研究

Improving Optical Character Recognition of Finnish Historical Newspapers with a Combination of Fraktur Antiqua Models and Image Preprocessing

摘要

著录项

相似文献

相关主题

期刊订阅