首页> 外文期刊>Zeitschrift fur bibliothekswesen und bibliographie >Digitalisierung historischer Zeitungen aus dem Blickwinkel der automatisierten Text- und Strukturerkennung (OCR)
【24h】

Digitalisierung historischer Zeitungen aus dem Blickwinkel der automatisierten Text- und Strukturerkennung (OCR)

机译:从自动文本和结构识别(OCR)角度对历史报纸进行数字化

获取原文
获取原文并翻译 | 示例
       

摘要

Die OCR Erkennung ist eine Schlüsseltechnologie, an der man bei der systematischen Digitalisierung von historischen Zeitungen nicht vorbeikommen wird. Obwohl vielfach nur eine Wortgenauigkeit von 80% oder weniger für Zeitungen des 19. und 20. Jahrhunderts zu erzielen sein wird, bietet dieser fehlerhafte Volltext trotzdem die Grundlage für eine ganze Reihe interessanter Anwendungen - von der Volltextsuche, über die Indexierung durch Suchmaschinen bis zur Online-Korrektur durch Benutzer. Der Einsatz der OCR erfordert allerdings sowohl bei der Projektplanung, der Gestaltung des Workflows, der Durchführung der Qualitätskontrolle als auch der Konzeption der Langzeitarchivierung und der Präsentation im Internet ein Umdenken gegenüber herkömmlichen Digitalisierungsprojekten.%OCR recognition is a key technology which cannot be circumvented when systematically digitizing historical newspapers. Although often achieving a word accuracy of only 80% or less for newspapers of the 19th and early 20th century, these imperfect files nevertheless provide a basis for a number of interesting applications - from full-text searching to indexing by search engines and online correction by users. However, in comparison to traditional digitization projects, the use of OCR requires a fundamental change of thinking during the project planning, the design of the workflow, the implementation of quality control, and in the designing of long-term preservation and presentation of digitized material on the Internet.
机译:OCR识别是一项关键技术,在历史报纸的系统数字化中您将无法避免。尽管在许多情况下,对于19世纪和20世纪的报纸而言,只能达到80%或更少的单词准确度,但这种错误的全文仍然为整个有趣的应用提供了基础-从全文搜索和搜索引擎索引到在线-用户更正。但是,与传统的数字化项目相比,OCR的使用需要在项目规划,工作流程设计,质量控制的实施以及长期归档和在Internet上进行展示的概念方面进行重新思考。数字化历史报纸。尽管对于19世纪和20世纪初的报纸而言,它们通常只能达到80%或更少的单词准确性,但这些不完善的文件仍然为许多有趣的应用程序提供了基础-从全文本搜索到搜索引擎的索引编制以及通过用户。但是,与传统的数字化项目相比,OCR的使用需要在项目计划,工作流程设计,质量控制的实施以及数字化资料的长期保存和表示的设计过程中发生观念上的根本变化。在网上。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号