...
首页> 外文期刊>Portal:libraries and the academy >Loose, Falling Characters and Sentences: The Persistence of the OCR Problem in Digital Repository E-Books
【24h】

Loose, Falling Characters and Sentences: The Persistence of the OCR Problem in Digital Repository E-Books

机译:字符的松散,下降:数字存储库电子书中的OCR问题的持续存在

获取原文
获取原文并翻译 | 示例
           

摘要

The electronic conversion of scanned image files to readable text using optical character recognition (OCR) software and the subsequent migration of raw OCR text to e-book text file formats are key remediation or media conversion technologies used in digital repository e-book production. Despite real progress, the OCR problem of reliability and accuracy in OCR-derived e-book text and metadata persists. This paper examines a selection of digitized e-books in several prominent digital repositories and discusses the impact of OCR technology on e-book text file formats, metadata, and the online reading experience.
机译:使用光学字符识别(OCR)软件将扫描的图像文件电子转换为可读文本,以及随后将原始OCR文本转换为电子书文本文件格式,是数字存储库电子书生产中使用的关键补救或媒体转换技术。尽管取得了实质性进展,但OCR衍生的电子书文本和元数据中的OCR可靠性和准确性仍然存在。本文研究了几个著名的数字存储库中精选的数字化电子书,并讨论了OCR技术对电子书文本文件格式,元数据和在线阅读体验的影响。

著录项

  • 来源
    《Portal:libraries and the academy》 |2015年第1期|59-91|共33页
  • 作者

    Diana Kichuk;

  • 作者单位

    University of Saskatchewan Library in Saskatoon, Canada;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号