首页> 外文期刊>Information technology and libraries >Digitization of Text Documents Using PDF/A
【24h】

Digitization of Text Documents Using PDF/A

机译:使用PDF / A对文本文档进行数字化

获取原文
           

摘要

The purpose of this article is to demonstrate a practical use case of PDF/A file format for digitization of textual documents, following recommendation of using PDF/A as a preferred digitization file format. The authors showed how to convert and combine all the TIFFs with associated metadata into a single PDF/A-2b file for a document. Using open source software with real-life examples, the authors show readers how to convert TIFF images, extract associated metadata and ICC profiles, and validate against the newly released PDF/A validator. The generated PDF/A file is a self-contained and self-described container which accommodates all the data from digitization of textual materials, including page-level metadata and/or ICC profiles. With theoretical analysis and empirical examples, PDF/A file format has many advantages over traditional preferred file format TIFF / JPEG2000 for digitization of textual documents.
机译:本文的目的是在推荐使用PDF / A作为首选的数字化文件格式之后,演示用于文本文档数字化的PDF / A文件格式的实际使用案例。作者展示了如何将所有TIFF和关联的元数据转换并组合成文档的单个PDF / A-2b文件。通过使用带有真实示例的开源软件,作者向读者展示了如何转换TIFF图像,提取关联的元数据和ICC配置文件以及如何针对新发布的PDF / A验证器进行验证。生成的PDF / A文件是一个自包含的,自描述的容器,其中包含文本材料数字化所产生的所有数据,包括页面级元数据和/或ICC配置文件。通过理论分析和经验示例,PDF / A文件格式在文本文档数字化方面比传统的首选文件格式TIFF / JPEG2000具有许多优势。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号