首页> 外文会议>International Workshop on Document Analysis Systems >A System for Converting PDF Documents into Structured XML Format
【24h】

A System for Converting PDF Documents into Structured XML Format

机译:一种用于将PDF文档转换为结构化XML格式的系统

获取原文

摘要

We present in this paper a system for converting PDF legacy documents into structured XML format. This conversion system first extracts the different streams contained in PDF files (text, bitmap and vectorial images) and then applies different components in order to express in XML the logically structured documents. Some of these components are traditional in Document Analysis, other more specific to PDF. We also present a graphical user interface in order to check, correct and validate the analysis of the components. We eventually report on two real user cases where this system was applied on.
机译:我们在本文中存在一个系统,用于将PDF遗留文档转换为结构化XML格式。该转换系统首先提取包含在PDF文件(文本,位图和矢量图像)中的不同流,然后应用不同的组件才能以XML表示逻辑结构化文档。其中一些组件是传统的文档分析,其他更具体的PDF。我们还呈现了一个图形用户界面,以便检查,更正和验证组件的分析。我们最终报告了应用该系统的两个真实用户案例。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号