【24h】

From Legacy Documents to XML: A Conversion Framework

机译:从旧版文档到XML:转换框架

获取原文
获取原文并翻译 | 示例

摘要

We present an integrated framework for the document conversion from legacy formats to XML format. We describe the LegDoC project, aimed at automating the conversion of layout annotations layout-oriented formats like PDF, PS and HTML to semantic-oriented annotations. A toolkit of different components covers complementary techniques the logical document analysis and semantic annotations with the methods of machine learning. We use a real case conversion project as a driving example to exemplify different techniques implemented in the project.
机译:我们提供了一个用于将文档从传统格式转换为XML格式的集成框架。我们描述了LegDoC项目,该项目旨在自动将布局注释(例如PDF,PS和HTML等面向布局的格式)转换为面向语义的注释。不同组件的工具包涵盖了补充技术,逻辑文档分析和语义注释以及机器学习方法。我们以实际案例转换项目为例,来举例说明该项目中实施的各种技术。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号