首页> 外文会议>International Workshop on Document Analysis Systems >Machine Learning of Generalized Document Templates for Data Extraction
【24h】

Machine Learning of Generalized Document Templates for Data Extraction

机译:用于数据提取的广义文档模板的机器学习

获取原文

摘要

The purpose of this research is to reverse engineer the process of encoding data in structured documents and subsequently automate the process of extracting it. We assume a broad category of structured documents for processing that goes beyond form processing. In fact, the documents may have flexible layouts and consist of multiple and varying numbers of pages. The data extraction method (DataX) employs general templates generated by the Inductive Template Generator (InTeGen). The InTeGen method utilizes inductive learning from examples of documents with identified data elements. Both methods achieve high automation with minimal user's input.
机译:本研究的目的是逆转工程师在结构化文档中编码数据的过程,随后自动化提取它的过程。我们假设广泛的结构化文件,以便处理超出形式处理。实际上,文档可能具有灵活的布局并由多个和不同数量的页面组成。数据提取方法(Datax)采用由电感模板生成器(整数)产生的一般模板。整数方法利用具有识别数据元素的文档示例的归纳学习。两种方法都通过最小的用户输入实现了高自动化。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号