【24h】

Learning-based Transformation for Text Documents

机译:基于学习的文本文档转换

获取原文
获取原文并翻译 | 示例

摘要

This paper presents a method to automatically transform semistructured (not necessarily tagged) text documents into content-tagged documents based on techniques from machine learning and computational linguistics. The method consists of two phases. First, a learning-based segmentation module is used to extract regions and sequences from the documents. Second, translation from region-marked documents to XML is done by a transformation-based learning (TBL) translator that is very effective even with a small set of training examples.
机译:本文提出了一种基于机器学习和计算语言学的技术,将半结构化(不一定带标签)的文本文档自动转换为带内容标签的文档的方法。该方法包括两个阶段。首先,基于学习的分割模块用于从文档中提取区域和序列。其次,从基于区域标记的文档到XML的转换是通过基于转换的学习(TBL)转换程序完成的,即使只有很少的培训示例,转换程序也非常有效。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号