...
首页> 外文期刊>電子情報通信学会技術研究報告. パターン認識·メディア理解. Pattern Recognition and Media Understanding >PDLデータの解析による多様な形式の文書からの情報抽出方式の検討
【24h】

PDLデータの解析による多様な形式の文書からの情報抽出方式の検討

机译:通过分析PDL数据检查各种格式化文档的信息提取方法

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

ここでは多様なファイル形式の文書から、もれなく内容情報を抽出可能な文書解析方式を提案する。この文書解析方式は、文書を疑似的に印刷処理してプリンタが解釈可能なPDLデータを作成し、この内容を解析する。 このPDLデータの解析処理では、PDL内部にあるテキストデータを抽出し、イメージデータやベクトルフォントデータを文字認識処理する。 これにより電子文書、画像、CAD図面等の多様な文書から情報抽出が可能となる。ここでは本方式のと評価結果について述べる。
机译:这里,我们提出了一种能够从各种文件格式的文档中提取内容信息的文档分析方法。 本文档分析方法执行文档的伪打印处理以创建可以由打印机解释的PDL数据,并分析此内容。 在PDL数据的分析处理中,提取PDL内部的文本数据,并且识别图像数据和矢量字体数据。 结果,信息提取可以从诸如电子文档,图像和CAD附图之类的各种文档执行。 这里,将描述该方法的评估结果。

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号