首页> 外文期刊>電子情報通信学会論文誌, D. 情報·システム >ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出
【24h】

ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出

机译:基于页面描述语言分析的不同文档提取结构化内容信息

获取原文
获取原文并翻译 | 示例
           

摘要

文書から内容情報を抽出するには,一般に文書のファイル形式に対応した情翻由出フィルタを用いる"情報相出フィルタは文書内のテキスト(コード化文字)を抽出するが,文書に含まれる画像中の文字や図面に線分で描かれた文字などの非コ、-ド化文字は抽出困難であり,抽出した情報に欠損がある"また抽出できる情報はテキストであり,レイアウト情報や,章節や表構造などの文書論理構造が取得できない課題がある.本論文では,これらの課題に対応した文書解析方式を提案する.本方式は,文書を擬似的に印刷処理してプリンタが印刷を行うための情報を格納したページ記述言語のデータを作成し,内部のグラフィック要素を解析することで,文書中に含まれるコ-ド化文字と非コード化文字の情報を漏れなく抽出できる小吏に印刷時のレンダリング情報を解析することで,従来は主に文書画像に適用されていたレイアウト解析方式を電子文書にも適用でき,ファイル形式に依存しない文書論理構造の抽出が可能となる1実験では,ファイル形式の異なる文書画像,電子文書,CAD図面に本方式を適用し,その有効性を確認した.
机译:为了从文档中提取内容信息,“信息逐渐淘汰过滤器”通常,使用与文档的文件格式对应的个人广播滤波器的信息逐步淘汰过滤器,提取文档中的文本(编码字符),但是包含在文档中的图像难以提取诸如在线段中绘制的字符的图像难以提取,并且难以提取提取的信息,并且存在诸如表结构之类的文档逻辑结构的问题。在本文中,我们提出了一种对应于这些问题的文献分析方法。该方法创建页面描述语言存储信息的数据存储伪打印处理以打印文档,并存储用于打印打印机的信息。通过分析内部图形元素,可以通过可以在不泄漏包括在文档中的相关字符和包含在文档图像中的不编码字符的情况下进行打印时的渲染信息,并且应用于文档图像的布局分析方法可以应用于电子文档并且在文件格式的实验,文档图像,电子文档和CAD绘制中,不依赖于文件格式的文档逻辑结构。该方法是应用的,确认其有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号