首页> 外文期刊>電子情報通信学会論文誌, D. 情報·システム >ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出
【24h】

ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出

机译:基于页面描述语言的分析,从各种文档中提取结构化内容信息

获取原文
获取原文并翻译 | 示例
           

摘要

文書から内容情報を抽出するには,一般に文書のファイル形式に対応した情翻由出フィルタを用いる"情報相出フィルタは文書内のテキスト(コード化文字)を抽出するが,文書に含まれる画像中の文字や図面に線分で描かれた文字などの非コ、-ド化文字は抽出困難であり,抽出した情報に欠損がある"また抽出できる情報はテキストであり,レイアウト情報や,章節や表構造などの文書論理構造が取得できない課題がある.本論文では,これらの課題に対応した文書解析方式を提案する.本方式は,文書を擬似的に印刷処理してプリンタが印刷を行うための情報を格納したページ記述言語のデータを作成し,内部のグラフィック要素を解析することで,文書中に含まれるコ-ド化文字と非コード化文字の情報を漏れなく抽出できる小吏に印刷時のレンダリング情報を解析することで,従来は主に文書画像に適用されていたレイアウト解析方式を電子文書にも適用でき,ファイル形式に依存しない文書論理構造の抽出が可能となる1実験では,ファイル形式の異なる文書画像,電子文書,CAD図面に本方式を適用し,その有効性を確認した.
机译:要从文档中提取内容信息,通常使用与文档的文件格式相对应的情感输出过滤器。“信息输出过滤器会提取文档中的文本(编码字符),但会提取文档中包含的图像。诸如内部字符和在图形中用线条绘制的字符之类的非编码字符很难提取,并且提取的信息丢失。“此外,可以提取的信息是文本,布局信息和章节。存在不能获得诸如表结构之类的文档逻辑结构的问题。在本文中,我们提出了一种解决这些问题的文档分析方法,该方法可创建页面描述语言数据,该数据用于存储打印机要通过伪打印文档进行打印的信息。通过分析内部图形元素,可以不遗漏地提取文档中包含的编码字符和非编码字符的信息,而通过分析打印时的绘制信息,过去已被广泛使用。可以将应用于文档图像的版面分析方法应用于电子文档,并且可以提取不依赖于文件格式的文档逻辑结构。在一个实验中,将书应用于具有不同文件格式的文档图像,电子文档和CAD图。我们应用了该方法并确认了其有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号