ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出

平野敬; 岡野祐一寸; 岡田康裕; 依田文夫; Takashi HIRANO; Yuichi OKANO; Yasuhiro OKADA; Fumio YODA

首页> 外文期刊>電子情報通信学会論文誌, D. 情報·システム >ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出

【24h】

ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出

机译：基于页面描述语言的分析，从各种文档中提取结构化内容信息

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

文書から内容情報を抽出するには，一般に文書のファイル形式に対応した情翻由出フィルタを用いる"情報相出フィルタは文書内のテキスト（コード化文字）を抽出するが，文書に含まれる画像中の文字や図面に線分で描かれた文字などの非コ、－ド化文字は抽出困難であり，抽出した情報に欠損がある"また抽出できる情報はテキストであり，レイアウト情報や，章節や表構造などの文書論理構造が取得できない課題がある．本論文では，これらの課題に対応した文書解析方式を提案する.本方式は，文書を擬似的に印刷処理してプリンタが印刷を行うための情報を格納したページ記述言語のデータを作成し，内部のグラフィック要素を解析することで，文書中に含まれるコ－ド化文字と非コード化文字の情報を漏れなく抽出できる小吏に印刷時のレンダリング情報を解析することで，従来は主に文書画像に適用されていたレイアウト解析方式を電子文書にも適用でき，ファイル形式に依存しない文書論理構造の抽出が可能となる1実験では，ファイル形式の異なる文書画像，電子文書，CAD図面に本方式を適用し，その有効性を確認した．

机译：要从文档中提取内容信息，通常使用与文档的文件格式相对应的情感输出过滤器。“信息输出过滤器会提取文档中的文本（编码字符），但会提取文档中包含的图像。诸如内部字符和在图形中用线条绘制的字符之类的非编码字符很难提取，并且提取的信息丢失。“此外，可以提取的信息是文本，布局信息和章节。存在不能获得诸如表结构之类的文档逻辑结构的问题。在本文中，我们提出了一种解决这些问题的文档分析方法，该方法可创建页面描述语言数据，该数据用于存储打印机要通过伪打印文档进行打印的信息。通过分析内部图形元素，可以不遗漏地提取文档中包含的编码字符和非编码字符的信息，而通过分析打印时的绘制信息，过去已被广泛使用。可以将应用于文档图像的版面分析方法应用于电子文档，并且可以提取不依赖于文件格式的文档逻辑结构。在一个实验中，将书应用于具有不同文件格式的文档图像，电子文档和CAD图。我们应用了该方法并确认了其有效性。

著录项

来源
《電子情報通信学会論文誌, D. 情報·システム》 |2008年第5期|共12页
作者
平野敬; 岡野祐一寸; 岡田康裕; 依田文夫; Takashi HIRANO; Yuichi OKANO; Yasuhiro OKADA; Fumio YODA;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类无线电电子学、电信技术;
关键词
文書解析; 文字認識; レイアウト解析; 文書構造解析; ページ記述言語;

机译：文档分析;字符识别;布局分析;文档结构分析;页面描述语言;

相似文献

外文文献
中文文献
专利

1. ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出 [J] . 平野　敬, 岡野　祐一, 岡田　康裕, 電子情報通信学会論文誌 . 2008,第5期

机译：基于页面描述语言的分析，从各种文档中提取结构化内容信息
2. ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出 [J] . 平野敬, 岡野祐一寸, 岡田康裕, 電子情報通信学会論文誌, D. 情報·システム . 2008,第5期

机译：基于页面描述语言的分析，从各种文档中提取结构化内容信息
3. ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出 [J] . 平野敬, 岡野祐一寸, 岡田康裕, 電子情報通信学会論文誌, D. 情報·システム . 2008,第5期

机译：基于页面描述语言分析的不同文档提取结构化内容信息
4. 加工情報蓄積のためのCNC データモデルに基づくNC データの解析（第6報）－実用的なNC データから抽出した加工情報の蓄積 [C] . 川口貴司, 田中文基, 小野里雅彦精密工学会大会学術講演会 . 2009

机译：基于CNC数据模型的NC数据分析，用于加工信息累积（第6次报告） - 从实际NC数据中提取的处理信息的影响
5. 角度情報に基づく画像からの3次元情報復元の研究 [D] . 尺長, 健 1991

机译：基于角度信息的图像3D信息恢复研究
6. 平成25年電気学会電子・情報・システム部門大会講演申込登録のご案内（第4報）／特集号の論文募集（「量子ビームによるナノバイオ物理応用技術」特集／「機械学習手法に基づく設備診断・監視技術」特集／「デペンダブルなサービスシステムに貢献する情報・システム技術」特集）／第17回アナログVLSIシンポジウム開催案内 [O] . 2013

机译：电子社会申请登记的信息电子社会电子和信息和系统司的消防社会（第4次报告）/特殊问题文件规范（“纳米梁物理应用技术按量子梁”/“设施诊断基于机器学习方法特殊功能/“特殊问题”“信息和系统技术导致可靠服务系统”）/第17个模拟VLSI研讨会举行指南

ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出

摘要

著录项

相似文献

相关主题

期刊订阅