...
首页> 外文期刊>電子情報通信学会技術研究報告. オフィスインフォメ-ションシステム >リスト構造の種類に着目した非構造的な羅列型Webページからの情報抽出
【24h】

リスト構造の種類に着目した非構造的な羅列型Webページからの情報抽出

机译:来自非结构监听类型网页的信息提取专注于列表结构类型

获取原文
获取原文并翻译 | 示例
           

摘要

Web2.0の概念およびシステムの登場に伴いWeb上の情報はユーザの目的に応じたカスタマイズが可能になりつつある。しかし、Web2.0登場以前に作成された羅列型Webページは非構造的に作成されているため情報活用のためのデータベース化およびWebAPIの作成にはメタデータを生成する必要がある。 筆者らは、非構造的なWebページのHTMLが記述するデザインがある種の構造体であり、羅列型ページの特徴であるタグの集合リスト構造を形成することに着目し、その各要素のタグパスと情報の属性とを対応させることにより効率的な情報抽出およびメタデータ付与を行うことを提案する。 実際には、例外的に出現するタグの存在によりシステムはWebAPI作成に必要な抽出性能に達しない。 そこで本稿では、作業の効率化とエラー耐性強化のため、集合リストの各要素のツリー型タグ構造を平滑化し単純化するツールを付属したシステムを提案する。
机译:随着Web 2.0概念和系统的出现,Web的信息正在变得可以根据用户的目的自定义。但是,由于在Web 2.0外观之前创建的罗型网页列表已经创建了非结构,因此必须为数据库制作和WebAPI创建生成元数据。作者是由非结构网页的HTML设计的各种结构,并专注于形成具有列出页面特征的标签的集合列表结构,每个元素的每个元素都建议进行高效的信息提取和通过制作信息和信息的属性来实现元数据。实际上,由于存在特殊外观标签,系统不会达到创建WebAPI所需的提取性能。因此,在本文中,我们提出了一种系统,该系统配备了一个工具,可以平滑和简化集合列表的每个元件的树型标签结构,以提高效率和强化误码性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号